传统统计分析与大数据技术的讨论

admin / 博文 / ... / Reads: 5528

传统统计分析的本质是“根据样本特征来推断总体属性”，即用少量的样本来研究包含大量个体的总体，根据“部分”来估计“全部”一定会产生误差，这个误差就叫抽样误差。从方法上统计分析又可以分为描述性统计和统计模型。描述性统计根据样本均值、方差、时间趋势来初步认识总体。如果想更进一步了解总体，则需要采用统计模型，在对抽样误差分布做出合理假设的情况下，在一定的精度下推断总体的属性！如明天有95%的可能性会下雨。统计模型已经在各行各业得到了广泛应用，如“吸烟有害健康”这个推断，采用统计的表达是“正常人吸烟有95%的可能性会对身体产生危害”；“血压高压的正常范围应该在90-140mmHg”这个推断，采用统计的表达是“血压高压正常范围有95%的可能性在90-140mmHg”，所以一个人的血压高压是150mmHg，并不能完全证明他得了高血压，只能说他得高血压的可能性有95%。

根据不同的样本数据类型（定性数据、定量数据、时间序列、截面数据等），统计学家提出了各种各样的统计模型，且统计模型变得越来越复杂，但是模型的复杂度上并不会本质上降低统计推断的误差，因为根据“部分”来估计“全部”一定会产生误差。

那么，我们能否改变思路，直接研究总体呢？原则上可以，但是实践中很难操作，因为总体的数量往往非常大。如研究中国人口的平均体重，我们很难收集到14亿多人口的数据，而且计算机也难以处理这么大的数据。随着电子信息技术的发展，数据收集越来越容易，同时计算机运算能力上升，使直接研究总体成为了可能，大数据技术也应运而生。由于大数据技术直接研究总体，所以只需要描述性统计就可以认识总体属性。例如，我们收集到了99%的总体数据（假设数据是平衡的），那么可以直接用该数据集的平均数做为总体平均数的估计值，且正确率为99%。极端情况下，如果能够获取100%的总体数据，那么对总体推断的正确率就可以达到100%。

传统统计的难点在于抽样误差的处理，而大数据技术的难点在于数据收集和存储过程以及成本问题。所以两者在不同的场景下都有应用，而且将长期共存。

传统统计分析与大数据技术的讨论

Comments

Make a comment