传统统计分析与大数据技术的讨论

admin / 博文 / ... / Reads: 2400

传统统计分析的本质是“根据样本特征来推断总体属性”,即用少量的样本来研究包含大量个体的总体,根据“部分”来估计“全部”一定会产生误差,这个误差就叫抽样误差。从方法上统计分析又可以分为描述性统计和统计模型。描述性统计根据样本均值、方差、时间趋势来初步认识总体。如果想更进一步了解总体,则需要采用统计模型,在对抽样误差分布做出合理假设的情况下,在一定的精度下推断总体的属性!如明天有95%的可能性会下雨。统计模型已经在各行各业得到了广泛应用,如“吸烟有害健康”这个推断,采用统计的表达是“正常人吸烟有95%的可能性会对身体产生危害”;“血压高压的正常范围应该在90-140mmHg”这个推断,采用统计的表达是“血压高压正常范围有95%的可能性在90-140mmHg”,所以一个人的血压高压是150mmHg,并不能完全证明他得了高血压,只能说他得高血压的可能性有95%。

根据不同的样本数据类型(定性数据、定量数据、时间序列、截面数据等),统计学家提出了各种各样的统计模型,且统计模型变得越来越复杂,但是模型的复杂度上并不会本质上降低统计推断的误差,因为根据“部分”来估计“全部”一定会产生误差。

那么,我们能否改变思路,直接研究总体呢?原则上可以,但是实践中很难操作,因为总体的数量往往非常大。如研究中国人口的平均体重,我们很难收集到14亿多人口的数据,而且计算机也难以处理这么大的数据。随着电子信息技术的发展,数据收集越来越容易,同时计算机运算能力上升,使直接研究总体成为了可能,大数据技术也应运而生。由于大数据技术直接研究总体,所以只需要描述性统计就可以认识总体属性。例如,我们收集到了99%的总体数据(假设数据是平衡的),那么可以直接用该数据集的平均数做为总体平均数的估计值,且正确率为99%。极端情况下,如果能够获取100%的总体数据,那么对总体推断的正确率就可以达到100%。

传统统计的难点在于抽样误差的处理,而大数据技术的难点在于数据收集和存储过程以及成本问题。所以两者在不同的场景下都有应用,而且将长期共存。

Comments

Make a comment

Author: admin

Publish at: ...

关注公众号: