当前位置:首页 > 公司动态
大数据时代,传统统计学有哪些变革?
  • 发表时间:2019-08-15 点击数:216
  • 来源:未知

数据热有增无减,再看看发表在两年前的文章,你的思考是什么呢?

什么是统计学?

统计学是一门在不确定性方面为了做出正确的推断而进行搜集、分析定量数据的科学和艺术。

——美国百科全书

统计学是一门搜集数据,分析数据,并根据数据进行推断的艺术和科学,最初与政府搜集数据有关,现在包括了范围广泛的方法和理论。

——大英百科全书

一门研究怎样有效地搜集、整理和分析带有随机性的数据,以对所考察的问题做出推断或预测,直至为采取一定的决策和行动提供依据和建议的学科。

——中国百科全书

统计学与数据科学息息相关。

大数据时代的到来,是统计学发展史上的里程碑,给统计学的发展带来了前所未有的机遇,但同时,也对统计学提出了更多的挑战。那么,大数据时代下,传统统计学有哪些变革呢?

1. 样本概念的深化

传统统计学利用研究中实际观测或调查的一部分个体(样本),通过统计方法进行统计推断,从而了解总体的情况。

大数据时代,数据大部分为网络数据,可将其分为两种类型:静态数据和动态数据。

静态数据

静态数据是当客户在查看数据的时候已经被生成好了,没有和服务器数据库进行交互的数据。

此类数据的最大特点是:样本等同于总体,这样无需去提取样本并检测样本的可用性,减少了成本,并且总体本身对总体的反映更为准确,减少了误差。

动态数据

动态数据是随着时间的推移而变化的,比如网络访问量、在线人数等。此时,总体表现为历史长河中所有数据的总和,而我们分析的对象为样本。 这里的样本与传统样本的概念不同,因其并非局限于随机抽取的数据,更可以是选定的与分析目的相关的数据。

2. 数据类型的扩大

传统统计学的数据为结构化数据,即可以用常规统计指标或图表表现出来的定量数据或专门设计的定性数据,有固定的结构和标准。

大数据是指不仅包括结构化数据,还包含非结构化数据、半结构化数据或异构数据,即一切可以记录和存储的信号。

结构化数据,即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据,如:学生姓名、学号等。

非结构化数据是不方便用数据库二维逻辑表来表现的数据,如:图像、音频、视频等。

半结构化数据或异构数据,它是结构化的数据,但是结构变化很大。既不能将数据简单的组织成一个文件按照非结构化数据处理,也不能够简单的建立一个表与之对应。如:员工的简历。

3.收集概念的扩展

传统统计中,数据的收集需要根据统计分析的目的进行,过程包括设计调查方案、严格控制调查流程,因此具有低效率、高成本的缺点。

大数据时代,对数据的收集分为三步:

(1) 数据预处理,包括识别与整理;

(2) 数据分析,提炼有价值的信息;

(3) 数据存储。

大数据时代下,对于超大量可选择的数据,需要有针对性的搜集,同时,在存储能力,分析能力,甄别数据的真伪,选择关联物,提炼和利用数据,确定分析节点等方面,都需要斟酌。

4. 数据来源不同

传统统计中是根据研究目的去收集数据,来源通常是已知的,很容易对数据提供者的身份进行识别或进行事后核对。

大数据的来源一般为信息网络系统,收集的数据是一切被人为记录的信号,不具有很强的目的性,数据的来源也很难追溯。在大数据时代,努力打造统计数据来源第二轨,就显得尤为重要。

5. 量化方式的变化

传统数据为结构化数据,对数据的量化方式已经相当成熟,并且比较容易得到可以直接进行分析的数据结果。

大数据时代主要面对的是非结构化数据,Franks说过:几乎没有哪种分析过程能够直接对非结构化数据进行分析,也无法直接从非结构化的数据中得出结论。目前,计算机学界已着手研发处理非结构化数据的技术,从统计角度直接处理非结构化数据,或将其量化成结构化数据,这是一个重要的研究领域。

6. 分析思维的改变

我们从统计分析、实证分析、推断分析三个方面论述大数据时代传统统计学分析思维的改变。

统计分析

传统的统计分析过程分三步:定性定量再定性。

首先通过经验判断找到统计方向,即目的;其次对数据进行量化、分析、处理等;最后根据结果得出结论。

大数据时代,统计分析过程:定量定性。

基础性的工作就是找到定量的回应,直接从各种定量的回应中找出有价值的、为我们所需要的数据,并通过分析找到数据的特征和数量关系,进而据此做出判断与决策。

实证分析

传统的统计实证分析思路:假设验证。

首先提出假设,接着按照统计方法进行数据的收集、分析、展示,最后通过所得到的结论对假设进行验证,事实证明,这种实证分析存在很大误差。

大数据时代实证分析思路:发现总结。

对数据进行整合,从中寻找关系、发现规律,然后再加以总结、形成结论,这将有助于发现更多意外的发现

推断分析

传统的统计推断分析过程:以分布理论为基础,在概率保证的前提下,对总体进行推断,通常是根据样本特征去推断总体特征,推断是否正确却取决于样本的好坏。

大数据时代统计推断分析过程:以实际分布为基础,根据总体的特征,进行概率的判断,在静态或者动态的某个时点,大数据所需处理的对象为总体数据,不需要根据分布理论推断总体特征,而要根据计算方法进行。

7. 统计软件的增多

传统统计学以统计模型和软件为基础进行数据分析处理,统计模型的作用在于对数据间的数量关系进行构建,统计软件是分析和处理数据的工具,需要研究者自主输入经过处理的数据,以及统计模型的公式等。

常见的统计软件有SASRSTATASPSSMATLAB等。

大数据所依赖的数据分析技术为非关系型的,以数据中心为基础。若将统计软件与大数据结合起来,则统计分析的过程可以得到很大程度上的简化。

综上所述,大数据时代的来临,对传统统计学的变革从样本的定义方法一直到数据分析的思维与技术均有所体现。可以看出,大数据使我们对数据的利用取得了更大的主动权,将促使传统统计学迅速的发展。

本文来源于《大数据时代对传统统计学变革的思考》;
《统计研究》2016年第2期。