关于大数据以及社会科学的一点思考

  1. 关于大数据泡沫:

大数据的热潮愈演愈烈,颇有些发烧过头的感觉。仔细想想,对于社会科学研究工作,大数据的意义到底在哪里?自我总结了一下,归结为三点:一是大,因此对于电脑数据处理能力有高要求,特别是实时数据流,为了在数据更新之前得出结论,必须在有限时间内完成分析;二是杂,市场客观数据不再为某个研究课题度身定制,必须能够从各种烦杂干扰(confounding)中找出正确的数据鉴别策略(identification strategy),从而推断因果关系,所以对统计分析能力有高要求;三是数据出现在问题之前,和第二点相呼应,必须培养挖掘(data-mining)的眼光和见地,才能根据已有数据问出有价值的好问题。这三点的难度逐次增加,特别是第三点,太需要所研究行业的行业知识了(domain knowledge), 总感觉自己在这方面太稚嫩,一时半会儿很难有所突破。

2. 关于中国数据:

中国和印度数据的珍贵之处就在于,发达国家的社会发展已经非常平稳,缺乏显著变化;而中国现在经历着前所未有的迅速发展,这种动态下的社会方方面面,不仅从历史、政治学角度来讲十分有研究意义,而且从统计分析角度来讲,数据的厚度(多变量)、长度(多时期)、丰富度(大量variation),都给统计检测带来极大便利。当然,天下没有免费午餐,这样的数据带来的麻烦,就是伪相关 (spurious correlation)。要鉴别出真正的因果关系,对于现象背后的机理的理解至关重要。而这么高速变动的社会里,其背后的domain/institutional knowledge实在是太不容易厘清了。另一方面,中国尚不完善的数据收集和清理体系也造成很多数据的质量不可保证。数据缺失、篡改实在是太多,数据内部自相矛盾的地方经常造成很多信息不可用。当然这主要局限在政府数据上,很多研究机构自己牵头的调研数据还是不错的。不过话说回来,既然谈的是未经事先设计的大数据,那么多半都是网上扒的;天国审查制度,不禁又多添一条干扰……

3. 关于机器学习

大数据带来的另一重热潮,就是对机器学习的追捧。 不过作为一个从前“热门”专业的大坑跳出来的人,经验提醒我,对任何领域的热乎劲都要保持几分谨慎……瞧瞧CS界,机器学习的热度已经开始下降,毕竟人家的重点不是什么application, 而是发展新的理论(譬如近几年大火的深度学习)。同样的,只是把一个人家用滥了的方法应用到社科界来而不添加任何额外价值,这样的纯粹arbitrage实在是危险且易于被复制的。说到底,借鉴的目的也是为了创新,如何基于已有新方法新技术而发现社科领域有意义的新知,才是应该反复思考的。提醒自己,切忌过于迷恋技术,而忘了科学研究的本质……回归上面三点,说到底前两点都只是容易拾起的“术”(特别是对于一个受尽折磨的PhD), 而最后一点,才是作科研反复求索的“道”。说白了,明白机器学习相关技术的逻辑,剩下来的implementation,就交给RA去做吧。

To Be Continued…

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s