CFPS cfps数据怎么获取利用

苹果/安卓/wp
积分 21, 距离下一级还需 3 积分
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
开心签到天数: 3 天连续签到: 1 天[LV.2]偶尔看看I
RT,感激不尽
支持楼主:、
购买后,论坛将把您花费的资金全部奖励给楼主,以表示您对TA发好贴的支持
载入中......
无限扩大经管职场人脉圈!每天抽选10位免费名额,现在就扫& 论坛VIP& 贵宾会员& 可免费加入
加入我们,立即就学扫码下载「就学」app& Join us!& JoinLearn&
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
京ICP证090565号
京公网安备号
论坛法律顾问:王进律师苹果/安卓/wp
学科带头人
学科带头人
积分 5069, 距离下一级还需 756 积分
权限: 自定义头衔, 签名中使用图片, 隐身, 设置帖子权限, 设置回复可见
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡, 抢沙发, 提升卡, 沉默卡, 千斤顶下一级可获得
道具: 变色卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
开心签到天数: 182 天连续签到: 1 天[LV.7]常住居民III
人大经济论坛经管爱问微信好号“jgasker”好文共享与推荐,实时答疑服务,欢迎关注!如何选用合适的数据,所选数据不仅要跟研究选题紧密相关,还必须反映文章的质量?这是一直萦绕在许多研究者心中的疑问。近年来,国内外经济学研究开始出现微观转向,许多学者开始重视微观数据,甚至还着手构建自己的数据库,改变了以往使用与构建数据库的理念。中国经济学教育科研网获作者授权今日推送一篇长文,深入谈论实证研究中微观数据的获取和使用问题,涉及权威数据库的使用,个人数据库的构建等方方面面,给正为论文研究“发愁”的你提供一些思路。做过研究,或在毕业季准备做研究的童鞋应该都有过这样的体会,即:如果做实证研究的话,论文中应该选用什么数据?而所选的数据不但跟自己的选题有关,还会反映文章的质量。本科时期教我的一些年长的老师大多使用的是宏观数据,如国家统计局提供的各类年鉴,或者是自己的调研数据,这或许反映了他们那一代人做研究的方法;而后来接触的几位刚从美国读完博士回来的老师,发现他们普遍倾向于使用微观数据,比如之前写过一篇文章提到的国内较常用的几个微观数据库。但是后来我在上海对外经贸大学的“微观应用计量”暑期班上接触到大量实证研究之后,我发现了一个特点:即每一篇展示的文章,基本上都是使用的不同的数据。甚至可以这样说,许多学者花费长时间构建自己(通常是小型)的数据库,就是为了写一篇文章(当然用同一套数据写几篇文章也挺常见的,如西财的何石军等人所做的清代妻妾价格研究)。这种构建数据库的想法,跟构建大型微观数据库的想法完全不同。这反映了实证研究数据来源的多样,也反映了在当下,一份好的研究值得我们付出漫长而耐心的努力。因此,本文主要谈下实证研究中数据的获取和使用问题,给大家(特别是需要展开论文研究的各位童鞋)提供一些思路。当然,范围限制在经济学学科,偏微观应用计量领域。微观数据库的使用及其意义中国的实证研究,一个重要的数据来源便是国内正在建设的几个微观数据库,包括但不限于:北大的CFPS、CHARLS,西财的CHFS、北卡的CHNS、北师大的CHIP、人大的CGSS等。目前国内的许多高校都在兴建类似于“社会科学调查中心”这样的机构,并希望依靠该平台建立自己的微观数据库,由此可见当下国内学界对微观数据的重视。大型微观数据库的意义在于:可研究的内容更广(变量多),更全面(涉及家庭方方面面),可做长期跟踪调查(更可靠的面板数据研究),且更能惠及学界(公开数据),等等。而对于需要开展研究的初学者来说,微观数据库最为重要的地方或许在于:一、数据质量高,这为他们的研究提供了可靠的基础;二、签署协议后可免费使用,这种学界的正外部性让初学者感到轻松许多。之前看过一个2011年左右的公开课,如果没听错的话,我记得视频里Raj Chetty说现在已经不兴使用Survey Data(调查数据),而是兴使用Administration Data(行政机构提供的数据?)。这里的Survey Data,指的就是上文提到的微观数据;而Administration Data,大概指的如税收数据这种由行政部门提供的数据。这里换个说法大家或许就不会感到太陌生了,Thomas Piketty 及其合作者Emmanuel Saez&利用美国政府提供的税收数据反推出美国的居民收入,由此研究收入不平等(Income &Inequality)的议题。而根据所做的研究,Piketty 后来出版了大家都很熟悉的&Capital in the Twenty-First Century一书。这就是一个使用Administration Data进行研究的故事。Chetty 这么说或许跟在美国学界的现状有关:在美国,申请官方的数据更为简单,且有法律支持;而美国的微观数据库,如NPL (The National Longitudinal Surveys),已经起步快40年了,因此建立在此之上的研究应该有很多。而国内的微观数据才刚刚起步,虽然也产生了许多研究,但还有许多社会状况有待于学界、民众和政府部门去了解。另外值得一提的是,中国的国家统计局(NBS)提供的每10年一次的人口普查数据,以及两次人口普查之间的1%抽样数据。最近一次的人口普查数据为六普数据(2010年);而1%抽样数据目前执行过三次,分别在和2005年。基于这些普查数据进行的研究也不少,如Qian Nancy(2008)著名那篇著名的Missing Women,当然,这篇文章还结合了地理数据。自己构建数据库除了使用现成的数据之外,就是自己构建数据库了。相较于上文提到的微观数据库,这种数据库显得较为小型,往往是因为一篇研究的需要而构建的数据库。数据来源往往为以下几个途径:调查问卷、历史文本、网络爬虫等。最后还会谈下一类较为特殊的数据,如地理、气象、环境数据,这类数据来自自然科学领域,往往作为配角和其他数据结合起来,帮助学者进行研究。1、调查问卷考虑财力人力等现实问题的话,学者通过小范围的调查问卷进行研究还是挺常见的。这方面的论文提多,这里提一篇个人觉得比较有意思的文章。陈钊、陆铭等人(2014)最近在CER上发表的关于“方言的回报”的研究,所使用的即是他们自己在上海地区收集的调查数据。自己用调查问卷收集数据,最为重要的是保证数据的质量。问卷设计是一方面,而更为需要注意的另一处是数据的偏误问题。举个例子,最近临近期末,可以看到许多同学(也包括在国外读研究生的同学额)为了做项目在微信朋友圈上发调查问卷。这种收集数据的方式,如果不是研究相关议题(如特定于微信用户的研究),那么就可能存在很多很严重的问题。这种调查方式收集的数据存在偏误,即自我选择偏误(self-selection bias)的问题。首先,大部分使用微信的都是年轻人,所以这种你不可能在朋友圈做类似于“城市老年人消费观念”的调查;其次,最为可能帮你你填写问卷的人是近期跟你玩得比较好的朋友,所以这种方式收集的数据内容甚至不能用来代表你朋友的普遍状况。比如,有一位女同学在收集了几份问卷信息之后,在朋友圈抱怨说,“基本都是女性在填写问卷,来几位男同胞啊。”如果说这种一开始就赤果果的偏差都没有引起她的注意,那么只能说她没有一点儿“随机抽样”的意识。而且,要知道,即使是最后填写问卷的男女比例达到了1:1,这样收集上来的数据也是“然并卵”的质量。不符合随机原则收集的调查数据可能完全不具备代表性,但并不是说就不能用,这跟你的研究内容有关。比如说,有一个域名为&zuobiao.me&的网站,为国人提供“中国政治坐标系测试”,这一测试在网民之间流传很广。后来这个网站被墙,于是站长觉得被墙之后收集的数据偏误会很大(BTW,站长是数学系的博士),因为能翻墙过来填写问卷的人跟无法翻墙的人之间的政治观念差异可能会很不一样,因此他决定公开该网站这几年收集的数据。根据这一数据,MIT的徐轶青等人(2015)和复旦的兰小欢(2015)各写了一篇文章。其实该网站被墙之前,收集的问卷数据也是有偏的,因为会做该测试的人,往往可能是对政治较为感兴趣的年轻网民,而不是全体国人。但是上面提到的两篇研究,研究的内容正是局限于对政治议题较为感兴趣且偏向于年轻的网友,因此即使数据有偏,但还是可以用在研究上。另外,“自我选择偏误”不单存在于数据收集上,还可能存在于进行实证研究时数据选取上。比如你感兴趣的是某一地区的全部人员,但是数据库提供的仅仅是劳动力市场上人员的调查数据;又比如你感兴趣的研究内容是劳动力的受教育程度对其收入的影响,但是你会发现受教育程度较高的这部分人,往往也是家庭背景较好的一类人,而这一类人的高收入可能是由于家庭背景导致的,而如何识别教育回报,也就是一个解决“自我选择偏误”的过程。对此感兴趣的同学可以看下Heckman(1979)的经典大作。2、历史文本从历史文本中整理数据是另一种收集数据的方式,我想随着国内经济史研究的方兴未艾,通过历史文本整理数据的研究可能会越来越多。即将在Econometrica刊发的Elite Recruitment and Political Stability一文,探讨了清朝废除科举制对政治稳定的影响,使用的即是整理自文本的历史数据:年间清朝262个府的面板数据。关于这篇文章的研究内容,可参见政见的这篇《废除科举加速清朝灭亡?》。而这篇文章的两位作者,也是政经和经济史领域的两颗学术新星,分别是目前在港中文的白营和UCSD的贾瑞雪。再举一些经济史方面的研究,如白营和贾瑞雪之前分别写的一些文章。白营和港科大的Prof. Kung 合作的两篇文章(),分别研究了气候变化对游牧民族入侵中原的影响,和新教在中国的知识传播对经济增长的影响。之前8月份第一次去青岛,我想到中国殖民地这方面的经济史研究选题,后来发现贾瑞雪做过一篇相关研究,即是这篇发在RES的&The Legacies of Forced Freedom。《量化历史研究》中颜色老师的那篇《从经济学的角度研究经济史的一点体会》,提到了经济史的一类很适合的研究内容为“遗产”研究(Legacy Research)。我原先不太明白什么叫做“遗产研究”,后来看到贾瑞雪这篇&The Legacies of Forced Freedom的研究内容,我才大概明白为什么说“遗产”研究是一类较为适合的经济史研究。其实很简单,从现实层面考虑,综合”历史数据的难以获取“和“当下经济数据的可获取性”两个现实,由此可推断经济史中一个可行的研究内容就是,研究历史上发生的事情对当下社会经济状况的影响,这即是所谓的“遗产”研究。这类的研究有许多,这里推荐Harvard的Melissa Dell的两篇文章,一篇是颜色老师在书中推荐的,发在Econometrica上的&The persistent effects of Peru’s mining mita&; 另一篇则是她的工作论文:State Capacity, Local Governance, and Economic Development in Vietnam。这两篇研究都是使用RDD,研究的都是历史上的某一事件对当下的影响,因此使用的数据为2000年之后的家户调查数据:前者使用的数据包括2001年的秘鲁家户调查数据(Peruvian National Household Survey ),后者使用的数据包括年的越南家户调查数据(Vietnam Household Living Standards Survey)。3、网络爬虫现在基于网络数据进行的实证研究也不少。一方面,网络数据虽然本身就是以电脑可直接处理的形式存在,但是该形式并不一定可以直接用做研究,也需要对其进行处理。另一方面,网络数据的优点之一是其涉及的样本量往往会比较大,因为它可能是用户自己提供的数据,如微博信息、婚恋网站的匹配数据等;也可能是定期更新的数据,如财经数据、电影票房信息等。网络数据经常需要用爬虫来获取,但这并不意味着研究人员本身需要具备爬虫技术,目前雇佣专业人员用爬虫获取数据的情况也是挺常见的。网络数据这方面的研究,上面提到的“微博”、“婚恋网站”、“财经数据”、“票房信息”四个方面都有相关的研究,其中有些研究会结合其他的一些数据,如等下会谈到的环境数据;当然,除此之外利用网络数据进行的研究有很多,也包括研究学界本身,如利用学科的期刊数据来进行研究。我对这方面的关注较少,因此除了上文提到的徐轶青等人(2015)和兰小欢(2015)的两篇文章,这里没有其他推荐。关于网络数据的偏误问题,也见上文内容。4、请自然科学数据因为我不知道该如何给地理数据、气象数据、环境数据、甚至外太空获取的灯光数据等数据归类,所以这里我就统一把他们归为自然科学领域的数据。通常,经济学家会将这类数据当做是辅助工具,结合自己的主要数据来进行研究。前面提到的:Qian(2008)的Missing Women&和Dell(2010)的&The persistent effects of Peru’s mining&mita都是结合了地理方面的数据。后者是利用地理环境构建了一个RDD,也有学者用这种方法研究中国问题,即陈玉宇和李宏彬(2013)等人利用中国政府在淮河两侧采取供暖政策不同,构造了一个地理上的RDD,由此得出长期暴露在空气污染中的居民的平均预期寿命会缩短3年。用气象数据进行的研究,如之前提到的Bai和Kung(2011)合作的文章:气候变化对游牧民族入侵中原的影响。而随着中国环境问题的加剧,特别是雾霾问题,用环境数据所进行的研究在未来几年应该都会陆续出现。如空气污染是否会影响人们的消费行为,是否会影响人们的身体健康和心理感受(如满意度)等。用外太空获取的灯光数据进行政治经济学研究,大家应该都有所耳闻。对于一些经济数据较为难以获取,且官方提供的数据不太可靠的地区(比如非洲),用外太空获取的地区的灯光数据当做是地区经济发展状况的代理变量,由此来进行相应的研究。这方面的研究我也没有细看过文章,所以这边也没有推荐。5、深入讨论上面提到了几个获取数据的途径,但并不是说实证研究只能通过这几个途径获取数据。从某种程度上来说,实证研究的数据获取可以是一个开脑洞的过程,比如外太空的灯光数据;而实证研究过程中将不同的数据结合起来,也可以是一个开脑洞的过程,就类似于寻找准自然实验的过程。这就所谓的,“大处着眼”。而在获取了数据之后,更为重要的是如何处理这些数据。数据本身的状况就形态各异,因此需要研究者对其进行细致的识别,这样才能更好(或说更科学)地使用这些数据。实证研究中很关键的一点是识别策略,因为识别涉及到该研究的因果推断,因此只有制定了好的识别策略学者才能做出好的实证研究。这就是所谓的,“小处着手”。最后,我们抛开数据处理的操作层面,来探讨下数据的本质。记得Angrist等人合著的《基本无害的计量经济学》中曾这样描述过RDD,“断点回归式识别策略基于如下思想:在高度依赖规则而运行的世界中,有些规则的出现是十分随意,这种随意性为我们提供了性质良好的实验。”而数据的产生也是如此,如果说社会存在某些规律(自然的或者是人为的),那么在日常生活中它就可能反应在人类产生的各种资料之中,这些资料可以是历史文本、微博信息、大气质量等信息,实证研究需要做的就是,使用科学的研究设计(识别策略、计量框架等)来对这些被称作为“数据”的资料进行研究,由此重新挖掘出数据中蕴含着的社会奥秘。&转载于&中国经济学教育科研网,文/邹健。微信原文:http://mp./s?__biz=MzA3NDkyNTc4Ng==&mid=&idx=2&sn=a92ff8eb32b87aca0955b6&scene=4
支持楼主:、
购买后,论坛将把您花费的资金全部奖励给楼主,以表示您对TA发好贴的支持
载入中......
分析的有道理
总评分:&经验 + 100&
论坛币 + 70&
学术水平 + 5&
热心指数 + 5&
信用等级 + 2&
感谢楼主的分享,现在用微观数据写论文已经越来越被认可。
iRolly 发表于
人大经济论坛经管爱问微信好号“jgasker”好文共享与推荐,实时答疑服务,欢迎关注!如何选用合适的数据,所 ...学习了,而且可以保证自己的研究一致性
&&多谢楼主!收获了很多!
&&最近在写一篇需要使用微观数据的论文,使用我现在所找到的数据库去做是很难得出科学的结论的。或许,我可以用楼主所提到的方法,换一种思维来获取和使用数据!
无限扩大经管职场人脉圈!每天抽选10位免费名额,现在就扫& 论坛VIP& 贵宾会员& 可免费加入
加入我们,立即就学扫码下载「就学」app& Join us!& JoinLearn&
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
京ICP证090565号
京公网安备号
论坛法律顾问:王进律师大数据给社会学带来了什么挑战?-业界动态-@大数据资讯
你好,游客
大数据给社会学带来了什么挑战?
作者:邱泽奇
  我准备与大家讨论三个问题:第一,什么是。关于大数据大家说的很多,但是其中错误概念也非常多,我想从我的角度来给澄清一下大数据是什么。第二,大数据和社会学研究到底有没有关系。相信这也是大家比较关心的议题。第三个,大数据对社会学研究带来了什么挑战。大数据给当今社会带来的挑战非常多,但对社会学研究而言,到底有什么样的挑战呢?我自己有三点看法与各位分享。首先,我们来看一下什么是大数据。
  1.什么是大数据?
  大数据是痕迹数据汇集的并行化、在线化、生活化和社会化。
  对社会学研究,我们最熟悉的是社会活动,我称其为人类活动。其实今天,不仅仅社会活动,你的私密活动也在数据之中,我没有加&社会&两个字,道理就在于人类的活动都在慢慢地数据化。在人类活动中,有一个概念叫做造痕,考古挖掘的,就是人类社会生活留下的痕迹。过去,我们通常拿这些痕迹做证据,比如考古学、历史学和社会学的许多研究活动。这些证据有一些会被数据化,数据化了的证据就叫做数据。
  既然很早以前就有&数据&,今天怎么就出来一个大数据呢?一个非常重要的因素,就是网络化汇集和网络化存储,把过去的数据集中起来,这才构成了大家讨论的大数据。
  那么,什么叫大数据?麦肯锡从行业和业务价值链的角度给了一个定义:数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘与运用,预示着新一波生产率增长和消费者盈余浪潮的到来。麦肯锡认为,大数据将是一个生产力的来源。今天,我们在讲&互联网+&,背后有一个非常重要的概念,叫数据驱动。过去,我们的研究活动叫理论驱动,今天,数据驱动已经变成了人类社会研究中非常重要的概念。
  &大数据&概念最早从哪里来呢?没有确切的证据,但是IBM很早就开始谈大数据了。IBM给大数据的定义是&4个V&:数量(Volume)、形态(Variety)、价值(Value)、速度(Velocity)。这是从数据本身做的定义。
  沿着IBM提出的&4个V&,先做一个简单的说明和解释。首先,从数量来看,大数据的数据量已经超出了任何个人在可接受时间范围内搜集、利用、管理和处理数据的能力了。2012年,对数据的计量已经从MB级跃升到TB级了。现在讲大数据,基本都是在PB级及以上。这个量级,超出任何单部计算机乃至大型机的处理能力。
  其次,从数据形态来看,传统的数据,通常是结构化数据,大数据则是混合形态的数据。在大数据中,有一部分是结构化的数据,如SQL(结构化查询语言)数据,更多的则是非结构化的数据,如日志、音频、视频、图片和地理位置等数据,大都是非结构化的。
  第三,从商业领域来看,大数据的价值密度比较低。传统的数据,通常是目标导向数据,有非常明确的价值,比如说CFPS(中国家庭动态跟踪调查)。大数据则是记录导向的,是为了记录数据而不是为了得到某个特定事件的数据,不是为了解释某个事件而记录数据。这是数据获取方式上非常重要的变化。
  大数据第四个重要特征是速度。传统的数据,从测量到可用,需要相当长的时间,赫尔曼&霍尔瑞斯在统计1890年人口普查数据时,发明了读卡机,用1年的时间完成了原本耗时8年的人口普查活动;CFPS从调查结束到数据可用,也需要1-2年的时间。大数据 ,几乎随时可用,每时每刻都在记录数据,每时每刻这些数据也可用;不过,可用,也有一定的约束性。对研究而言,不是针对一个具体研究问题可用,而是说,如果你想研究某个尚未模型化的问题,可以随时截一段数据来,进行数据清理的可用。
  从社会研究的视角,我自己给大数据一个定义&&大数据是痕迹数据汇集的并行化、在线化、生活化、社会化。
  数据汇集的并行化是一个计算机科学概念。并行,指可以同时运行很多个线程。在线化,就是数据本身在线上,不在你的桌面计算机或移动硬盘中。社会化,指每个人都有可能是数据的提供者。在过去,大多数都是由机构或者个人找&样本&提供数据;但是今天,每个人,只要接触传感器,甚至走在大街上,都是数据的提供者,同时,也是数据的使用者。生活化,则指数据的无处不在,无论是工作中还是生活中,数据始终伴随着人们。
  简单地说,大数据,就是形态数字化、非结构化、在线流动着的数据,容量至少在PB级或以上,与社会行为相伴生、通过设备和网络汇集的数据。大数据是完整的,却不一定是系统的,它无时无刻都在记录着人类的行为。
  因此,对社会学研究而言,大数据是一种新的研究数据来源,一种永不停息的、流动的研究资源,不一定是对其他来源数据的全面替代。
  2.大数据和社会学研究有关系吗?
  大数据和社会学研究关系密切,对其应用,目前,看起来似乎没那么紧迫,且主要对实证社会学产生较大的影响,逐渐地就会影响到社会学,甚至整个社会科学。
  在社会学想象力的前提下,我把社会学的研究分为三大类。
  第一类&&思辨的社会学,社会学的鼻祖们,基本上都采用了思辨的方法在研究社会学。后来的,比如说帕森斯、福柯、吉登斯等也是。思辩的社会学,主要采用&概念&工具,而不讲求对概念工具的测量,这些社会学家们,基本不用数据。
  第二类&&诠释的社会学,从胡塞尔以降到舒茨式的现象学社会学等。这些学者,主要是围绕&意义&进行研究。对他们来说,现象的代表性或许是没有意义的,现象本身却具有意义。他们的任务,就是阐释现象的意义。这一类社会学研究,或许也不用数据。
  第三类&&实证的社会学,主要源于年鉴学派,也是社会学研究中作品量比较大的一类。如果把这一类社会学与前两类社会学做一个简单的区分,就在于是否使用假设检验和经验检验。
  目前,数据与社会学研究关系最密切的,是第三类&&实证的社会学,实证社会学研究离不开数据。
  实证社会学有一个发展的过程。1998年,Platt对美国社会学研究做了一个长时段的回顾,发现:1915年-1924年,35%的社会学研究文章中用的是个案,53%用的是统计;到1964年使用统计方法的研究上升到了76%,尤其是ASR(American Sociological Review)和AJS(American Journal of Sociolog)两个主流的刊物。在今天,除非做纯粹的社会理论研究,只要涉及到社会事实的文章,似乎都需要用数据进行检验。在中国也一样,王文韬在 2000年的研究,也证明了中国社会学研究实证化的趋势在迅速加强。
  过去,实证社会学研究的数据主要来自于调查活动。二战以后,从密西根大学建立ISR(Institute for Social Research)开始,数据科学开始慢慢兴起。在大数据到来之前,主要有三个数据来源,分别代表了三种资源来源和三个群体的权力。第一,行政数据,各国政府、各级政府,掌握的各种ID、身份、流动、登记、就业、生产、消费等信息;第二,商业数据,比如说过去近三百年的金融数据、生产交易数据、劳动工资数据等,都在商业机构手里。直到1930s开始,社会科学家逐步认识到数据的重要性,开始寻找数据。二战以后,ISR逐步发展了一整套依靠学术力量获取数据的方法,并建立了覆盖人类社会、经济、教育、健康生活的各类调查数据。在一定意义上,调查数据,成为学者手中一项资源,也是学者在社会中发出声音的一种依据。
  由此看来,从社会学研究发展的视角来看,大数据和社会学有密切关系,只是,目前看起来冲击似乎并不大,也主要是针对实证社会学的冲击。在将来可能就不是这样了,对大数据的应用不仅对社会学而言会变得十分紧迫,甚至对所有社会科学而言都将如此。
  3.大数据给社会学带来了什么挑战?
  今天,社会研究依然需要通过调查获取数据。或许大数据研究的范式重在发现,而不是重在推论。社会研究的基本目标还是要把握事物之间的关系模式,不过,在大数据中,这种把握的技术变了,需要运用数据挖掘技术。不仅如此,大数据给带来的更大挑战,在于对整个教育体制的挑战。
  在大数据应用日益广泛的现代社会中,进行社会研究依然需要调查数据。的确,对于大数据而言,无需调查,只需选择。调查数据,是有目的、有假设地去搜集数据。对于大数据而言,没有任何人可以做某个单一的研究假设,也没有任何人有能力做普适的研究假设。正是在这个意义上,对大数据的分析,重在发现。而且目前主要是机构性的应用,尤其是商业机构,比如阿里巴巴对大数据的应用,在世界范围内名列前茅。
  如今的学术研究,还没有运用到PB级数据。社会学的研究,运用的基本上是大数据中的数据,访员不再向调查对象去搜集数据,而是向数据(机器)搜集数据。
  2013年,哈佛大学的G. King教授做了一项研究,从社交媒体获得数据来看中国沉默的表达,他从1382个社交媒体网上,运用网络爬虫获取数据,是大数据中的数据。
  2012年我做的&谁在开网店?&用的是淘宝600万个店家数据中的1%店家数据,也是大数据中的数据。
  那么,大数据来自于哪里呢?
  大数据的第一个来源,是传感器。人类社会的对传感器的运用,2005年只有1.3亿个,到2010年就发展到了30亿个,今天,大概有45亿个。什么叫传感器呢?广义地硕,任何可以监测、数据化、传输的工具,都是传感器,手机、手环、大街上的探头等,都是传感器。
  大数据的第二个来源,是互联网。谷歌每天要处理大约24PB的数据,百度每天大概新增10TB的数据。
  大数据的第三个来源,是社交网络。像Facebook每天要处理23TB的数据,Twitter每天处理7TB ,腾讯每日新增加200-300TB的数据,中国电信大概每天也有10TB的话单,30个TB的上网日制和100TB的信令数据。
  还有,如金融、零售、科研以及政府等部门的数据。譬如,每个交易周期,纽约证券交易所要捕获1TB的交易信息。淘宝每日订单超过1000万,阿里巴巴已经积累的数据量超过100个PB。
  大数据给社会学研究带来的挑战到底在哪里呢?
  大数据带来的第一个挑战就是还要不要调查数据。事实上,对调查数据的挑战,取决于对调查数据的替代程度和扩大程度。相对于大数据而言,调查数据,就是小数据。大数据与小数据有一个交集,两种数据交集重叠的部分会怎么样增长,取决于两个因素,一个是传感器技术的发展,一是数据挖掘的算法技术的发展,这两项技术未来的发展,直接影响到社会科学未来发展的走向。
  对于调查数据来说,比如说人口普查,健康调查之类的,这些调查到底干什么呢?对个体研究而言,他研究人的行为、健康、教育、成就、幸福;对于群体而言,研究群体的行动,结构和动态;对于社会而言,研究社会的状态和动态,这些研究未来有没有可能用大数据来替代?完全有可能,如果数据整合能够实现,替代的速度可能还很快!
  比如,微信社交网,就是人的人情网络或人际网络;淘宝就是生活网;还有交通网,工作网,健康网。大家手腕上戴的智能手环、手机、电脑、家用电器等,这些设备如果互联互通,也会形成巨量的数据。用《信息简史》一书中的一句话来概括:万物皆比特。
  数据就在那儿,问题是怎么用。未来,社会学研究对数据的利用,取决于数据化覆盖的范围。第一个覆盖的是教育,在线教育;第二个是健康,未来的健康将是完全数据化的健康;第三个是物联网,所有的器物之间连通、数据化;还有硬件、工程、制造、农业、金融等等领域,都将被数据化。既然各行各业都被数据化了,那么,大数据给社会学研究带来的第一个挑战就是:&社会研究还需要调查吗?&
  对这个问题,我认为有两个点值得探讨&&转换和替代。第一个是转换数据,第二个转换思维。数据的来源已经完全变了,需要调查的东西越来越少。替代,未来也有可能完全不需要做大规模调查,调查的重要性会越来越低,这是一个大趋势。
  第二个挑战,社会学研究范式还有用吗?在《大数据时代》中,作者提到过去的研究范式是抽样、精确、因果。作者说,这三个过去我们为之努力奋斗的范式可能面临着革命性的转变。事实是否如此,现在依然有争论,至少这是一个值得认真思考的信号。
  我自己有一个看法,运用调查数据做研究,是假设检验进行推论;运用大数据做研究,显然是通过数据进行总体归纳;方法上的确是一个本质的转换。我们知道自然科学用重复检验,社会科学没有重复检验的条件,只能做假设检验。如果数据归纳在迭代中能够满足重复检验的条件,是不是就会真正地&科学化&呢?目前,至少有一点是可以肯定的,那就是大数据研究的范式重在发现,而不是重在推论,社会研究的基本目的没有变,还是要把握事物之间的关系模式。
  大数据的分析是从数据挖掘开始的,运用的是数据挖掘技术。数据挖掘,就是发现有意义的模式和规则。挖掘,是大数据分析的基本策略,不是具体方法。
  大数据挖掘有一些基本步骤。首先是属性归类。归类之后再降维、降低容量。降维、降容之后,就是结构化的数据了,跟调查数据差不多,接下来,就是从数据中发现模式。
  如此,大数据分析至少有4个步骤:第一,拿到数据使用权,;第二,在高性能计算系统中降维降容;第三,获取可分析数据;第四,进行分析(模式发现)。
  对社会学研究而言,这也是大数据分析的基本步骤。
相关新闻 & & &
   同意评论声明
   发表
尊重网上道德,遵守中华人民共和国的各项有关法律法规
承担一切因您的行为而直接或间接导致的民事或刑事法律责任
本站管理人员有权保留或删除其管辖留言中的任意内容
本站有权在网站内转载或引用您的评论
参与本评论即表明您已经阅读并接受上述条款

我要回帖

更多关于 cfps数据 的文章

 

随机推荐