人类语言的进化分布有数据吗

人类语言与动物语言的本质区别? - 知乎有问题,上知乎。知乎作为中文互联网最大的知识分享平台,以「知识连接一切」为愿景,致力于构建一个人人都可以便捷接入的知识分享网络,让人们便捷地与世界分享知识、经验和见解,发现更大的世界。5被浏览<strong class="NumberBoard-itemValue" title="分享邀请回答02 条评论分享收藏感谢收起62 条评论分享收藏感谢收起写回答我的主页二维码
留言人姓名:
永久链接: http://person.zju.edu.cn/lht&&&&
中国社会科学出版社... Physics of Life Reviews. 3-240..& 。&. .. Chinese as Interlanguage: History and Present Situation. grkg/Humankybernetik. ): 12-29.& &
姓名:刘海涛
单位:外国语言文化与国际交流学院
职称:教授
我的主页共被访问了78578 次人类语音分布有规律 语音最复杂的语言在中国
病童候诊痛苦躺地无人让,悲!
您还看国足比赛吗?
交警拔枪逼停酒驾该不该?
博客劲爆点
第一视频推荐
24小时排行榜
  上海2月13日电(王春)我国科学家运用生物学结合语言学研讨人类语言起源获得突破。复旦大学现代人类学教育部重点实验室李辉教授的课题组与中文系陶寰副教授合作研究发现,人类语言的语音多样性分布有一定规律可循。欧亚大陆的语言语音比较复杂,而非洲的略简单,美洲与澳洲更简单,语音最复杂的前几种语言都出现在中国,全世界的语音分布可能指向语言的最近扩散中心在里海南岸。这一成果发表于最新一期《科学》杂志上。  由于人类起源于非洲,过去语言学家普遍认为语言也起源于非洲。李辉、陶寰等收集全世界95个语系的579种语言资料,详细分析了语音多样性的分布规律,发现欧亚大陆的语音要比非洲的语音复杂得多,并认为如果全世界的语言有一个扩散中心的话,最可能在亚洲的里海南岸。语音多样性的分布反映的并不是现代人最初的起源过程,而更可能是发源于亚洲中南部的人类第二次大扩张。  研究人员采用计算生物学方法,以寻找人类语言的语音类型为突破口,来判断语言的“扩散地”。语音包括元音、辅音和声调三方面,世界各地的语言在这三方面的复杂性上差异很大。其中,辅音在所有语言中最少的只有7个,而最多的高加索山区的优必语甚至达到过180个。汉语普通话只有4个声调,而声调最多的是广西和贵州的南部侗族语,可以达到15个声调,说话就像唱歌。元音一般从两个到十几个。但是上海奉贤区金汇镇一带的方言却发展出了20个元音,可能是世界上元音音位最多的语言之一。课题组认为,中国南方的语言资源非常丰富,很多方言都有重要学术价值,对于它们的保护需要引起各界重视。王春
相关报道:
【】【】【】【】【】【一键分享【原创试刊】吴建明:大数据时代的语言研究是否只“要相关,不要因果”?
我的图书馆
【原创试刊】吴建明:大数据时代的语言研究是否只“要相关,不要因果”?
大数据是近年来兴起的概念,大体上是指通过一系列精炼,提取、分析,从庞杂、无序、多维的信息中获取和应用情报的一种方法。大数据研究是人类文明的一个创举,它让我们有能力驾驭海量信息,使得以往变化莫测,捉摸不透的自然、社会现象,变得模式凸显,有章可循。这不仅让许多的科学猜想获得实证检验的机会,也极大加速了新理论、新假说的产生。这无疑是驱动我们认识和改造客观世界的正能量。语言学领域的大数据研究最吸引人的莫过于自然语言处理了。通过数学统计和机器算法,人们可以让机器学习人类的语言使用,从大量的语言信息中搜寻有规律,重复出现的模式,并不断让机器识别、记录和改进这些模式,从而可以实际应用于语音识别、机器翻译、输入法、拼写检查、诗歌创作、人工智能等诸多领域。这是人类语言应用方面前所未有的大突破。语言大数据研究另一个重要领域是理性主义研究。这类研究通常带有一定的理论预设,通过大规模语料分析和计算,找出字、词、句子的在历时和共时上的分布规律,从而为社会语言变迁、语音语法演变、语言共性规律、语言类型学划分等研究提供一定的实证支持。例如,浙江大学的刘海涛教授及其团队在依存语法的框架内,通过对汉语语料的分析,发现汉语词与词之间的依存距离均值是2.84;汉语中约40-50% 词汇依存关系不是发生在相邻的词之间;汉语是一种支配词置后略占优势的混合型语言,等等。这类研究揭示了汉语词汇关联的规律,是一种较为科学的描写性分析,也为其它理论研究提供了一定的实证基础。在当前大数据风起云涌的时代,秉持此研究理念的学者们坚信这种研究方法开启了一次重大的时代变革,甚至提出“要相关,不要因果”的口号(见迈尔舍·恩伯格在《大数据时代》一书)。那么,语言研究者是否应该顺应时代潮流,倾力研究诸多“变量”之间的相关性,而无须考虑事物之间的因果关系呢?既然我们有了精深的统计知识和机器算法,可以在机器翻译、语音识别、语言共性规律等方面取得以往不可能实现的成就,那么我们是否还需要形形色色的探索因果关系的理论?换句话说,如果机器可以按自己的“思维”方式实现人类语言的交际功能和研究人类语言的功能,我们何必花时间探索语言背后的哲学基础?何必沉思语言现象内在的因果关系?&这些问题要从相关性和因果关系谈起。我们知道,每一种现象都有与之关联、对应的若干现象,这种关联关系的确立本质上取决于我们对之进行处理的“水平和层级”。相关是统计上线性回归的概念。举例来说,经过千百年来的观察,老百姓发现“燕子低飞”、“蚂蚁搬家蛇过道”都和“天要下雨”相关;当经验(数据)积累多了,两个现象之间的关联发生的概率足够显著,那么它们就是统计意义上的相关。然而,因果关系是人类的理性行为,也是客观存在的事物关系。科学家发现只有在特定天气、地理条件下,水蒸气上升,遇冷凝结下落的前因,才导致“下雨”的后果。因此,因果关系是复杂多面的,可能看不见、摸不着,无法用常规方式直接记录。相关性分析有利于因果关系的发现,因果关系也可能被量化为相关性,但因果关系不一定必然存在于可观测的相关性分析中。 相关性不等于因果关系是统计学的常识。大数据是人类的技术进步,但任何一个学科的技术都不能代替这个学科本身。望远镜比人的肉眼强,它的发明使天文学获得了前所未有的发展,但是望远镜并不能代替我们关于“日心说”和“地心说”的思考(公元前300多年就有地球围绕太阳运动的观点)。在很大程度上,望远镜也只是为我们思考这类问题提供了更大的便利。当然,在新的技术出现之后,科学家可能会提出以前没有提出过的问题,但这仍然不意味着技术可以代替人来思考这些问题。事实上,人类对因果关系的渴求受到与生俱来的好奇心驱动,是一种独一无二的理性力量。不管是小数据年代,还是大数据时代,人类都乐于对事物之间的关联关系做出判断,并充满理性地探索那些最本质、最根本的因果关系。哲学上称之为“充足理由律”,即必须有一个为什么这样而不那样的充足理由。“充足理由律”探索事物背后的原因,也是人性的体现,它推动了现代科学技术的迅猛发展,衍生出庞大的理论体系。因此,有学者甚至认为放弃对因果关系的追寻,就是人类的自我堕落(见周涛《为数据而生》)。同样,大数据固然有助于人们的科学探索,但人们不可能靠它一劳永逸地解决所有问题。这完全是由于大数据本身的性质所决定的。这个观点还要从大数据的“大”字谈起。大数据之所以“大”有两方面的因素:一方面是在同样的参数、变量的情况下,尽可能地增加观察、记录的次数,从而扩大数据规模;另一方面是在同一次观察、记录中,尽可能地增加参数、变量的数目,也同样扩大数据规模。在现实研究中,这两个因素经常同时起作用,两两相乘,便是大数据“大”的缘由了。然而,数据规模虽然可以无限扩大,但它仍不是决定人们因果推断能力的根本因素。我们不妨这样看问题, 随着观察次数增加,基于某个统计模型的估计值,其精确度就有可能不断提高。然而,问题在于是否观察次数越多,这个模型就可以自动消除因为某个变量缺失而带来的计算偏差?举个简单的例子来说。假设在一座城市有甲、乙两家医院。通过数十年间不间断的数据收集,我们发现在去过两家医院的患者中,甲家医院的死亡率非常高,而乙医院的死亡率很低。那么,我们是否就可以得出甲医院是坏医院,而乙医院是好医院呢?并不能!这是因为我们忽略了一个重要的外生变量,即甲医院是更高级别的医院,收治了更多病情严重的病人;而乙医院是较低级别的医院,只能治疗一些感冒、擦伤之类的小病。这就是统计学上所谓的“遗漏变量偏差”。可见,即使我们积累了数十年多次观察的数据,甚至把病人的名字、性别、年龄、住所、饮食、婚姻关系、子女就业等都考虑进去,我们仍可能没有触及最根本因果问题。要解决这个问题,还需要对我国特有的医疗体系有所了解,并依此设计有针对性的统计模型。我们知道,每一种现象都有与之关联、对应的若干现象,这种关联关系的确立本质上取决于我们对之进行处理的“水平和层级”。 燕子低飞,要下雨,老百姓处理为相关,科学家就不能这么认为。那些从一定认识框架出发,认为自然而然、直观的视角,并不一定必然导向非直观、隐秘的、甚至是偶然的因果关系。我们认为大数据的“大”不足以解决全部问题,而更在于我们是否有超越表象的批评性反思。如果大数据中的相关性代表“是什么”,那么它的存在其实还因“为什么”而起的。2015年,美国迈阿密大学的语言学家凯莱布·埃弗里特(Everett C.)及其同事考察了3700多种语言,其中629种语言有复杂的声调。它们发现声调类型复杂的语言更多出现在气候湿润的地区,而声调单一或无声调的语言更可能出现在气候干燥地区。埃弗里特教授提供的解释是干燥的空气容易使得发音器官脱水,降低声带弹性;在气候干燥、干冷的环境下,要发出复杂的声调比在温暖湿润的环境下要困难的多。这种因果推断似是而非,但颇受欢迎,很快被作为气候影响语言的证据,被国内多家网站转载。然而,仅仅一年后,荷兰内梅亨大学的杰里米·柯林斯博士(Jeremy Collins)就针对这篇文章的结论提出质疑。他认为由于在人类语言大多聚集在气候湿润地区,埃弗里特教授及其团队的统计样本很可能是取自同一个气候湿润的地区。这些温润地区聚集着为数众多的语言聚集,它们之间还可能具有亲缘关系,而恰恰是这个“亲缘关系”的变量被埃弗里特教授及其团队所忽略。事实上,荷兰的柯林斯教授通过另外一种数据收集方法(在同一个语系随机选取一个语言,再在该语系谱系树中再随机选取其它语言),得出语言接触是重要的干扰因素,可以在全球范围内产生声调与气候湿润积极关联。柯林斯博士认为语言接触、语言的地理分布,甚至地理地貌特征均是干扰声调和气候相关性的因素。虽然美国埃弗里特教授研究了近半数的人类语言,但由于没有考虑这些因素,因此他们的结论并不可靠。我国语言大都是声调语言,这也引起了国际语言学家的广泛关注。事实上,语言学家桥本万太郎(Hashimoto Mantaro)很早就指出,在汉语方言中,越往南的方言,调类越多,而越往北的方言,调类越少。北方汉语之所以调类少,是受了阿尔泰语的影响。那些进入中原地区的族群,受汉族影响,改用汉语,但他们所讲的汉语仅保留了有限声调类型。当前汉语与阿尔泰语接触最前沿的是兰银官话,有的方言只有两、三种声调,而与南方粤语相邻居的语言则声调类型丰富。可见,如果缺乏对社会、文化、历史,以及语族、语系等类型学理论知识的把握,大规模数据的研究并不总会产生有价值的科学发现,甚至得出误导性的“虚假相关”(Spurious Correlation)。这足以引起我们的警惕!上述例子的相关性研究并没有错,但问题在于他们急于把医院的好坏与死亡率、气候与声调等相关性等同于因果关系,并没有意识到各种因素相互制约的复杂性和隐含性,因此掉入了统计陷阱,得出了错误的因果推论。再次重申本文的观点,我们认为大数据的“大”并不足以改变人们因果推理的能力。人类不会,也不可能一劳永逸地仅依靠机器实现从提出假说到实践检验的全过程。本质上,我们仍然需要坚实、强大的反思性的机制和理论追求来指导我们的数据收集和模型设定。在这方面,大数据和小数据没有原则区别。一些学者提出“只要相关,不要因果”的口号其实是针对大数据研究中找出可复现模式的能力而言的。若其出发点是先仔细观察、积累数据,不妄做因果推断,确实是很必要的,但关键之处在于它可能导致我们盲目地从“相关性”得出错误的“因果关系”,因为这个说法主张的就是“不要因果”。语言学研究和其他科学研究一样,并不能仅仅停留在发现相关性,找寻可复现的模式的活动上。语言研究者需要持之以恒地保持好奇心和批评性思维、特别保持对根本性因果关系的追求决心。只有这样才是大数据时代语言学研究的正确发展方向。我们认为只有人才具有因果关系的终极解释权,也只有人才是人类历史的推动者。
喜欢该文的人也喜欢

我要回帖

更多关于 语言 人类最后的家园 的文章

 

随机推荐