复旦大学 官网 复旦大学严实微博( 四 )


论文第一作者张梦翰是我的硕士和博士,他本科就读于上海师范大学数学系,曾在中美大学生建模竞赛中获奖,有很高的数学才能 。博士生阶段我让他去金力教授处和中科院上海生物研究所旁听,借着这些机会,他熟练掌握了生物和遗传方面的各种数学模型 。而且他对相关文献很熟悉,最近几年,《自然》《科学》和《美国科学院院报》上连续发了好几篇用贝叶斯方法来研究语言起源,解释印欧语、南岛语分化的论文,这给了张梦翰很大启发,他认为汉藏语也可以使用这个方法来研究,于是才有了这个题目 。
严实是复旦生命科学院的博士后,他主要负责处理材料 。我们这个研究,光有合适的方法还不够,还需要大量的材料,样本越多,统计越精确,当然,工作量相应地也就大了 。我们用了美国著名汉藏语专家马提索夫(James A. Matisoff)教授的STEDT数据库 。马提索夫用了三十年的时间建设这个数据库,收录了全世界汉藏语研究者认定的同源词,共有六百种语言 。我们这篇论文选取了斯瓦迪士前一百个核心语义中的九十八个,从马提索夫的STEDT数据库中选取了一百零九种语言 。不算前期的材料处理,光是最后的运算,在四核八线程的电脑上就连续运行了四天,工作量的确很大 。
事实上,我们本来打算和国际学者展开合作的 。首先联系的就是马提索夫,经得他的同意之后,使用了他的数据库 。
对这一百零九种汉藏语材料的处理,最后呈现出的成果是一棵谱系树,这是怎么画出来的?

复旦大学 官网 复旦大学严实微博

文章插图
汉藏语系中一百零九种语言的谱系树
潘悟云:谱系树是根据同源词画的,但是要辨认同源词是一件很麻烦的事情 。例如,太阳这个词,汉语最早是“日”,上古音读njit,藏语的太阳是nima,ma是后缀,ni是词根 。上古汉语的nit与藏语的ni,一眼就能看出它们之间的同源关系 。这是比较容易辨认的同源词 。但是有的同源词就很难辨认,比如数字“七”,汉语读t?hi,羌族读?in,景颇语读?anit,彝语读s?,这几种语言之间的同源关系就需要我们深入、系统地加以比较,才能得出正确结论 。如果仅凭看上去是否相似,来断定不同语言之间是否存在同源关系,这显然是不行的 。
画谱系树采用的贝叶斯统计方法,不单是对计算年代有其长处,对画谱系树也有其特殊的长处 。关于同源词的比较,传统的历史比较方法只考虑数量,打个比方,语言A和B有二十个同源词,A和C有十个,二十个比十个多,可见A和B更有亲缘关系 。但是词与词的重要性是不一样的,比如身体部位名称就比人称代词重要,马提索夫曾说过,身体部位名称是核心词中的核心词 。这很对,因为人类认识世界总是从认识自己开始 。因此,身体部位名称变化的速度比人称代词要慢 。贝叶斯方法把语言变化速度纳入考量,给每一个同源词加权,速度变化快的,次要一点,变化慢的,重要一点 。所以,我们现在是计算加权以后的同源词 。这样画出来的谱系树,会更精确一些 。
这次的研究成果对语言学有什么样的意义和价值?能请您谈谈吗?
潘悟云:首先是对有关汉藏语系起源假说的证实 。主要就是两种假说,主流意见是“北方说”,认为黄河中上游——也就是陕西甘肃宁夏一带——是汉藏语系的起源地,马提索夫,国内的许多学者都持这种观点;另外一种“南方说”,以欧洲的范德利姆(George van Driem)教授为代表,认为汉藏语系的起源地是中国西南到印度东北这一带地区 。这两大派针锋相对,其实都还是用传统的历史比较做出的猜想,谁都不能解决时间和地点的互动问题 。我们的文章支持了“北方说” 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。