斯瓦迪士发现,经过与已验证的语言历史相比较,在一些不同亲属语言中,基本词汇的变迁速率基本都是恒定的。在此基础上,斯瓦迪士提出了计算同源词汇的相似对应度,来测试语言之间彼此分化年代的方法设想。
词汇统计学的基本假设主要有如下三点:①所有语言中都包含一批基本词汇,包括代词、数词、身体各部、地理名称等,这些词汇在人类语言中具有普遍性,且不易受社会文化环境的变迁而发生变化。斯瓦迪士专门编有所谓的“斯瓦迪士词表”,作为词汇统计研究的最基础的材料。②基本词汇被保存下来的速率在任何时期都是恒定的,为一个常数。每过1000年,斯瓦迪士100基本词表的范围内,被保存下来的词汇约为84%,200基本词表范围内保存原有词汇的80.5%。③通过比较不同语言中所含的基本词汇的同源词的相对比例,可以计算语言之间的分化年代和时间深度。斯瓦迪士提出的计算公式如下:
式中t为以千年计的时间深度;C为亲属语言间同源词的相对比例;r为基本词汇的恒定保存速率(每一千年保存率为84%)。
词汇统计学的基本假设长期以来在历史语言学中存在极大的争议。虽然斯瓦迪士的基本词表经常被用来作挑选历史比较基本词汇的参考标准,但其中同样存在文化借词的可能性,一些词汇也不符合语言的普遍性。比如100基本词表中的“skin”(皮肤)一词,在英语中就属于从斯堪的纳维亚语借入的借词,而斯瓦迪士有意选择与“skin”相对立的“bark”(树皮)一词,在汉语中就不存在单独的语素形式。词表当中的词汇形式发生变动,对于词汇统计的结果就会产生较大的偏差影响。
此外,所谓恒定的保持比率并没有考虑语言发展中的突变情况。例如英语在历史上多次受到外部强势影响,与基本处于海洋隔绝状态下的冰岛相比,类似于“skin”这样的基本词汇都有借用,说明英语和冰岛语的词汇代谢的速率必然存在差异。斯瓦迪士所考察的所谓的恒定速率,基本都是以欧洲的印欧语系语言作为对象,缺少跨语言普遍性的支持。
斯瓦迪士词汇年代学的合理性饱受质疑,但词汇统计学本身又有新的发展,不再仅仅局限于斯瓦迪士的公式。历史语言学中受演化生物学研究影响而新兴的计量研究方法,如系统发生学方法、编辑距离方法、网络结构方法等,也使用基于词汇的概率分析方法,被应用于不同语族的语言历史研究。它们也可以被归入为广义的词汇统计学范畴内。