人类喜欢认为我们是不可预测的生物,在某种程度上,受到以某种方式从物理过程中出现的自由意志的支配。好吧,有一件奇怪的事情会让你陷入一场基于语言学的生存危机:大多数语言似乎都遵循一个称为齐普夫定律的方程,而我们不知道为什么。
正如您所料,单词的使用频率各不相同。你对“the”这个词的使用比对“ecumenical”或“”这个词的使用更多。”,例如。但是,分析大型文本中的词语使用频率表明,它严格遵循特定的统计规律。
“大约 80 年前,George Kingsley Zipf 报告了一项观察结果,即单词的频率似乎是其频率等级的幂律函数,公式为 f(r) ∝ 𝑟𝛼, 在哪里f是词频,r是频率的等级,𝛼 是指数,”a纸关于该主题的解释。
简而言之,一种语言中最常用的单词(英语中的“the”)的使用频率是下一个最常用单词的两倍,是下一个单词的三倍,是下一个单词的四倍。 ,等等,在相当长的时间内都遵循这个幂律。
您可能认为这是英语中的一些奇怪的怪癖,但事实并非如此。齐普夫定律似乎适用于几乎所有已研究过的语言。无论你说的是英语、印地语、法语、普通话还是西班牙语,某个单词的出现频率似乎会随着其受欢迎程度的排名而下降。
齐普夫定律适用于维基百科上 30 种不同语言的前 1000 万个单词。
更奇怪的是,它甚至适用于语言我们甚至还没有破译。甚至连出现在看来遵守这条法律。而单个文本,如果它们足够大,也会大致遵循这些法则,排名最高的单词出现的次数是下一个单词的两倍,等等。即使是查尔斯·达尔文也无法摆脱这个法则,因为分析发现它非常适合他的文本论物种起源。事实上,它随处可见。
所以,这很奇怪,不是吗?
“这部法律的特殊性值得反思”,对该主题的评论解释。 “单词出现的频率完全不同,这当然是人类语言的一个重要特性;可以合理地预期所有单词的出现频率应该大致相同。但考虑到单词的出现频率确实有所不同,目前还不清楚为什么单词应该遵循相同的频率。如此精确的数学规则——特别是,它不涉及每个单词含义的任何方面。”
这个想法有很多潜在的解释,从统计问题到人类记忆和词汇所施加的限制。乔治·齐普夫本人提出,该法则来自于努力最小化的平衡,说话者(或作者)试图通过使用更频繁出现的单词来最小化自己的努力,而听众(或读者)则从不常用的单词中寻求语言的清晰度。 。其延伸是,人类试图尽可能有效地传达意义,倾向于使用能够最大限度地传达信息量的词语。
另一个想法是,随着时间的推移,随着语言的传播和发展,更常见的单词往往会变得更流行,从而导致一种滚雪球效应。但没有一个真正被接受的解释,其背后的原因仍然是一个谜。
如果您真的想让自己陷入基于语言学的生存危机,您甚至可以将自己的(长)文本/小说/论文粘贴到分布计算器看看它是否遵守齐普夫定律。你可能不喜欢你的语言使用看起来多么可预测,但也不要担心,即使莎士比亚的村庄 似乎也遵循它。