人類喜歡認為我們是不可預測的生物,在某種程度上,受到以某種方式從物理過程中出現的自由意志的支配。好吧,有一件奇怪的事情會讓你陷入一場基於語言學的生存危機;大多數語言似乎都遵循齊普夫定律,但我們不知道為什麼。
正如您所料,單字的使用頻率各不相同。你對「the」這個字的使用比對「ecumenical」或「」這個字的使用更多。”,例如。但是,分析大型文本中的詞語使用頻率表明,它嚴格遵循特定的統計規律。
「大約 80 年前,George Kingsley Zipf 報告了一項觀察結果,即單字的頻率似乎是其頻率等級的冪律函數,公式為 f(r) ∝ 𝑟𝛼, 在哪裡f是詞頻,r是頻率的等級,𝛼 是指數,」a紙關於該主題的解釋。
簡而言之,一種語言中最常用的單字(英語中的“the”)的使用頻率是下一個最常用單字的兩倍,是下一個單字的三倍,是下一個單字的四倍。 ,等等,在相當長的時間內都遵循這個冪律。
您可能認為這是英語中的一些奇怪的怪癖,但事實並非如此。齊普夫定律似乎適用於幾乎所有已研究過的語言。無論你說的是英語、印地語、法語、普通話還是西班牙語,某個單字的出現頻率似乎會隨著其受歡迎程度的排名而下降。
齊普夫定律適用於維基百科上 30 種不同語言的前 1000 萬個單字。
更奇怪的是,它甚至適用於語言我們甚至還沒有破解。甚至連出現在看來遵守這條法律。而單一文本,如果它們足夠大,也會大致遵循這些法則,排名最高的單字出現的次數是下一個單字的兩倍,等等。適合他的文本論物種起源。事實上,它隨處可見。
所以,這很奇怪,不是嗎?
“這部法律的特殊性值得反思”,對該主題的評論解釋。 「單字出現的頻率完全不同,這當然是人類語言的一個重要特性;可以合理地預期所有單字的出現頻率應該大致相同。但考慮到單字的出現頻率確實有所不同,目前還不清楚為什麼單字應該遵循相同的頻率。
這個想法有很多潛在的解釋,從統計問題到人類記憶和詞彙所施加的限制。喬治·齊普夫本人提出,這項法則來自於努力最小化的平衡,說話者(或作者)試圖透過使用更頻繁出現的單字來最小化自己的努力,而聽眾(或讀者)則從不常用的單字中尋求語言的清晰度。其延伸是,人類試圖盡可能有效地傳達意義,傾向於使用能夠最大限度地傳達訊息量的字詞。
另一個想法是,隨著時間的推移,隨著語言的傳播和發展,更常見的單字往往會變得更流行,從而導致一種滾雪球效應。但沒有一個真正被接受的解釋,背後的原因仍然是一個謎。
如果您真的想讓自己陷入基於語言學的生存危機,您甚至可以將自己的(長)文本/小說/論文貼到分佈計算器看看它是否遵守齊普夫定律。你可能不喜歡你的語言使用看起來多麼可預測,但也不要擔心,即使莎士比亞的村莊 似乎也遵循它。