齊夫定律
齐普夫定律是利用数理统计学制定的经验法则,以语言学家乔治-金斯利-齐普夫(George Kingsley Zipf)的名字命名,他首先提出了这一定律。
Zipf定律指出,给定一个大的单词使用样本,任何单词的频率与其在频率表中的等级成反比。所以词号n的频率与1/n成正比。
因此,出现频率最高的词约为第二位的词的两倍,第三位的词的三倍,等等。例如,在英语中的一个单词样本中,出现频率最高的单词"the"占所有单词的近7%(在100多万个单词中占69971个)。根据齐普夫定律,排在第二位的"的"字占了3.5%多一点(36,411次出现),其次是"和"(28,852次)。在一个大样本中,只需要135个左右的单词就能占到一半的单词样本。
同样的关系也出现在其他许多与语言无关的排名中,如各国城市的人口排名、公司规模、收入排名等。1913年,费利克斯-奥尔巴赫(Felix Auerbach)首先注意到了城市人口排名中出现的分布情况。
目前还不知道为什么齐普夫定律对大多数语言都成立。
问题和答案
问:什么是齐普夫定律?答:齐普夫定律是一条经验定律,它指出一个词在大样本中的出现频率与其在频率表中的排名成反比。
问:谁提出了齐普夫定律?
答:齐普夫定律最早由语言学家乔治-金斯利-齐普夫提出。
问:齐普夫定律如何解释英语词汇样本中的词频?
答:根据齐普夫定律,英语单词样本中出现频率最高的单词是出现频率第二高的单词的两倍,是出现频率第三高的单词的三倍,等等。这种趋势随着单词等级的降低而持续。
问:在一个英语单词样本中,出现频率最高的单词占所有单词的百分比是多少?
答:在一个英语单词样本中,出现频率最高的单词("the")占所有单词的近 7%。
问:占样本一半所需的单词数与这些单词的频率之间有什么关系?
答:根据齐普夫定律,在一个大样本中,大约只需要 135 个词就能占到样本词的一半。
问:还有哪些排名显示了齐普夫定律?
答:齐普夫定律所描述的词频关系同样出现在与语言无关的其他排名中,如各国城市人口排名、公司规模和收入排名。
问:谁注意到了城市人口排名中出现的分布现象?
答:费利克斯-奥尔巴赫(Felix Auerbach)于 1913 年首次注意到城市人口排名中的分布现象。