齐普夫定律是利用数理统计学制定的经验法则,以语言学家乔治-金斯利-齐普夫(George Kingsley Zipf)的名字命名,他首先提出了这一定律。

Zipf定律指出,给定一个大的单词使用样本,任何单词的频率与其在频率表中的等级成反比。所以词号n频率与1/n成正比。

因此,出现频率最高的词约为第二位的词的两倍,第三位的词的三倍,等等。例如,在英语中的一个单词样本中,出现频率最高的单词"the"占所有单词的近7%(在100多万个单词中占69971个)。根据齐普夫定律,排在第二位的"的"字占了3.5%多一点(36,411次出现),其次是"和"(28,852次)。在一个大样本中,只需要135个左右的单词就能占到一半的单词样本。

同样的关系也出现在其他许多与语言无关的排名中,如各国城市的人口排名、公司规模、收入排名等。1913年,费利克斯-奥尔巴赫(Felix Auerbach)首先注意到了城市人口排名中出现的分布情况。

目前还不知道为什么齐普夫定律对大多数语言都成立。