Если упорядочить слова языка в порядке их частот (вероятностей появления в языке), то частота $ n_{} $-го по порядку слова для всех не слишком больших значений $ n_{} $ примерно пропорциональна $ 1/n $. Так, если частота появления первого слова списка равна $ p_1 $, то частота появления второго равна $ p_1/2 $, третьего — $ p_1/3 $, и т.д., десятое слово из списка встречается примерно в $ 10 $ раз реже первого. Отношение частоты появления $ m $-го слова к $ n $-му примерно равно $ n/m $ .
Язык песен горбатых и синих китов подчиняются закону частотности Ципфа .
$10$ самых часто встречающихся слов в английском языке, ранжированных по убыванию
$$ \begin{array}{c|c|c|c|c|c|c|c|c} 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 \\ \hline \mbox{the} & \mbox{of} & \mbox{and} & \mbox{to} & \mbox{a} & \mbox{in} & \mbox{that} & \mbox{it} & \mbox{is} & \mbox{was} \end{array} $$
The larger the whole, the smaller its parts.
Увеличение размера лингвистической конструкции влечет за собой уменьшение размера ее составляющих, и наоборот.
Например, чем длиннее слово (измеренное в слогах или морфах), тем короче слоги или морфы звуков.
$$ y=ax^be^{-cx} $$ Здесь $ y $ — размер составляющей части (например, длина слога);
$x$ — размер рассматриваемой лингвистической конструкции (например, число слогов в каждом слове);
$a,b,c$ — положительные константы
When a measure becomes a target, it ceases to be a good measure
«Когда мера становится целью, она перестает быть хорошей мерой»[1],
потому что становится объектом манипулирования как прямого (фальсификация чисел), так и косвенного (работа исключительно для улучшения этой меры)[2][3]. Так, если экономический показатель становится целевой функцией для проведения экономической политики, прежние эмпирические закономерности, использующие данный показатель, перестают действовать.
Во многих числовых наборах данных из «реальной жизни», т.е. конкретный набор с большей вероятностью начинается с меньшей цифры. То есть если в наборе данные записаны в десятичной системе исчисления, то вероятность появления $1$ в первом разряде выше, чем появления $2$, появление $2$ в первом разряде выше, чем $ 3 $ и т.д.
Закон также известен как закон Ньюкома-Бенфорда. Астроном Симон Ньюком в 1881 г. обратил внимание, что в изданиях логарифмических таблиц первые страницы (содержащие числа, начинающиеся с $1$) более затерты, чем последующие страницы. Он предположил, что вероятность появления цифры $n\ge 1$ в качестве первой цифры данных равна $$ \log_{10}(1+1/n) = \log_{10}(n+1) - \log_{10}(n) \, ,$$ т.е. $$ \begin{array}{c|c|c|c|c|c|c|c} \mbox{Цифра} &1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 \\ \hline \Pr & 0.301 & 0.176 & 0.125 & 0.097 & 0.079 & 0.066 & 0.058 & 0.051 & 0.046 \end{array} $$ Обобщение результата. Если $\mathcal M(x) $ — мантисса $(k+1)$-разрядного целого числа $x>0$: $$ \mathcal M(x)=x/10^k, \quad \mathcal M(x) \in [1,10[ \ , $$ то доля чисел, удовлетворяющих условию $ \mathcal M(x) \in [a,b [ $ при $1 \le a <b \le 10 $ равна $$ \log_{10}(b)-\log_{10}(a) \, . $$