Инструменты сайта


Разные закономерности

Закон Ципфа

Если упорядочить слова языка в порядке их частот (вероятностей появления в языке), то частота $ n_{} $-го по порядку слова для всех не слишком больших значений $ n_{} $ примерно пропорциональна $ 1/n $. Так, если частота появления первого слова списка равна $ p_1 $, то частота появления второго равна $ p_1/2 $, третьего — $ p_1/3 $, и т.д., десятое слово из списка встречается примерно в $ 10 $ раз реже первого. Отношение частоты появления $ m $-го слова к $ n $-му примерно равно $ n/m $ .

Язык песен горбатых и синих китов подчиняются закону частотности Ципфа .

$10$ самых часто встречающихся слов в английском языке, ранжированных по убыванию

$$ \begin{array}{c|c|c|c|c|c|c|c|c} 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 \\ \hline \mbox{the} & \mbox{of} & \mbox{and} & \mbox{to} & \mbox{a} & \mbox{in} & \mbox{that} & \mbox{it} & \mbox{is} & \mbox{was} \end{array} $$

Закон Менцерата-Альтмана

The larger the whole, the smaller its parts.

Увеличение размера лингвистической конструкции влечет за собой уменьшение размера ее составляющих, и наоборот.

Например, чем длиннее слово (измеренное в слогах или морфах), тем короче слоги или морфы звуков.

$$ y=ax^be^{-cx} $$ Здесь $ y $ — размер составляющей части (например, длина слога);

$x$ — размер рассматриваемой лингвистической конструкции (например, число слогов в каждом слове);

$a,b,c$ — положительные константы

Закон Гудхарта

When a measure becomes a target, it ceases to be a good measure

«Когда мера становится целью, она перестает быть хорошей мерой»[1],

потому что становится объектом манипулирования как прямого (фальсификация чисел), так и косвенного (работа исключительно для улучшения этой меры)[2][3]. Так, если экономический показатель становится целевой функцией для проведения экономической политики, прежние эмпирические закономерности, использующие данный показатель, перестают действовать.

Закон Бенфорда

Во многих числовых наборах данных из «реальной жизни», т.е. конкретный набор с большей вероятностью начинается с меньшей цифры. То есть если в наборе данные записаны в десятичной системе исчисления, то вероятность появления $1$ в первом разряде выше, чем появления $2$, появление $2$ в первом разряде выше, чем $ 3 $ и т.д.

Закон также известен как закон Ньюкома-Бенфорда. Астроном Симон Ньюком в 1881 г. обратил внимание, что в изданиях логарифмических таблиц первые страницы (содержащие числа, начинающиеся с $1$) более затерты, чем последующие страницы. Он предположил, что вероятность появления цифры $n\ge 1$ в качестве первой цифры данных равна $$ \log_{10}(1+1/n) = \log_{10}(n+1) - \log_{10}(n) \, ,$$ т.е. $$ \begin{array}{c|c|c|c|c|c|c|c} \mbox{Цифра} &1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 \\ \hline \Pr & 0.301 & 0.176 & 0.125 & 0.097 & 0.079 & 0.066 & 0.058 & 0.051 & 0.046 \end{array} $$ Обобщение результата. Если $\mathcal M(x) $ — мантисса $(k+1)$-разрядного целого числа $x>0$: $$ \mathcal M(x)=x/10^k, \quad \mathcal M(x) \in [1,10[ \ , $$ то доля чисел, удовлетворяющих условию $ \mathcal M(x) \in [a,b [ $ при $1 \le a <b \le 10 $ равна $$ \log_{10}(b)-\log_{10}(a) \, . $$

shannon/zipf.txt · Последние изменения: 2025/10/31 19:11 — au