Для понимания материалов настоящего раздела рекомендуется ознакомиться с разделом ((:probability ТЕОРИЯ ВЕРОЯТНОСТЕЙ)).
.
Статус документа: черновик.
==Теория информации по Шеннону==
~~TOC~~
===Энтропия==
Пусть случайное событие заключается в осуществлении одного из ((:probability#сложение_событий несовместимых состояний)) $ S_{1},\dots,S_n $, вероятности появления которых даются таблицей
$$
\begin{array}{l|l|l|l}
S_1 & S_2 & \dots & S_n \\
\hline
P_1 & P_2 & \dots & P_n
\end{array} \quad \mbox{ при } \quad P_1+P_2+\dots+P_n=1.
$$
Эти вероятности известны, но это --- все, что нам известно относительно того какое состояние осуществится. Можно ли найти "меру" насколько велик выбор из такого набора состояний и сколь неопределено для нас событие?
Если наше событие (опыт) состоит в определении цвета первой встретившейся нам вороны, то мы можем почти с полной уверенностью рассчитывать, что
этот цвет будет черным. Несколько менее определено событие (опыт), состоящее в выяснении того, окажется ли первый встреченный нами человек левшой или нет --- здесь тоже предсказать результаты опыта ((http://ru.wikipedia.org/wiki/%CB%E5%E2%F8%E0 можно)), почти не колеблясь, но опасения в относительно правильности этого предсказания будут более обоснованны, чем в предыдущем случае. Значительно труднее предсказать заранее пол первого встретившегося нам на улице человека. Но и этот опыт имеет относительно небольшую степень неопределенности по сравнению, например с попыткой определить победителя в чемпионате страны по футболу с участием двадцати совершенно незнакомых нам команд.
Для практики важно уметь численно оценивать степень неопределенности самых разнообразных случайных событий (опытов), чтобы иметь возможность сравнивать их с этой стороны. Искомая численная характеристика должна быть функцией числа $ n_{} $ возможных состояний. Некоторые свойства этой функции $ f(n) $ определяются соображениями здравого смысла. При $ n_{}=1 $ событие вообще не является случайным, т.е. следует положить $ f(1)=0 $. При возрастании числа $ n_{} $ возможных состояний эта функция должна возрастать поскольку увеличение количества возможных исходов опыта увеличивает неопределенность в предсказании его результатов.
Идем далее: рассмотрим два ((:probability#условные_вероятности независимых события)) $ A_{} $ и $ B_{} $. Пусть событие $ A_{} $ имеет $ k_{} $ равновероятных исходов, а событие $ B_{} $ имеет $ \ell_{} $ равновероятных исходов. Рассмотрим событие, состоящее в ((:probability#умножение_событий произведении)) (совместном осуществлении) событий $ A_{} $ и $ B_{} $, обозначим это событие $ AB_{} $. Например, если событие $ A_{} $ заключается в появлении масти карты --- бубновой
♦
, червовой
♥
, трефовой
♣
или пиковой
♠
---
при выборе ее из колоды в $ 36_{} $ карт, а событие $ B_{} $
заключается в появлении достоинства карты --- //шестерки//,//семерки//, //восьмерки//, //девятки//, //десятки//, //валета//, //дамы//, //короля// или //туза// --- при выборе ее из той же колоды, то событие $ AB_{} $ заключается в появлении конкретной карты колоды. Очевидно, что неопределенность события $ AB_{} $ больше неопределенности события $ A_{} $, так как к неопределенности $ A_{} $ добавляется неопределенность события $ B_{} $. Естественно потребовать, чтобы мера неопределенности события $ AB_{} $ была равна сумме неопределенностей, характеризующих события $ A_{} $ и $ B_{} $. Это требование обеспечивается следующим следующим свойством функции $ f_{} $:
$$
f(k\ell)=f(k)+f(\ell) \ ,
$$
имеющего тот смысл, что число $ k\ell $ как раз и дает число возможных исходов события $ AB_{} $.
Последнее равенство наталкивает на мысль принять за меру неопределенности опыта, имеющего $ n_{} $ равновероятных исходов, число $ \log n $. Можно доказать, что логарифмическая функция является единственной __непрерывной__ функцией аргумента $ n\in \mathbb R $, удовлетворяющей такому ((http://ru.wikipedia.org/wiki/%D0%A4%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B5_%D1%83%D1%80%D0%B0%D0%B2%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5 функциональному уравнению)). При этом выбор основания системы логарифмов несуществен, так как, в силу известной формулы $ \log_b n = \log_b a \cdot \log_a n $, переход от одной системы логарифмов к другой сводится лишь к умножению функции $ f(n)=\log n $ на постоянный множитель $ \log_b a $, т.е. равносилен простому изменению единицы измерения степени неопределенности. Единственным ограничением является естественное требование, чтобы основание было большим $ 1 $: число $ \log_b n $ должно быть положительным
Как правило, в дальнейшем будем пользоваться логарифмом по основанию $ 2_{} $; такой выбор в одном из последующих пунктов будет подкреплен некоторыми дополнительными "бонусами". В ближайших же пунктах будем просто писать $ \log $ без указания основания.
Таблица вероятностей события, имеющего $ n_{} $ равновероятных состояний, имеет вид
$$
\begin{array}{l|l|l|l}
S_1 & S_2 & \dots & S_n \\
\hline
1/n & 1/n & \dots & 1/n
\end{array}
$$
Так как общая неопределенность события по нашему условию равна $ \log n $, то можно считать, что каждое в отдельности состояние вносит неопределенность равную $ \frac{1}{n} \log n = - \frac{1}{n} \log \frac{1}{n} $. Но тогда естественно считать, что в событие, таблица вероятностей состояний которого имеет вид
$$
\begin{array}{l|l|l}
S_1 & S_2 & S_3 \\
\hline
1/2 & 1/3 & 1/6
\end{array}
$$
состояние $ S_1 $ вносит неопределенность, равную $ \left( - \frac{1}{2} \log \frac{1}{2} \right) $, состояние $ S_2 $ --- неопределенность, равную $ \left( - \frac{1}{3} \log \frac{1}{3} \right) $, а состояние $ S_3 $ --- неопределенность, равную
$ \left( - \frac{1}{6} \log \frac{1}{6} \right) $, так что суммарная неопределенность события равна
$$
- \frac{1}{2} \log \frac{1}{2} - \frac{1}{3} \log \frac{1}{3} - \frac{1}{6} \log \frac{1}{6} \ .
$$
Аналогично этому можно положить, что для события $ A_{} $ с таблицей вероятностей
$$
\begin{array}{l|l|l|l}
S_1 & S_2 & \dots & S_n \\
\hline
P_1 & P_2 & \dots & P_n
\end{array} \quad \mbox{ при } \quad P_1+P_2+\dots+P_n=1
$$
мера его неопределенности равна
$$
-\sum_{j=1}^n P_j \log P_j = - P_1 \log P_1 - P_2 \log P_2 - \dots - P_n \log P_n = \log \frac{1}{P_1^{P_1} P_2^{P_2}\times
\dots \times P_n^{P_n}} \ .
$$
Это число будем называть **энтропией события** $ A_{} $ и обозначать либо $ H(A) $ либо $ H(P_1,P_2,\dots,P_n) $. Величина энтропии зависит от выбранного основания логарифмической функции; в случае основания $ 2_{} $ единицу измерения энтропии называют "**бит**", в случае основания $ 10_{} $ --- "**дит**", в случае основания $ e=2.718281828459045\dots $ --- "**нат**".
В случае, когда $ P_j=0 $ при каком-то значении $ j_{} $, полагают $ P_j \log P_j=0 $ (на основании известного из мат.анализа факта $ \displaystyle \lim_{x\to +0} x \log x = 0 $).
Можно проверить, что функция $ H(P_1,P_2,\dots,P_n) $ симметрична относительно своих переменных; этот факт имеет тот
смысл, что мера неопределенности события не зависит от способа нумерации его возможных состояний. Кроме того эта функция
обладает следующими свойствами.
1.
$ H_{} $ непрерывна по каждой своей переменной;
2.
Если все вероятности одинаковы: $ P_1=1/n,P_2=1/n,\dots,P_n=1/n $, то $ H_{} $ монотонно возрастающая функцией по $ n_{} $:
$$H \bigg(\underbrace{\frac{1}{n},\dots,\frac{1}{n}}_n \bigg)
3.