!!§!! Вспомогательная страница к разделам
☞
((:codes#коды_хаффмана КОДИРОВАНИЕ)) и
☞
((:shannon ТЕОРИЯ ИНФОРМАЦИИ ПО ШЕННОНУ))
----
**Частота встречаемости букв** в обычном (неспециальном) тексте (без учета пробелов) ((#источники [2])):
^ a ^ б ^ в ^ г ^ д ^ е,ё ^ ж ^ з ^ и ^ й ^ к ^ л ^ м ^ н ^ о ^ п ^ р ^ с ^ т ^
| 0.075 | 0.017 | 0.046 | 0.016 | 0.030 | 0.087 | 0.009 | 0.018 | 0.075 | 0.012 | 0.034 | 0.042 | 0.031 | 0.065 | 0.110 | 0.028 | 0.048 | 0.055 | 0.065 |
^у ^ ф ^ х ^ ц ^ ч ^ ш ^ щ ^ ъ,ь ^ ы ^ э ^ ю ^ я ^
| 0.025 | 0.002 | 0.011 | 0.005 | 0.015 | 0.007 | 0.004 | 0.017 | 0.019 | 0.003 | 0.007 | 0.022 |
Я решил проверить эти результаты на примере отрывка из ((#источники [1]))
> Я находился тогда в Германии, где оказался призванным в связи с войной, не кончившейся там и доныне. Когда я возвращался с коронации императора в армию, начавшаяся зима остановила меня на одной из стоянок, где, лишенный развлекающих меня собеседников и, кроме того, не тревожимый, по счастью, никакими заботами и страстями, я оставался целый день один в теплой комнате, имея полный досуг предаваться размышлениям. Среди них первым было соображение о том, что часто творение, составленное из многих частей и сделанное руками разных мастеров, не столь совершенно, как творение, над которым трудился один человек. Так, мы видим, что здания, задуманные и исполненные одним архитектором, обыкновенно красивее и лучше устроены, чем те, в переделке которых принимали участие многие, пользуясь старыми стенами, построенными для других целей. Точно так же старинные города, разрастаясь с течением времени из небольших посадов и становясь большими городами, обычно столь плохо распланированы по сравнению с городами-крепостями, построенными на равнине по замыслу одного инженера, что, хотя рассматривая эти здания по отдельности, нередко находишь в них никак не меньше искусства, нежели в зданиях крепостей, однако при виде того, как они расположены --- здесь маленькое здание, там большое --- и как улицы от них становятся искривленными и неравными по длине, можно подумать, что это скорее дело случая, чем разумной воли людей. А если иметь в виду, что тем не менее всегда были должностные лица, обязанные заботиться о том, чтобы частные постройки служили и украшению города, то станет ясным, как нелегко создать что-либо совершенное, имея дело только с чужим творением. Подобным образом я представил себе, что народы, бывшие прежде в полудиком состоянии и лишь постепенно цивилизовавшиеся и утверждавшие свои законы только по мере того, как бедствия от совершаемых преступлений и возникавшие жалобы принуждали их к этому, не могут иметь такие же хорошие гражданские порядки, как те, которые соблюдают установления какого-нибудь мудрого законодателя с самого начала своего объединения. Так же очевидно, что истинная религия, заповеди которой установлены самим Богом, должна быть несравненно лучше устроена, чем какая-либо другая. Если же говорить о людских делах, то я полагаю, что Спарта была некогда в столь цветущем состоянии не оттого, что законы ее были хороши каждый в отдельности, ибо некоторые из них были очень странны и противоречили добрым нравам, но потому, что все они, будучи составлены одним человеком, направлялись к одной цели. Подобным образом, мне пришло в голову, что и науки, заключенные в книгах, по крайней мере те, которые лишены доказательств и доводы которых лишь вероятны, сложившись и мало-помалу разросшись из мнений множества разных лиц, не так близки к истине, как простые рассуждения здравомыслящего человека относительно встречающихся ему вещей. К тому же, думал я, так как все мы были детьми, прежде чем стать взрослыми, и долгое время нами руководили наши желания и наши наставники, часто противоречившие один другим и, возможно, не всегда советовавшие нам лучшее, то почти невозможно, чтобы суждения наши были так же чисты и основательны, какими бы они были, если бы мы пользовались нашим разумом во всей полноте с самого рождения и руководствовались всегда только им.
| | всего ^ a ^ б ^ в ^ г ^ д ^ е,ё ^ ж ^ з ^ и ^ й ^ к ^ л ^ м ^ н ^ о ^ п ^ р ^ с ^ т ^
|количество | 3203 ^ 195 ^ 42 ^ 111 ^ 40 ^ 94 ^ 236 ^ 30 ^ 46 ^ 231 ^ 24 ^ 94 ^ 114 ^ 109 ^ 201 ^ 310 ^ 53 ^ 116 ^ 144 ^ 155 ^
|вероятность | 1.000 | 0.061 | 0.013 | 0.035 | 0.012 | 0.029 | 0.074 | 0.009 | 0.014 | 0.072 | 0.007 | 0.029 | 0.035 | 0.034 | 0.063 | 0.097 | 0.017 | 0.036 | 0.045 | 0.048 |
| ^ у ^ ф ^ х ^ ц ^ ч ^ ш ^ щ ^ ъ ^ ы ^ ь ^ э ^ ю ^ я ^ пробел ^
|количество ^ 49 ^ 0 ^ 26 ^ 9 ^ 48 ^ 35 ^ 7 ^ 1 ^ 74 ^ 45 ^ 4 ^ 13 ^ 61 ^ 486 ^
|вероятность | 0.015 | 0.000 | 0.008 | 0.003 | 0.015 | 0.011 | 0.002 | 0.000 | 0.023 | 0.014 | 0.001 | 0.004 | 0.019 | 0.152 |
Без учета пробелов:
| ^ a ^ б ^ в ^ г ^ д ^ е,ё ^ ж ^ з ^ и ^ й ^ к ^ л ^ м ^ н ^ о ^ п ^ р ^ с ^ т ^
|вероятность | 0.072 | 0.015 | 0.041 | 0.015 | 0.035 | 0.087 | 0.011 | 0.017 | 0.085 | 0.009 | 0.035 | 0.042 | 0.040 | 0.074 | 0.114 | 0.019 | 0.043 | 0.053 | 0.058 |
| ^ у ^ ф ^ х ^ ц ^ ч ^ ш ^ щ ^ ъ ^ ы ^ ь ^ э ^ ю ^ я ^
|вероятность | 0.018 | 0.000 | 0.009 | 0.003 | 0.017 | 0.012 | 0.002 | 0.000 | 0.027 | 0.016 | 0.001 | 0.004 | 0.022 |
Для иллюстрации некоторых методов кодирования, я решил построить два искусственных языка
!!П!! **Пример 1**. Оставим из всех букв русского алфавита только $ 10_{} $:
**а**, **б**, **в**, **г**, **д**, **е**, **ж**, **з**, **и**, **к**. Жесткое усечение предыдущего текста приведет к
----
ади тгда в Геаии где каза пизва в взи в
е киве а и де Кгда взваа каии иеаа
в аи аава зиа авиа е а д из к где
ие азвекаи е беедикв и ке г е евжи
а икакии забаи и аи ава е де ди
в е кае ие дг едава азеи еди и
ев б бажеие а веие авее из ги
ае и деае каи аз аев е вее как веие
ад к ди ди евек ак види здаи задае
и иее ди аиек бкве каивее и е е
е е в еедеке к ииаи аие гие з аи
еаи еи д дги ее ак же аие гда
азаа ееие вееи из еби адв и ав бии
гдаи б ааива авеи гдаи кеи
еи а авие за дг ижееа ааива
и здаи деи еедк ади в и икак е ее иква
ежеи в здаи кее дак и виде г как и аже
зде аеке здаие а бе и как и и ав
икивеи и еави дие ж да кее де
а е аз ви де а еи ие в вид е е еее
вегда би дже иа бзае заби б ае
ки жии и каеи гда ае как еегк зда
иб веее ие де к жи веие дб баз
едави ебе ад бвие ежде в дик ии и и
ее ивиизвавие и веждавие ви зак к ее г
как бедви веае ееи и взикавие жаб иждаи
и к е г ие акие же ие гаждакие дки как е
ке бда авеи какг ибд дг закдае аг
ааа вег бедиеи ак же евид ииа еиги заведи
к аве аи Бг джа б еаве е еа
е кака-иб дга Еи же гви дки деа ага
аа ба екгда в вее ии е г зак ее
би и кажд в деи иб еке из и би е а и
ивеии дб ава ве и бди аве
ди евек аави к д еи дб баз е и в
гв и аки закее в кига кае ее е ке
ие дказаев и двд к и ве живи и а а
ази из еи жева аз и е ак бизки к иие как
е аждеи здавег евека ие веаи
е вее К же да ак как ве би деи ежде е
а взи и дге ве аи квдии аи жеаи и аи аавики
а ивеивие ди дги и взж е вегда вевавие а
ее и евзж б ждеи аи би ак же и и
вае какии б и би еи б зваи аи аз
в ве е аг ждеи и квдвваи вегда к и
----
Частоты встречаемости букв (пробелы между словами не учитываем)
| ^ е ^ и ^ а ^ в ^ д ^ к ^ з ^ б ^ г ^ ж ^
^ вероятность | 0.211 | 0.206 | 0.174 | 0.099 | 0.084 | 0.084 | 0.041 | 0.038 | 0.036 | 0.027 |
!!П!! **Пример 2**. Еще более суровая вивисекция --- оставим только $ 4_{} $ буквы и пробелы
----
Оитомии о ими оооитми о о о ооииимтомиимотоим оои
тоо и и м оио и омтоо тоимо т иимиотмии ттмиотоитоомт имо о
т мим и и м о оои о том тототои ото и мои т и о мимто тооотои
отомтиоио Т м иим тои м и иооим иттоомооо и и том т ото иимитимои о
тми тми отоми и Тоо т тиоот тим мии оиоои тооимиоомиоотоооиоо
и оомиотмиотоми и о м ооо и тоотмтити и о ототи о оии и м
ити и отоои и тоооиоомо и тмоои и оти тот иимии мио и
моо омт тотоо о м мооии имт и тотмм и оот и о отито том тот
отоииии и оототтм о оттоиоооимо тоо имтоимоом оом титоо и
оиомотоии и и ото иииои и тиоио тоо о м тоо тиотомтии оии о иии том
мот имт тиоои и оит ото оттои оои моо оот моо оооии Т оио тоити
ииоиотоотомим оом о т о том иои ооито и тоо тот о
тотмотоии оттоо тоо и оои ототи иоото и и и о т и отиоииомм о отомтооии
отоим оом и оои оом оом м иооотои и и о м т ото и отт и ооото и отоии и моомоии мимот и т ииити оти омо о отоитотим том м т м и тми м ттоми и оом миооиии и и и тии тоотиоииоиими омооотоим тооти омоотои и и т ити оот ими оии и м оои иммом о оот моо оии оотои тоо им
----
Каждое слово (кроме последнего) --- нечетной длины.
Всего букв $ 1050 $, частоты встречаемости букв[[Имеются небольшие нестыковки с содержимым таблиц предыдущего примера --- но лень переделывать схемы из раздела ((:codes#коды_хаффмана КОДИРОВАНИЕ)).]]
| ^ и ^ м ^ о ^ т ^ пробел ^
^ количество | 230 | 109 | 310 | 155 | 246 |
^ вероятность | 0.219 | 0.104 | 0.295 | 0.148 | 0.234 |
Теперь разбиваем текст на биграммы, объединяя последнюю букву каждого слова со следующим за ней пробелом. Всего биграмм $ 1051 $, из них
^ ^ и ^ м ^ о ^ т ^ пробел ^
^ и | 39 | 30 | 33 | 15 | 113 |
^ м | 28 | 3 | 25 | 12 | 40 |
^ о | 63 | 36 | 83 | 64 | 64 |
^ т | 25 | 12 | 81 | 8 | 29 |
^ пробел | 75 | 28 | 88 | 56 | 0 |
Первая буква биграммы берется из первого столбца, вторая буква --- из первой строки; количество получившейся биграммы в тексте --- на перекрестье. Частоты встречаемости биграмм
| ^ ии ^ им ^ ио ^ ит ^ и_ ^ ми ^ мм ^ мо ^ мт ^ м_ ^ ои ^ ом ^ оо ^ от ^ о_ ^ ти ^ тм ^ то ^ тт ^ т_ ^
^ вероятность | 0.037 | 0.028 | 0.031 | 0.014 | 0.108 | 0.027 | 0.003 | 0.024 | 0.011 | 0.038 | 0.060 | 0.034 | 0.079 | 0.061 | 0.061 |0.024 | 0.011 | 0.077 | 0.008 | 0.028 |
| ^ _и ^ _м ^ _o ^ _т ^ __ ^
^ вероятность | 0.071 | 0.027 | 0.084 | 0.053 | 0.000 |
Матрица условных вероятностей
$$
\mathfrak P=
\left(
\begin{array}{ccccc}
0.170 & 0.130 & 0.144 & 0.065 & 0.491 \\
0.259 & 0.029 & 0.231 & 0.111 & 0.370 \\
0.204 & 0.116 & 0.268 & 0.206 & 0.206 \\
0.161 & 0.077 & 0.523 & 0.052 & 0.187 \\
0.304 & 0.113 & 0.356 & 0.227 & 0
\end{array} \right)
$$
Проверка:
$$ P( \mbox{ ит } )= 0.014,\ P_1\cdot P_{1,4} = 0.219\cdot 0.065 \approx 0.014; $$
$$ P( \mbox{ ом } )= 0.034;\ P_3\cdot P_{3,2} = 0.295 \cdot 0.116 \approx 0.034; $$
$$ P( \mbox{ т_ } )= 0.028;\ P_4\cdot P_{4,5} = 0.148 \cdot 0.187 \approx 0.0276. $$
Если весь текст разбить на $ 525_{} $ биграмм по схеме:
Ои
|
то
|
ми
|
и_
|
о_
|
им
|
и_
|
оо
|
ои
|
тм
|
и_
|
о_
|
о_
|
о_
|
оо
|
ии
|
им
|
то
|
ми
|
им
|
от
|
ои
|
м_
|
...
то из них
^ ^ и ^ м ^ о ^ т ^ пробел ^
^ и | 13 | 14 | 10 | 8 | 113 |
^ м | 18 | 0 | 12 | 2 | 40 |
^ о | 30 | 16 | 43 | 40 | 64 |
^ т | 11 | 7 | 52 | 3 | 29 |
^ пробел | 0 | 0 | 0 | 0 | 0 |
==Источники==
[1]. **Декарт Р.** //Рассуждение о методе, чтобы верно направлять свой разум и отыскивать истину в науках.// (1637 г.)
[2]. **Яглом А.М., Яглом И.М.** //Вероятность и информация.// М. ГТТИ. 1957, с.110