Большая База Рефератов - Энтропия. Теория информации - бесплатно рефераты, скачать рефераты, рефераты на тему

Меню

Поиск

Энтропия. Теория информации
	1	=	1	(2.5)
N	2

При подстановке (2.5) в (1.13) получаем :

H = (½ log2 ½ + ½ log2 ½) = + log2 2 = 1 bit

Наименование «бит» (“bit”) происходит от сокращения английских слов «двоичная единица» (binary unit).

В реальных текстах появлению разных букв соответствуют разные вероятности. Так, например, для русских текстов вероятность появления буквы "О" в 30 раз превышает вероятность появления буквы «Щ» или «Э» (Ро= 0,09;
Рщ= Рэ= 0,003).

При подстановке в формулу (1.13) реальных значений вероятностей букв русского текста величина реальной информационной энтропии Нr уменьшается по сравнению с максимальной энтропией, определяемой выражением (2.4).

Разность между величиной максимальной энтропии Нmax и реальной энтропии Нr соответствует количеству избыточной (предсказуемой ) информации In.

Таким образом:

In = Hmax – Hr

(2.6)

Учет реальных значений вероятностей букв при передаче письменных текстов позволяет уменьшить избыточность сообщений, передаваемых по каналам связи. Так, например, для избавления от избыточности используется способ кодирования букв алфавита, при котором часто повторяющимся в тексте буквам
(т.е. буквам, имеющим наибольшую вероятность, такую, например, как Ра = =0,062; Рв = 0,038 ; Ре = 0,072 ; Рл = 0,035 ; Ро = 0,09 и др.) соответствуют или меньшая трата энергии за счет уменьшения величины (амплитуды) сигналов или, увеличенная скорость передачи за счет сокращения числа знаков двоичного кода, соответствующего обозначению указанных букв.

Помимо учета реальных вероятностей букв, для уменьшения избыточности сообщений следует учитывать также вероятности их сочетаний (например, высокую вероятность появления буквы Я после переданного сочетания ТЬС , малую вероятность появления согласной буквы после передачи следующих друг за другом трех согласных букв и т.п.).

Таблица 1

Способ формирования «фраз»

№№ пп

"Фразы", полученные на основе статистических

свойств русского языка

Статистические характеристики фраз

Нr (бит)

D Is (бит )

При равной вероятности всех букв

СУХРРОБЬТ ЯИХВЩИЮАЙЖТЛ-ФВНЗАГФОЕВШТТЦРПХГРКУ -ЧЖОРЯПЧЬКЙХРЫС

5,0

0,0

При учете реальных вероятностей :

отдельных букв 3-х - буквенных сочетаний

ЕЫНТ ЦИЯЬА СЕРВ ОДНГ ЬУЕМЛОЙК ЭБЯ ЕНВТША ПОКАК ПОТ ДУРНОСКАКА НАКОНЕПНО SHE СТВО -

4,3

0,7

ЛОВИЛ СЕ ТВОЙ ОБНИЛ Ь

3,5

1.5

4-х - буквенных сочетаний

ВЕСЕЛ ВРАТЬСЯ НЕ СУХОМ И НЕПО И КОРКО

2,9

2,1

8-ми - буквенных сочетаний

1,8

3.2

Выборка из реального текста

ПРИСВОИВ ДВОИЧНЫЕ НОМЕРА БУКВАМ АЛФАВИТА, МОЖНО ПВРЕВРАТИТЬ ЛЮБОЙ ТЕКСТ В ЧЕРЕДОВАНИЕ ЕДИНИЦ И НУЛЕЙ

1,0

4,0

При РА = 1;
РБ-Рв-.-.-Ря = О

АААА. .

0,0

5,0

В результате взаимной корреляции букв в употребляемых в текстах буквенных сочетаний происходит дополнительное уменьшение определяемой выражением (1.13) реальной энтропии Нr по сравнению с определяемой выражением (2.4) максимальной энтропии Нmax. Подстановка значения Нr, вычисленного с учетом взаимной корреляции букв, в выражение (2.6) дает дополнительное увеличение численного значения избыточной информации In (таблица 1). Указанные свойства письменных текстов наглядно иллюстрируются таблицей искусственных текстов, полученных путем случайных выборок из реальных текстов отдельных букв или их сочетаний. Вместе с тем, указанная таблица показывает, что вместе с увеличением избыточности увеличивается и упорядо ченность (детерминация) текста, достигая в пределе «жесткой детерминации», при которой текст вырождается в повторение одинаковых букв.

Такая взаимосвязь между избыточностью и упорядоченностью текста обусловлена тем, что избыточность текста обусловлена действием грамматических и фонетических правил. Именно этими правилами обусловлена присущая тексту структурность, следовательно, вычисляемое согласно (2.6) количество избыточной информации In является одновременно и количеством информации, сохраняемой в упорядоченой структуре текста или любых других структурированных систем :

D IS = Hmax – Hr

(2.7)

Для уяснения смысла равенства In = D IS, вытекающего из сопоставления выражений (2.6) и (2.7), рассмотрим следующий пример.

Некто получил сообщение, что из яйца вылупился птенец. Для подтверждения того, что это именно птенец, а не малек, сообщается, что у него не плавники, а крылья, не жабры, а легкие и т.п. Разумеется, все это не будет избыточной информацией In для всякого, кто знает, чем отличается птенец от малька.

Но та же самая информация о крыльях, легких, клюве и т.п., заложенная в генетический код, регулирует процесс онтогенеза, в результате которого в яйце формируется организм птенца, а не малька. Таким образом, информация In, избыточная для осведомленного получателя, оказывается необходимой структурной информацией D IS, когда речь идет об информационном управлении процессами формирования тех или иных упорядоченных структур. Вследствие этого и выполняется условие :

In = D IS = Hmax – Hr

(2.8)

ИНФОРМАЦИОННО-ЭНТРОПИЙНЫЕ СООТНОШЕНИЯ ПРОЦЕССОВ АДАПТАЦИИ И РАЗВИТИЯ

Одна из теорем Шеннона свидетельствует об уменьшении информационной энтропии множества АВ, образованного в результате взаимодействий двух исходных упорядоченных множеств Либ.

H (A,B) ≤ H(A) + H(B)

(3.1)

В этом соотношении знак равенства относится к случаю отсутствия взаимодействий между множествами А и В .

В случае взаимодействий происходит уменьшение энтропии на величину:

D H = Н(А) + Н(В) - Н(А,В) (3.2)

Согласно негэнтропийному принципу информации (3.4) получаем :

D IS =Н(А) +Н(В) - Н(А,В) (3.3)

Распространяя рассмотренные Шенноном взаимодействия абстрактных математических множеств на случаи взаимодействий реальных физических систем, можно сделать следующие выводы :

1. Соотношения ( 3.1 ), (3.2) и (3.3 ) можно распространить на случаи взаимодействий упорядоченных физических систем, в частности на взаимодействия физических сред с различными видами полей.

При этом необходимо осуществлять переход от информационной энтропии Н к термодинамическай энтропии S , используя соотношение (1.4) Приложений 1.

2. Знак равенства в соотношении (3.1) соответствует случаю отсутствия взаимодействия между рассматриваемыми физическими системами (например, случай воздействия магнитного поля на не обладающую магнитными свойствами среду).

3. Во всех остальных случаях в соответствии с соотношением (3.3) происходит накопление структурной информации D IS, характеризующей увеличение упорядоченности структуры вновь образующейся системы (формирование и ориентация магнитных доменов под воздействием магнитного поля, структуализация под воздействием электрического поля поляризуемых сред и т.п.).

С помощью вероятностной функции энтропии можно описать формальным математическим языком процесс адапации системы к внешним воздействиям, понимая процесс адаптации как обучение оптимальному поведению в заданных условиях внешней среды.

Рассмотрим систему, обладающую возможностью выбора одного из N возможных ответов (реакций) на внешние воздействия. До прохождения обучения система способна отвечать на любые воздействия лишь выбранной наугад реакцией i, причем i может принимать любые значения от i = 1 до i = N, т.е.:

i=1,2,3,.. . N , (3.4)

При этом условии вероятности всех ответов равны друг другу, т.е.:

Р1= Р2 = … =PН=1/N (3.5)

Как было показано ранее, при этом условии реальная энтропия Нr равна максимальной энтропии Hmax, т.е.:

Hr = -

i = N

pi log pi = log N = Hmax

(3.6)

i = 1

В результате обучения возникают различия вероятностей разных реакций.

В соответствии с рассмотренными ранее свойствами функции

S pi log pi

реальная энтропия Hr уменьшается на величину

D IS = Hmax – Hr

(3.7)

С точки зрения теории вероятностей начальный алфавит с заданным числом букв представляет собой полную группу событий.

Для полной группы событий при любом распределении вероятностей сумма их всегда равна 1 , согласно известному из теории вероятности условию нормировки:

i = N

pi = 1

(3.6)

i = 1

Смысл условия нормировки заключается в том, что сумма вероятностей выпадения всех 6-ти граней игральной кости равна вероятности выпадения любой грани, т.е. :

Р1 + Р2 + … Р6 = 1/6 + 1/6 + … + 1/6 = 1

6 раз

В рассматриваемом нами процессе обучения, приводящем к дифференцировке значений вероятностей реакций Pi , составляющих полную группу N, условие (3.8) свидетельствует о том, что увеличение вероятностей каких -то реакций может происходить только за счет уменьшения всех остальных вероятностей (чтобы сумма была по-прежнему равна 1, см. рис. 1, случай б).

В предельном случае одна из N вероятностей может возрасти до 1, тогда все остальные вероятности станут равны 0 (рис. 1).

В случае текста предельному случаю дифференцировки соответствует вероятность одной буквы (например, «е»), равная 1. Вероятности всех остальных букв при этом равна нулю. Это значит, что текст вырождается в повторение одной буквы

е е е е е ...

Этот случай соответствует жесткой детерминации (незатухающий строго периодический процесс).

Соответствующее жесткой детерминации распределение вероятностей, при котором некая вероятность Рк равна 1, а все остальные - равны 0, в общем виде запишется как

Рк=1 (3.9)

Р1 = Р2 = . . .= Рк-1 = Рк+1=. . .= 0 (3.10)

а)

Р1 Р2

б)

в)

Равномерное распределение вероятностей

Нr = Hmax

Дифференцировка вероятностей при соблюдении условия

i=N

S pi = 1

i=1

Hmax > Hr > 0

Предельный случай дифференцировки вероятностей

Нr = 0

Рис. 1

При подстановке этих значений в функцию энтропии :

Hr =

i = N

pi log pi

(3.11)

i = 1

получаем :

Hr=0 (3.12)

Подставляя (3.9) в (3.4), получаем :

D IS = Hmax (3.13)

Hr = 0

D IS = Hmax

Hr = Hmax

D IS = 0

Страницы: 1, 2, 3, 4, 5

Новости

Мои настройки

Наверх