Главная Случайная страница


Категории:

ДомЗдоровьеЗоологияИнформатикаИскусствоИскусствоКомпьютерыКулинарияМаркетингМатематикаМедицинаМенеджментОбразованиеПедагогикаПитомцыПрограммированиеПроизводствоПромышленностьПсихологияРазноеРелигияСоциологияСпортСтатистикаТранспортФизикаФилософияФинансыХимияХоббиЭкологияЭкономикаЭлектроника






Как представлять дискретную информацию?

Как уже говорилось, дискретность - это случай, когда объект или явление имеет конечное (счетное) число разнообразий. Чтобы выделить конкретное из всего возможного, нужно каждому конкретному дать оригинальное имя (иначе, перечислить). Эти имена и будут нести в себе информацию об объектах, явлениях и т. п.

В качестве имен часто используют целые числа 0, 1, 2,... Так именуются (нумеруются) страницы книги, дома вдоль улицы, риски на шкалах измерительных приборов. С помощью чисел можно перенумеровать все “разнообразия” реального мира. Именно такая цифровая форма представления информации используется в ЭВМ.

В обыденной жизни, тем не менее, цифровая форма представления информации не всегда удобна. Первенство принадлежит слову ! Традиционно информация об объектах и явлениях окружающего мира представляется в форме слов и их последовательностей.

Основной элемент в этой форме - слово. Слово - имя объекта, действия, свойства и т.п., с помощью которого выделяется именуемое понятие в устной речи или в письменной форме.

Слова строятся из букв определенного алфавита (например, А, Б, ... , Я). Кроме букв используются специальные символы - знаки препинания, математические символы +, -, знак интеграла, знак суммы и т.п. Все разнообразие используемых символов образует алфавит, на основе которого строятся самые разные объекты:

из цифр - числа;

из букв - собственно слова,

из цифр, букв и математических символов - формулы и т.д.

И все эти объекты несут в себе информацию :

числа - информацию о значениях;

слова - информацию об именах и свойствах объектов;

формулы - информацию о зависимостях между величинами и т.д.

Эта информация (и это очевидно) имеет дискретную природу и представляется в виде последовательности символов. О такой информации говорят как об особом виде дискретной информации и называют этот вид символьной информацией.

Наличие разных систем письменности, в том числе таких, как иероглифическое письмо, доказывает, что одна и та же информация может быть представлена на основе самых разных наборов символов и самых разных правил использования символов при построении слов, фраз, текстов.

Из этого утверждения можно сделать следующий вывод:

Разные алфавиты обладают одинаковой “изобразительной возможностью”, т.е. с помощью одного алфавита можно представить всю информацию, которую удалось представить на основе другого алфавита. Можно, например, ограничиться алфавитом из десяти цифр - 0, 1, ..., 9 и с использованием только этих символов записать текст любой книги или партитуру музыкального произведения. При этом сужение алфавита до десяти символов не привело бы к каким-либо потерям информации. Более того, можно использовать алфавит только из двух символов, например, символов 0 и 1. И его “изобразительная возможность” будет такой же.

Итак, символьная информация может представляться с использованием самых различных алфавитов (наборов символов) без искажения содержания и смысла информации: при необходимости можно изменять форму представления информации - вместо общепринятого алфавита использовать какой-либо другой, искусственный алфавит, например, двухбуквенный.

Форма представления информации, отличная от естественной, общепринятой, называется кодом. Коды широко используются в нашей жизни: почтовые индексы, телеграфный код Морзе и др. Широко применяются коды и в ЭВМ и в аппаратуре передачи данных. Так, например, широко известно понятие “программирование в кодах”.

Кроме рассмотренных существуют и другие формы представления дискретной информации. Например, чертежи и схемы содержат в себе графическую информацию.

Как измерить информацию?

Как уже говорилось в примере с номером квартиры, одни сведения могут содержать в себе мало информации, а другие - много. Разработаны различные способы оценки количества информации. В технике чаще всего используется способ оценки, предложенный в 1948 году основоположником теории информации Клодом Шенноном. Как было отмечено, информация уничтожает неопределенность. Степень неопределенности принято характеризовать с помощью понятия “вероятность”.

Вероятность - величина, которая может принимать значения в диапазоне от 0 до 1. Она может рассматриваться как мера возможности наступления какого-либо события, которое может иметь место в одних случаях и не иметь места в других.

Если событие никогда не может произойти, его вероятность считается равной 0. Так, вероятность события “Завтра будет 5 августа 1832 года” равна нулю в любой день, кроме 4 августа 1832 года. Если событие происходит всегда, его вероятность равна 1.

Чем больше вероятность события, тем выше уверенность в том, что оно произойдет, и тем меньше информации содержит сообщение об этом событии. Когда же вероятность события мала, сообщение о том, что оно случилось, очень информативно.

Количество информации I, характеризующей состояние, в котором пребывает объект, можно определить, используя формулу Шеннона:

I = -(p[1]*log(p[1])+p[2]*log(p[2])+...+p[n]*log(p[n])) ,

здесь

n - число возможных состояний;

p[1],...p[n] - вероятности отдельных состояний;

log( ) - функция логарифма при основании 2.

Знак минус перед суммой позволяет получить положительное значение для I, поскольку значение log(p[i]) всегда не положительно.

Единица информации называется битом. Термин “бит” предложен как аббревиатура от английского словосочетания “Binary digiT”, которое переводится как “двоичная цифра”.

1 бит информации - количество информации, посредством которого выделяется одно из двух равновероятных состояний объекта.

Рассмотрим пример.

Пусть имеется два объекта. С каждого из них в определенные моменты времени диспетчеру передается одно из двух сообщений: включен или выключен объект. Диспетчеру известны типы сообщений, но неизвестно, когда и какое сообщение поступит.

Пусть также, объект А работает почти без перерыва, т.е. вероятность того, что он включен, очень велика (например, р_А_вкл=0,99 и р_А_выкл=0,01, а объект Б работает иначе и для него р_Б_вкл=р_Б_выкл=0,5).

Тогда, если диспетчер получает сообщение том, что А включен, он получает очень мало информации. С объектом Б дела обстоят иначе.

Подсчитаем для этого примера среднее количество информации для указанных объектов, которое получает диспетчер:

Объект А : I = -(0,99*log(0,99)+0,01*log(0,01))=0,0808.

Объект Б : I = -(0,50*log(0,50)+0,50*log(0,50))=1.

Итак, каждое сообщение объекта Б несет 1 бит информации.

Формула Шеннона, в принципе, может быть использована и для оценки количества информации в непрерывных величинах.

При оценке количества дискретной информации часто используется также формула Хартли:

I = log(n) ,

где n - число возможных равновероятных состояний;

log() - функция логарифма при основании 2.

Формула Хартли применяется в случае, когда вероятности состояний, в которых может находиться объект, одинаковые.

Приведем пример. Пусть объект может находиться в одном из восьми равновероятных состояний. Тогда количество информации, поступающей в сообщении о том, в каком именно он находится, будет равно

I = log(8) = 3 [бита].

Оценим количество информации в тексте.

Точно ответить на вопрос, какое количество информации содержит 1 символ в слове или тексте, достаточно сложное дело. Оно требует исследования вопроса о частотах использования символов и всякого рода сочетаний символов. Эта задача решается криптографами. Мы же упростим задачу. Допустим, что текст строится на основе 64 символов, и частота появления каждого из них одинакова, т.е. все символы равновероятны.

Тогда количество информации в одном символе будет равно

I = log(64) = 6 [бит].

Из двух символов данного алфавита может быть образовано n=64*64=4096 различных сочетаний. Следовательно, два символа несут в себе I=log(4096)=12 бит информации.

Оценим количество информации, содержащейся в числах.

Если предположить, что цифры 0, 1, ..., 9 используются одинаково часто (равновероятны), то

одна цифра содержит I = log(10) = 3,32 [бит];

четырехзначное число из диапазона [0..9999], если все его значения равновероятны, содержит

I = log(10000)=13,28 [бит];

а восьмиразрядное число - I=log(100000000)=26,56 [бита].

Итак, количество информации в сообщении зависит от числа разнообразий, присущих источнику информации и их вероятностей.

Повторим основные положения, рассмотренные выше.

1. Информация - отражение предметного или воображаемого мира с помощью знаков и сигналов.

2. Информация может существовать либо в непрерывной, либо в дискретной формах.

3. Информация о чем-либо может быть представлена многими способами. В качестве носителей информации могут использоваться разнообразные физические величины такой же природы (для непрерывной информации - непрерывные физические величины, для дискретной - дискретные).

4. Физический процесс является сигналом, если какая-либо присущая ему физическая величина несет в себе информацию.

5. Чтобы представить дискретную информацию, надо перечислить (поименовать) все разнообразия, присущие объекту или явлению (цвета радуги, виды фигур и др.).

Дискретная информация представляется:

числами (как цифровая),

символами некоторого алфавита (символьная),

графическими схемами и чертежами (графическая).

6. Дискретная информация может использоваться и для представления непрерывной. Удобной формой дискретной информации является символьная.

7. Разные алфавиты обладают одинаковой “изобразительной силой”: с помощью одного алфавита можно представить всю информацию, которую удавалось представить на основе другого алфавита. А значит, информацию обо всем окружающем человека мире можно представить в дискретной форме с использованием алфавита, состоящего только из двух символов (т.е. с использованием двоичной цифровой формы).

8. Форма представления информации, отличная от естественной, общепринятой, называется кодом.

Широко известны такие коды, как почтовые индексы, нотная запись музыки, телеграфный код Морзе, цифровая запись программ для ЭВМ (программирование в кодах), помехозащищенные коды в системах передачи данных.

9. Информация уничтожает неопределенность знаний об окружающем мире. Степень неопределенности принято характеризовать с помощью понятия “вероятность”.

Вероятность - величина, которая может принимать значения в диапазоне [0,1] и которая может рассматриваться как мера возможности наступления какого-либо события. Если событие никогда не может произойти, его вероятность считается равной 0, а если событие происходит всегда, его вероятность равна 1.

Для оценки количества информации в технике чаще всего используется способ, предложенный Клодом Шенноном. Для случая, когда все состояния, в которых может находиться объект, равновероятны, применяют формулу Хартли. Одна единица информации называется битом.

 

Последнее изменение этой страницы: 2016-06-09

lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда...