Проблема измерения информации

м понимали «представление», «понятие», затем – «сведения», «передачу сообщений».

Несмотря на то, что человеку постоянно приходится иметь дело с информацией (он получает ее с помощью органов чувств), строгого научного определения, что же такое информация, не существует. В тех случаях, когда наука не может дать четкого определения какому-то предмету или явлению, люди пользуются понятиями.

Понятия отличаются от определений тем, что разные люди при разных обстоятельствах могут вкладывать в них разный смысл. В бытовом смысле под информацией обычно понимают те сведения, которые человек получает от окружающей природы и общества с помощью органов чувств. Наблюдая за природой, общаясь с другими людьми, читая книги и газеты, просматривая телевизионные передачи, мы получаем информацию.

Математик рассмотрит это понятие шире и включит в него те сведения, которые человек не получал, а создал сам с помощью умозаключений. Биолог же пойдет еще дальше и отнесет к информации и те данные, которые человек не получал с помощью органов чувств и не создавал в своем уме, а хранит в себе с момента рождения и до смерти. Это генетический код, благодаря которому дети так похожи на родителей. Тем не менее, все отрасли науки и техники, имеющие дело с информацией, сходятся в том, что информация обладает четырьмя свойствами. Информацию можно: создавать, передавать, хранить и обрабатывать.

В XX веке бурное развитие получили средства связи (телефон, телеграф, радио), назначение которых состояло в передаче сообщений. Их эксплуатация выдвинула ряд проблем: как обеспечить надежность связи при наличии помех, какой способ кодирования сообщения применять в том или ином случае, как закодировать сообщение, чтобы при минимальной его длине обеспечить передачу смысла с определенной степенью надежности. Эти проблемы требовали разработки теории информации как теории передачи сообщений. Одним из основных вопросов был вопрос о возможности измерения информации.

По определению А.Д. Урсула – «информация есть отраженное разнообразие». Количество информации есть количественная мера разнообразия. Это может быть разнообразие совокупного содержимого памяти; разнообразие сигнала, воспринятого в процессе конкретного сообщения; разнообразие исходов конкретной ситуации; разнообразие элементов некоторой системы – это оценка разнообразия в самом широком смысле слова.

7 стр., 3029 слов

Создание, переработка и хранение информации в технике

... накопления и хранения информации. Семантический анализ позволяет изучить информацию с точки зрения смыслового содержания ее отдельных элементов, находить способы языкового соответствия (язык человека, язык ЭВМ) при однозначном распознавании вводимых в ...

Любое сообщение между источником и приемником информации имеет некоторую продолжительность во времени, но количество информации воспринятой приемником в результате сообщения, характеризуется в итоге вовсе не длиной сообщения, а разнообразием сигнала порожденного в приемнике этим сообщением.

Память носителя информации имеет некоторую физическую ёмкость, в которой она способна накапливать образы, и количество накопленной в памяти информации, характеризуется в итоге именно разнообразием заполнения этой ёмкости. Для объектов неживой природы это разнообразие их истории, для живых организмов это разнообразие их опыта.

Первые обоснованные предложения об общих способах измерения количества информации были сделаны Р. Фишером (1921 г.) в процессе решения вопросов математической статистики. Проблемами хранения информации, передачи ее по каналам связи и задачами определения количества информации занимались X. Найквист (1924 г.) и Р. Хартли (1928 г.).

Единицы измерения информации

Решая различные задачи, человек вынужден использовать информацию об окружающем нас мире. И чем более полно и подробно человеком изучены те или иные явления, тем подчас проще найти ответ на поставленный вопрос. Так, например, знание законов физики позволяет создавать сложные приборы, а для того, чтобы перевести текст на иностранный язык, нужно знать грамматические правила и помнить много слов.

Часто приходится слышать, что сообщение или несет мало информации или, наоборот, содержит исчерпывающую информацию. При этом разные люди, получившие одно и то же сообщение (например, прочитав статью в газете), по-разному оценивают количество информации, содержащейся в нем. Это происходит оттого, что знания людей об этих событиях (явлениях) до получения сообщения были различными. Поэтому те, кто знал об этом мало, сочтут, что получили много информации, те же, кто знал больше, чем написано в статье, скажут, что информации не получили вовсе. Количество информации в сообщении, таким образом, зависит от того, насколько ново это сообщение для получателя.

Однако иногда возникает ситуация, когда людям сообщают много новых для них сведений, а информации при этом они практически не получают. Происходит это оттого, что сама тема в данный момент слушателям не представляется интересной.

Итак, количество информации зависит от новизны сведений об интересном для получателя информации явлении. Иными словами, неопределенность (т.е. неполнота знания) по интересующему нас вопросу с получением информации уменьшается. Если в результате получения сообщения будет достигнута полная ясность в данном вопросе (т.е. неопределенность исчезнет), говорят, что была получена исчерпывающая информация. Это означает, что необходимости в получении дополнительной информации на эту тему нет. Напротив, если после получения сообщения неопределенность осталась прежней (сообщаемые сведения или уже были известны, или не относятся к делу), значит, информации получено не было (нулевая информация).

Если подбросить монету и проследить, какой стороной она упадет, то мы получим определенную информацию. Обе стороны монеты «равноправны», поэтому одинаково вероятно, что выпадет как одна, так и другая сторона. В таких случаях говорят, что событие несет информацию в 1 бит. Если положить в мешок два шарика разного цвета, то, вытащив вслепую один шар, мы также получим информацию о цвете шара в 1 бит. Единица измерения информации называется бит (bit) – сокращение от английских слов binary digit, что означает двоичная цифра.

7 стр., 3304 слов

Система измерения количества и показателей качества нефти

... по контрольно-резервному; формирование отчетов журналов показаний средств измерений, актов приема-сдачи нефти, паспорта качества нефти ... в блок измерительных линий, где производится замер количества нефти с помощью массомера. БИЛ состоит из ... др.), преобразователи давления и температуры, систему обработки информации. При определении плотности нефти применяют поточные преобразователи плотности, ...

Бит, одна из самых безусловных единиц измерения. Если единицу измерения длины можно было положить произвольной: локоть, фут, метр, то единица измерения информации не могла быть по сути никакой другой.

Количество информации равное 1 биту можно получить в ответе на вопрос типа «да»/«нет». Если изначально вариантов ответов было больше двух, количество получаемой в конкретном ответе информации будет больше, чем 1 бит, если вариантов ответов меньше двух, т.е. один, то это не вопрос, а утверждение, следовательно, получения информации не требуется, раз неопределенности нет.

В компьютерной технике бит соответствует физическому состоянию носителя информации: намагничено – не намагничено, есть отверстие – нет отверстия. При этом одно состояние принято обозначать цифрой 0, а другое — цифрой 1. Выбор одного из двух возможных вариантов позволяет также различать логические истину и ложь. Последовательностью битов можно закодировать текст, изображение, звук или какую-либо другую информацию. Такой метод представления информации называется двоичным кодированием (binary encoding).

Целые количества бит отвечают количеству состояний, равному степеням двойки.

Особое название имеет 4 бита – ниббл (полубайт, тетрада, четыре двоичных разряда), которые вмещают в себя количество информации, содержащейся в одной шестнадцатеричной цифре.

В информатике часто используется величина, называемая байтом (byte) и равная 8 битам. И если бит позволяет выбрать один вариант из двух возможных, то байт, соответственно, 1 из 256 (28).

В большинстве современных ЭВМ при кодировании каждому символу соответствует своя последовательность из восьми нулей и единиц, т. е. байт. Соответствие байтов и символов задается с помощью таблицы, в которой для каждого кода указывается свой символ. Именно к байту (а не к биту) непосредственно приводятся все большие объёмы информации, исчисляемые в компьютерных технологиях.

Для измерения больших количеств байтов служат единицы «килобайт» = 1000 байт и «Кбайт»(кибибайт, kibibyte) = 1024 байт. Такой порядок величин имеют, например:

Единицы «мегабайт» = 1000 килобайт = 1000000 байт и «Мбайт» (мебибайт, mebibyte) = 1024 Кбайт = 1 048 576 байт применяются для измерения объёмов носителей информации.

Современные жёсткие диски имеют объёмы, выражаемые в этих единицах минимум шестизначными числами, поэтому для них применяются гигабайты.

Единицы «гигабайт» = 1000 мегабайт = 1000000000 байт и «Гбайт» (гибибайт, gibibyte) = 1024 Мбайт = 230 байт измеряют объём больших носителей информации, например жёстких дисков. Разница между двоичной и десятичной единицами уже превышает 7 %. Размер 32-битного адресного пространства равен 4 Гбайт ≈ 4,295 Мбайт. Такой же порядок имеют размер DVD-ROM и современных носителей на флеш-памяти. Размеры жёстких дисков уже достигают сотен и тысяч гигабайт.

Для исчисления ещё больших объёмов информации имеются единицы терабайт и тебибайт (1012 и 240 байт соответственно), петабайт и пебибайт (1015 и 250 байт соответственно) и т. д.

Долгое время разнице между множителями 1000 и 1024 старались не придавать большого значения. Во избежание недоразумений следует чётко понимать различие между:

Измерения в байтах

Десятичная приставка

Двоичная приставка

Название

Символ

Степень

Название

Символ

Степень

ГОСТ

МЭК

Байт

B

100

байт

B

байт

20

килобайт

kB

103

кибибайт

KiB

Кбайт

210

мегабайт

MB

106

мебибайт

MiB

Мбайт

220

гигабайт

GB

109

гибибайт

GiB

Гбайт

230

терабайт

TB

1012

тебибайт

TiB

Тбайт

240

петабайт

PB

1015

пебибайт

PiB

Пбайт

250

эксабайт

EB

1018

эксбибайт

EiB

Эбайт

260

зеттабайт

ZB

1021

зебибайт

ZiB

Збайт

270

йоттабайт

YB

1024

йобибайт

YiB

Йбайт

280

В качестве терминов для «Кбайт», «Мбайт», «Гбайт» и т. д. МЭК предлагает «кибибайт», «мебибайт», «гибибайт» и т. д., однако эти термины критикуются за непроизносимость и не встречаются в устной речи.

В различных областях информатики предпочтения в употреблении десятичных и двоичных единиц тоже различны. Причём, хотя со времени стандартизации терминологии и обозначений прошло уже несколько лет, далеко не везде стремятся прояснить точное значение используемых единиц.

В английском языке для «киби» = 1024 иногда используют прописную букву K, дабы подчеркнуть отличие от обозначаемой строчной буквой приставки СИ кило. Однако, такое обозначение не опирается на авторитетный стандарт, в отличие от российского ГОСТа касательно «Кбайт».

Неопределенность, количество информации и энтропия

Основоположник теории информации Клод Шеннон определил информацию, как снятую неопределенность. Точнее сказать, получение информации — необходимое условие для снятия неопределенности. Неопределенность возникает в ситуации выбора. Задача, которая решается в ходе снятия неопределенности – уменьшение количества рассматриваемых вариантов (уменьшение разнообразия), и в итоге выбор одного соответствующего ситуации варианта из числа возможных. Снятие неопределенности дает возможность принимать обоснованные решения и действовать. В этом управляющая роль информации.

Ситуация максимальной неопределенности предполагает наличие нескольких равновероятных альтернатив (вариантов), т.е. ни один из вариантов не является более предпочтительным. Причем, чем больше равновероятных вариантов наблюдается, тем больше неопределенность, тем сложнее сделать однозначный выбор и тем больше информации требуется для этого получить. Для N вариантов эта ситуация описывается следующим распределением вероятностей: {1/N, 1/N, … 1/N}.

Минимальная неопределенность равна 0, т.е. эта ситуация полной определенности, означающая что выбор сделан, и вся необходимая информация получена. Распределение вероятностей для ситуации полной определенности выглядит так: {1, 0, …0}.

Величина, характеризующая количество неопределенности в теории информации обозначается символом H и имеет название энтропия, точнее информационная энтропия.

Энтропия (H) – мера неопределенности, выраженная в битах. Так же энтропию можно рассматривать как меру равномерности распределения случайной величины.

Рис. 1. Поведение энтропии для случая двух альтернатив.