Всего за 54.99 руб. Купить полную версию
2) семантический подход, основанный на измерении смыслового содержания информации. В рамках этого подхода существует несколько направлений. Например, О. Х. Шнейдер определял количество информации с помощью тезаурусной меры. Для того чтобы понять и использовать полученную информацию, человек должен обладать определенным запасом знаний, т.е. иметь определенный тезаурус. Поэтому одинаковое содержание информации для различных пользователей будет представлять разную ценность;
3) прагматический подход, определяющий количество информации как меру полезности информации для достижения пользователем поставленной цели;
4) структурный подход, связанный с задачами реорганизации, хранения и извлечения информации. При этом подходе учитываются только физическая и логическая структуры информации.
27 СИСТЕМА КОДИРОВАНИЯ ИНФОРМАЦИИ
Кодирование предназначено для унификации формы представления данных, относящихся к различным типам, с целью автоматизации работы с информацией.
Кодированием называется выражение данных одного типа через данные другого типа. Например, естественные человеческие языки можно рассматривать как системы кодирования понятий для выражения мыслей посредством речи. Также и азбуки являются системами кодирования компонентов языка с помощью графических символов.
Система кодирования информации, применяемая в вычислительной технике, называется двоичным кодированием. В ее основе лежит представление данных через последовательность двух знаков: 0 и 1. Эти знаки называют двоичными цифрами (binary digit), или сокращенно bit ( бит). С помощью одного бита могут быть закодированы два понятия: 0 или 1 (да или нет, истина или ложь и т.п.). С помощью двух бит можно выразить четыре различных понятия. Тремя битами можно закодировать восемь различных значений.
Наименьшей единицей кодирования информации в вычислительной технике после бита является байт. Он связан с битом следующим соотношением: 1 байт = 8 бит = 1 символ.
Как правило, одним байтом кодируется один символ текстовой информации. Поэтому для текстовых документов размер в байтах соответствует лексическому объему в символах.
Более крупной единицей кодирования информации является килобайт, который связан с байтом следующим соотношением: 1 Кб = 1024 байт.
Другие, более крупные, единицы кодирования информации образуются с помощью добавления префиксов мега – (Мб), гига – (Гб), тера – (Тб).
1 Мб = 1048580 байт.
1 Гб = 10737740000 байт.
1 Тб = 1024 Гб.
Для того чтобы закодировать двоичным кодом целое число, необходимо взять целое число и делить его пополам до тех пор, пока частное не будет равно единице. Совокупность остатков от каждого деления, записанная справа налево вместе с последним частным, и будет являться двоичным аналогом десятичного числа.
Для кодирования целых чисел от 0 до 255 достаточно иметь 8 разрядов двоичного кода (8 бит). С помощью 16 бит можно закодировать целые числа от 0 до 65535, а с помощью 24 бит – более 16,5 млн различных значений.
Для кодирования действительных чисел применяется 80–разрядное кодирование. При этом число предварительно преобразовывают в нормализованную форму, например:
2,1427926 = 0,21427926 χ 101 ;
500 000 = 0,5 χ 106 .
Первая часть закодированного числа называется мантиссой, а вторая часть – характеристикой. Большая часть из 80 бит отводится для хранения мантиссы, и некоторое фиксированное количество разрядов отводится для хранения характеристики.
28 КОДИРОВАНИЕ ТЕКСТОВОЙ ИНФОРМАЦИИ
Кодирование текстовой информации двоичным кодом осуществляется посредством обозначения каждого символа алфавита определенным целым числом. Тогда с помощью восьми двоичных разрядов можно закодировать 256 различных символов. Этого количества символов достаточно, чтобы выразить все символы английского и русского алфавитов.
В первые годы развития ЭВМ трудности кодирования текстовой информации были связаны с отсутствием необходимых стандартов кодирования. В настоящее время, напротив, эти трудности вызваны большим количеством одновременно действующих и зачастую противоречивых стандартов.
Для английского языка как для неофициального международного средства общения эти трудности были решены. Институт стандартизации США разработал и ввел в действие систему кодирования ASCII (American Standard Code for Information Interchange – стандартный код информационного обмена США).
Были разработаны несколько кодировок русского алфавита:
1) кодировка Windows–1251 была введена компанией "Microsof"t, и с учетом широкого распространения ОС и других программных продуктов этой компании в РФ она нашла широкое распространение;
2) кодировка КОИ–8 (Код Обмена Информацией, восьмизначный) является другой популярной кодировкой российского алфавита, распространенной в компьютерных сетях на территории РФ и в российском секторе Интернета;
3) кодировка ISO (International Standard Organization – Международный институт стандартизации) является международным стандартом кодирования символов русского языка. На практике данная кодировка используется редко.
Ограниченный набор кодов (256) создает достаточное количество трудностей для разработчиков единой системы кодирования текстовой информации. Поэтому было предложено кодировать символы не восьмиразрядными двоичными числами, а числами с большим разрядом, что привело к расширению диапазона возможных значений кодов. Система 16–разрядного кодирования символов получила название универсальной – UNICODE. Шестнадцать разрядов обеспечивают уникальные коды для 65 536 символов, что вполне достаточно для размещения в одной таблице символов большинства языков планеты.
Несмотря на простоту предложенного подхода, практический переход на данную систему кодировки долгое время не мог осуществиться из–за недостатков ресурсов средств вычислительной техники, потому что в системе кодирования UNICODE все текстовые документы становятся автоматически вдвое больше.
В конце 1990–х гг. технические средства достигли необходимого уровня, и стал происходить постепенный перевод документов и программных средств на систему кодирования UNICODE.
29 КОДИРОВАНИЕ ГРАФИЧЕСКОЙ ИНФОРМАЦИИ
Существует несколько методов кодирования графической информации.
Если черно–белое графическое изображение рассматривать с помощью увеличительного стекла, то можно заметить, что оно состоит из мельчайших точек, образующих характерный узор (или растр). Линейные координаты и индивидуальные свойства каждой точки изображения можно выразить с помощью целых чисел. Поэтому в основе растрового кодирования лежит двоичный код представления графических данных. Общепринятым стандартом считается представление черно–белых иллюстраций в виде комбинации точек с 256 градациями серого цвета. Таким образом, для кодирования яркости любой точки достаточно восьмиразрядного двоичного числа.
В основе кодирования цветных графических изображений лежит принцип декомпозиции произвольного цвета на основные составляющие, в качестве которых определены три основных цвета: красный (Red), зеленый (Green) и синий (Blue). На практике считается, что любой цвет, видимый человеческим глазом, можно получить с помощью механической комбинации этих трех цветов. Такая система кодирования называется RGB ( по первым буквам основных цветов). При использовании 24 двоичных разрядов для кодирования цветной графики такой режим называется полноцветным (True Color).
Каждому из основных цветов можно поставить в соответствие цвет, дополняющий основной цвет до белого. Для любого из основных цветов дополнительным будет цвет, образованный суммой пары остальных основных цветов. Соответственно дополнительными цветами являются голубой (Cyan), пурпурный (Magenta) и желтый (Yellow).
Следовательно, принцип декомпозиции произвольного цвета на составляющие компоненты можно применять не только для основных цветов, но и для дополнительных, т.е. любой цвет можно представить в виде суммы голубой, пурпурной и желтой составляющей. Данный метод кодирования цвета используется в полиграфии, но в полиграфии употребляется еще и четвертая краска – черная (Black).
Поэтому данная система кодирования обозначается четырьмя буквами CMYK. Для представления цветной графики в этой системе используются 32 двоичных разряда. Такой режим также называется полноцветным.
С уменьшением количества двоичных разрядов, используемых для кодирования цвета каждой точки, сокращается объем данных, но при этом и диапазон кодируемых цветов заметно уменьшается.
Кодирование цветной графики 16–разрядными двоичными числами называется режимом High Color. При кодировании графической цветной информации с использованием 8 бит данных можно передать только 256 оттенков. Такой метод кодирования цвета называется индексным.