3.1.8. КОДИРОВКА СИМВОЛОВ

advertisement
3.1.8. КОДИРОВКА СИМВОЛОВ
Для обработки текстовой информации каждому символу ставится в
соответствие определенное число. Соответствие между набором символов
и числами называется кодировкой символов. При вводе в компьютер
информация кодируется, а при выводе декодируется.
Существует много различных кодировок. В большинстве из них символы
кодируются восьмибитовыми (или однобайтными) числами. В одном
байте можно записать 256 различных целых чисел. Этого достаточно для
кодирования все букв русского и латинского алфавитов, арабских цифр,
знаков препинания и некоторых других необходимых символов.
Для наглядности кодируемые символы располагаются в таблице.
Таблица разбита на 16 строк и 16 столбцов. Каждая строка и каждый
столбец имеют четырехразрядные двоичные номера от 0000 до 1111 (или
шестнадцатиричные от 0 до F). Код символа составляется из номеров
столбца и строки, на пересечении которых он находится. Этим двоичным
числам соответствуют десятичные числа от 0 до 255.
До появления операционной системы Windows основной являлась
кодовая таблица символов ASCII (American Standard Code for Information
Interchange – американский стандартный код обмена информацией).
Первая половина таблицы ASCII (коды от 0 до 127) содержит
знаки препинания, цифры, символы латинского алфавита,
математические знаки и является общепринятой. Коды от 128 до
255 называются расширенными и используются для
национальных алфавитов и символов псевдографики.
В таблице ASCII отсутствуют символы кириллицы. Для
представления кириллицы в DOS была разработана кодовая
страница CP866, построенная на основе ASCII. Символы с кодами
от 0 до 127 в этой таблице такие же, как в кодировке ASCII, а
символы кириллицы расположены на тех позициях, где в таблице
ASCII находятся относительно редко используемые символы
национальных алфавитов и греческие буквы. Ниже приведен
фрагмент этой таблицы. Символам кириллицы здесь
соответствуют десятичные коды от 128 до 175 и от 224 до 239.
0
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
1
2
!
«
#
$
%
&
‘
(
)
*
+
,
.
/
3
0
1
2
3
4
5
6
7
8
9
:
;
<
=
>
?
4
@
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
5
P
Q
R
S
T
U
V
W
X
Y
Z
[
\
]
^
_
6
`
a
b
c
d
e
f
g
h
i
j
k
l
m
n
o
7
p
q
r
s
t
u
v
w
x
y
z
{
|
}
~
8
А
Б
В
Г
Д
Е
Ж
З
И
Й
К
Л
М
Н
О
П
9
Р
С
Т
У
Ф.
Х
Ц
Ч
Ш
Щ
Ъ
Ы
Ь
Э
Ю
Я
A
а
б
в
г
д
е
ж
з
и
й
к
л
м
н
о
п
B
C
D
E
р
с
т
у
ф
х
ц
ч
ш
щ
ъ
ы
ь
э
ю
я
F
С появлением графической среды Windows ASCII морально
устарела, в частности, ненужными стали псевдографические
символы. Фирмой Microsoft была разработана новая кодовая
таблица ANSI. Для представления кириллицы в Windows на
основе кодировки ANSI построена кодовая страница CP12565.
Символам кириллицы здесь соответствуют шестнадцатиричные
коды от C0 до FF, или в десятичной системе счисления от 192 до
255.
В настоящее время все большее распространение приобретает
двухбайтная кодировка Unicode. Поскольку в 16 двоичных
разрядах (2 байтах) можно записать 65 536 различных целых
чисел, эта таблица кодов включает в себя все существующие
алфавиты мира, а также множество математических, химических,
музыкальных и декоративных символов. Кодировка Unicode
используется в программах MS Word и MS Excel.
Download