О МНОГООБРАЗИИ АНАГРАММ КОРНЕЙ ТАДЖИКСКОГО ЯЗЫКА

реклама
ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН
2014, том 57, №4
ИНФОРМАТИКА
УДК 811.222.8::81’322
Академик АН Республики Таджикистан З.Д.Усманов, Г.М.Довудов*
О МНОГООБРАЗИИ АНАГРАММ КОРНЕЙ ТАДЖИКСКОГО ЯЗЫКА
Институт математики им. А.Джураева АН Республики Таджикистан,
*
Худжандский политехнический институт
Таджикского технического университета им. академика М.С.Осими
Посредством упорядоченного алфавитного кодирования корней, извлечённых из коллекции
таджикских текстов объёмом около 55 миллионов словоупотреблений, сформировано множество
корневых анаграмм таджикского языка. Получены статистические данные о количестве различных
анаграмм с заданным числом элементов. Анонсирован ряд анаграмм наибольшей мощности.
Ключевые слова: таджикский язык – словоформа – корень – кодирование – анаграмма – статистика.
В статье [1] предложено упорядоченное алфавитное  -кодирование словоформ, приспособленное, в частности, для выявления анаграмм, то есть таких подмножеств на множестве словоформ,
которые состоят из одного и того же набора букв. В [2] и [3] такое кодирование было использовано
для построения множеств словоформных анаграмм английского, русского и таджикского языков и
изучения их статистических свойств.
В настоящей работе излагаются результаты исследований анаграмм корней таджикского
языка, полученных из коллекции таджикских текстов размером в 55184508 словоупотреблений. В ней
выявлено 240208 различных словоформ, из которых, в свою очередь, извлечено 65 422 корня [4]. Несмотря на то, что указанное число корней нельзя считать исчерпывающим, выводимые из таких данных результаты оказываются достаточно информативными, поскольку опираются на базу корней с
высокой частотой встречаемости в таджикских текстах.
1. Для выявления корневых анаграмм, следуя [1], поставим в соответствие каждому корню из
исходного списка его  -код, то есть цепочку тех же самых букв, что и в рассматриваем прообразе,
но расположенных в алфавитном порядке. Далее полученное множество закодированных корней преобразуем в список кодов с их частотами встречаемости.
Вновь сформированный список разделим на две группы: в первую соберём  -коды с частотами, равными 1, во вторую – с частотами строго больше 1. Очевидно, что каждому коду из первой
группы отвечает один и только один корень-прообраз. Что касается кодов второй группы, то каждому
из них соответствуют несколько корней-прообразов, число которых равно частоте встречаемости
рассматриваемого кода. Соотношения кодов двух групп представлены в табл. 1.
Из этой таблицы напрашиваются следующие выводы:
Адрес для корреспонденции: Усманов Зафар Джураевич, Институт математики АН РТ, 734063, Республика
Таджикистан, г. Душанбе, пр. Айни, д. 299/1. E-mail: zafar-usmanov@rambler.ru
287
Доклады Академии наук Республики Таджикистан

2014, том 57, №4
между множествами корней и их  -кодов не имеет места в целом взаимно однозначное отображение: корней - 65422, кодов - 61057 ;

взаимно однозначность отображения “корень  его  -код” свойственна всего лишь 57441
корням (столбец 3);
Таблица 1
“Плотность” анаграмм на множестве кодов
1
Число
различных
корней
65422

2
Число
различных
 –кодов
61057
3
Число
однозначных
 –кодов
57441
4
Число
многозначных
 –кодов
3616
5
Отношение
(3)/(2)
в%
94,07
6
Отношение
(4)/(2)
в%
5,93
неоднозначность отображения обуславливается 3616  -кодами (столбец 4), каждому из которых соответствует анаграмма, содержащая не меньше одного корня-прообраза;

выраженные в процентах отношения чисел однозначных (столбец 5) и многозначных (столбец 6)
кодов (без учёта частоты их встречаемости) к числу различных кодов показывают подавляющее
превосходство “внеанаграммных” корней, то есть не входящих в состав анаграмм.
2. Последнее утверждение удаётся уточнить благодаря дальнейшим статистическим исследо-
ваниям, результаты которых представлены в таблицах 2 и 3.
Таблица 2
“Плотность” анаграмм на множестве словоформ
1
2
Число
различных
словоформ
Число
различных
корней
240208
65422
3
Число словоформ
с однозначными
 –кодами
корней
180944
4
Число словоформ с
многозначными
 –кодами корней
59264
5
6
Отношение
(3)/(2)
в%
Отношение
(4)/(2)
в%
75.32
24.68
Из табл. 2 видно, что учёт частоты словоформ с фиксированными кодами заметно повышает
“вес” многозначных кодов, определяющих мощность анаграмм, до значения 24.68% в сравнении с
предыдущей ситуацией – 5.93%.
Различие в понятиях словоформы и словоупотребления естественным образом отражается на
плотности анаграмм: на множестве словоупотреблений (38.31%) она выше, чем на множестве словоформ (24.68%), о чём и свидетельствует табл. 3.
Таблица 3
“Плотность” анаграмм на множестве словоупотреблений
1
2
Число
различных
корней
Число
различных
словупотр.
65422
55184508
3
Число словоупотр. с
однозначными
 –кодами корней
34046811
4
Число словоупотр.
с
многозначными
 –кодами корней
21137697
288
5
6
Отношение
(3)/(2)
в%
Отношение
(4)/(2)
в%
61.69
38. 31
Информатика
З.Д.Усманов, Г.М.Довудов
Обработка упомянутой ранее коллекции текстов позволила также получить результаты, представленные в табл. 4. В ней в каждой строке приводятся статистические данные, привязанные к мощностям анаграмм (столбец 1):
- во 2-й позиции строки отмечается число различных анаграмм (что то же – различных кодов),
которые имеют мощность, указанную в 1-й позиции;
Таблица 4
Соотношения между мощностями анаграмм и числами кодов, словоформ и словоупотреблений
Число
элементов
анаграмм
7
6
5
4
3
2
1
Итого
Число кодов
%
Число словоформ
%
Число словоупотр.
%
3
2
23
104
463
3021
57441
61057
0.005
0.003
0.038
0.170
0.758
4.948
94.078
100
374
92
1207
4882
14094
38615
180944
240208
0.156
0.038
0.502
2.032
5.868
16.076
75.328
100
101447
4983
218284
1493939
5101010
14218034
34046811
55184508
0.184
0.009
0.396
2.707
9.244
25.764
61.696
100
- в 3-й позиции указанное число выражено в процентах к общему числу различных анаграмм
(различных кодов);
- в 4-й позиции приводится число словоформ, корни которых формируют соответствующие
анаграммы;
- в 5-й позиции предыдущее число выражено в процентах к общему числу различных словоформ;
- в 6-й позиции показано число словоупотреблений, в составе которых встретились корни
(элементы) анаграмм соответствущих мощностей;
- в 7-й позиции предыдущее число выражено в процентах к общему числу словоупотреблений.
Отметим, что 2 – это минимальное и 7 – максимальное числа корней (элементов), составляющих анаграммы. Для удобства изложения результатов так же, как и в [1-2], мы воспользовались понятием “тривиальной ” анаграммы: она состоит из одного корня и ей соответствует однозначный код.
3. Итак, в коллекции таджикских текстов размером в 55184508 словоупотреблений выявлено
240208 различных словоформ, из них, в свою очередь, извлечено 65 422 корня, которым поставлено в
соответствие 61057 различных  –кодов. Последние были разделены на 2 группы: первая – из 57441
однозначных кодов (тривиальных анаграмм), а вторая - из 3616 нетривиальных кодов (реальных анаграмм). Помимо этого нам удалось определить полный список всех таджикских корней, входящих в
состав нетривиальных анаграмм. В связи с их огромным количеством в табл. 5 приводятся данные
только об анаграммах мощности 7, 6 и 5.
289
Доклады Академии наук Республики Таджикистан
2014, том 57, №4
Таблица 5
Анаграммы с наибольшим числом элементов
№
Код
иқло
Число элементов Число словоанаграмм
форм
7
72
Число словоупотр.
11978
биорҳ
7
22
447
авдор
7
280
89022
авлоҳ
6
73
4770
аорсф
6
19
213
аақмр
аақрт
иқорт
иқнот
иқост
аазрҳ
аморҳ
аарҳш
илосҳ
аабқр
авло
азор
аимн
аилмос
агнор
адмно
амос
аарсф
азмр
зиор
иклмо
илмо
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
55
53
18
17
14
51
85
33
106
22
40
44
71
18
53
59
21
121
126
61
47
76
10741
3637
450
256
965
1317
6146
631
25903
251
1083
1683
7732
18689
5519
9203
767
42107
27323
7384
18045
27739
аикмрш
5
16
713
Корни словоформ,
қило, қоил, иқол, илқо, лиқо, лоиқ, оқил
ҳирбо, ҳироб, ҳориб, биҳор, боҳир,
ибҳор, роҳиб
аврод, адвор, вардо, давор, дарво, довар,
овард
ҳавло, ҳавол, ҳалво, аҳвол, авҳол, алвоҳ
асфор, афсор, расфо, сафро, фарсо, фасор
қамар, арқам, мақар, рақам, рамақ
қарта, қатар, қатра, тақар, тарақ
қирот, қитор, қотир, ортиқ, ротиқ
қонит, қотин, ниқот, нитоқ, нотиқ
қосит, исқот, сиқот, соқит, сотиқ
ҳазар, ҳараз, ҳарза, азҳар, заҳра
ҳамро, ҳаром, аҳром, арҳом, маҳор
ҳашар, ашҳар, рашҳа, шарҳа, шараҳ
ҳосил, исҳол, ислоҳ, силоҳ, соҳил
ақраб, абқар, абрақ, бақар, барқа
авло, алов, вало, вола, лаво
азро, ароз, зора, озар, ораз
амин, мина, наим, ниам, нима
амосил, имсола, ломиса, масоил, солима
ангор, аргон, гарон, оранг, орган
андом, доман, мадон, монда, намод
асмо, маос, моса, само, сома
асфар, афсар, сарфа, сафар, фарас
замр, зарм, марз, разм, рамз
зоир, изор, ориз, ризо, роиз
икмол, кимол, комил, милок, молик
имло, лоим, моил, олим, омил
камриш, камшир, кашмир, римкаш,
ширмак
Отметим, что в табл.5, состоящей из 6 столбцов, первый указывает номер анаграммы, второй
– её  -код, который соответствует всем словоформам, входящим в состав анаграммы. В третьем
столбце даётся мощность анаграммы, то есть число корней, входящих в её состав. В четвёртом и пятом столбцах показаны абсолютные частоты их встречаемости среди словоформ и словоупотреблений в коллекции текстов. В последнем столбце выписаны корни, вошедшие в состав анаграммы.
Исследования по настоящей статье поддержаны Фондом Сороса в 2013 г.
Поступило 08.01.2014 г.
Л И Т Е РАТ У РА
1. Усманов З.Д. Об упорядоченном алфавитном кодировании слов естественных языков. – Доклады
Академии наук Республики Таджикистан, 2012, т.55, № 7, с. 545 – 548.
290
Информатика
З.Д.Усманов, Г.М.Довудов
2. Усманов З.Д., Довудов Г.М, Холматова С.Д. О множестве анаграмм таджикского языка. – Известия
Академии наук Республики Таджикистан. Отделение физико-математических, химических,
геологических и технических наук, 2013, № 1(150) , с. 32 -39.
3. Усманов З.Д., Довудов Г.М. О многообразии словоформных анаграмм. – Доклады Академии наук
Республики Таджикистан, 2013, т.56, № 3, с. 196- 200.
4. Усманов З.Д., Довудов Г.М. Формирование базы морфов таджикского языка. – Душанбе: Дониш,
2014.
З.Љ.Усмонов, Г.М.Довудов*
ОИДИ ГУНОГУНШАКЛИИ АНАГРАММАИ РЕШАҲОИ ЗАБОНИ
ТОЉИКЇ
Институти математика ба номи А.Љўраев, Академияи илмњои Љумњурии Тољикистон,
*Донишкадаи
политехникии Донишгоњи техникии Тољикистон ба номи М.С.Осимї дар ш.Хуљанд
Бо усули љобаљогузории алифбоии кодиронии решањо, ки аз маљмўи матнњои тољикии
иборат аз 55 миллион калимањо људо карда шудаанд, маљмўи анаграммаи решањои забони
тољикї тартиб дода шудааст. Оиди шумораи анаграммањои гуногун ва шумораи элементњои
онњо маълумоти оморї ба даст оварда шудааст. Як ќатор анаграммањои шумораи элементашон
зиёдтарин тавсиф карда шудааст.
Калимањои калидї: забони тољикї – калима – реша – кодиронї – анаграмма – омор.
Z.D.Usmanov, G.M.Dovudov*
ON A SET OF TAJIK ROOT ANAGRAMS
A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan,
Khujand’s Polytechnic Institute of the M.S.Osimi Tajik Technical University
*
Thanks to special coding of roots, extracted from Tajik text collections, containing about 55million
words, the sets of anagrams to Tajik roots are constructed. Statistical data on the number of different anagrams with a given number of elements are obtained. Some anagrams with the highest number of roots are
presented for consideration.
Key words: Tajik language – word form – root – coding – anagram – statistics.
291
Скачать