2.7.5 Примеры использования теоретико - kaf

2.7.5 Примеры использования теоретико-множественного описания в прикладных лингвистических информационных технологиях В условиях информационно-коммуникационной революции стремительно расширяется и усложняется Мир сложных систем (см. п.2.4, рис. 2.23). На основе языков программирования строятся программные комплексы, реализующие функции, связанные с решением прикладных задач в языковой сфере. Для решения таких задач используются лингвистические технологии, которые могут классифицироваться как информационные системы с элементами искусственного интеллекта. На основе лингвистических информационных технологий решаются следующие практические задачи: распознавание текста с целью его перевода на иностранный язык, а также автоматического реферирования больших массивов печатного текста; распознавание речи с целью ее ввода в ПК, а также определение голоса «телефонных террористов» специальными государственными службами; построение частотных словарей и справочников, конкордансов, национальных корпусов языка с целью его исследования и т.д. Покажем пример формализации элементов лингвистической технологии, которая использует русский, греческий и латинский алфавиты. Обозначим алфавиты этих языков множествами С1 – русский алфавит, мощность множества которого составляет 33 буквы, т.е. 𝐶𝑎𝑟𝑑 𝐶 1 = 33. Греческий алфавит обозначим множеством А1 , кардинальное число которого равно 24, т.е. греческий алфавит состоит из 24 букв (𝐶𝑎𝑟𝑑 А1 = 24). Латинский алфавит обозначим множеством В1 , имеющий в своем составе 26 букв или элементов этого множества (𝐶𝑎𝑟𝑑 В1 = 26). Кроме того, универсум языков обозначим множеством 𝑈1 . Воспользуемся хорошо известным инструментарием – диаграммой Эйлера – Вена для того, чтобы показать операцию пересечения элементов этих трех алфавитов (см. рис. 2.52), производимую в некоторой лингвистической технологии. Рисунок 2. 52 – Иллюстрация операции пересечения множеств диаграммой Эйлера-Вена Пересечение данных алфавитов формально можно записать в следующем виде: 𝐴1 ⋂ 𝐵1 = 𝑄 ; 𝐵1 ⋂ 𝐶 1 = 𝑊; 𝐴1 ⋂ 𝐶 1 = 𝐿; 𝐴1 ⋂ 𝐵1 ⋂ 𝐶 1 = 𝐽 ; где 𝑄 = {𝑌, 𝑁, 𝐾, 𝑍, 𝐼}; 𝑊 = {𝐶}; L= {Ф, П, Г}; 𝐽 = {𝑂, 𝑇, 𝐻, 𝑃, 𝑀, 𝐴, 𝐵, 𝑋, 𝐸}. Приведем еще один пример, связанный с построением лингвистической технологии, в которой используются словарно-справочные средства. Для построения таких технологий словарно-справочные средства формально представляются методами корпусной лингвистики [24], где корпуса текста записываются на теоретико-множественном языке. Покажем на примере известного словаря Ожегова С.И. [10] структуру корпусов текста (см. рис. 2.53). Корпус текста словаря ( К1 ) Правила пользования словарем (П) Словарь (С) Блок терминов ТА Термин ta 1 … Блок терминов ТЯ Термин ta N Правая часть (О) Блок словарных статей ОА Блок вариантов толкования термина А ta 1 ⬚О … Блок словарных статей ОЯ Блок вариантов толкования термина ОЯ tя N Рисунок 2.54 – Структура корпуса текстов толкового словаря Ожегова С.И. Из структуры словаря и рис. 2.54 видно, что на его элементах заданы несколько видов отношений. Это отношения строгого порядка (блоки терминов и собственно термины расположены в алфавитном порядке), обозначим их символом (>), и включения (  ), например, между корпусом текстов и словарем, между словарем и блоком терминов и т.д. Кроме того, между словарем (С) и правой частью словаря (О), а также их элементами существуют бинарные отношения. Обозначим: 𝐾1 – корпус текстов, образующий толковый словарь; ̅̅̅̅̅ П = {п𝑖 }, 𝑖 = 1, 𝑛 – множество текстов, образующих правила пользования словарем, элементами которого могут быть список принятых сокращений (помет), характеристика употребления слов и другие; 𝐶 = {𝑇 𝐴 , … , 𝑇 Я } – левая часть словаря, представляет собой множество блоков терминов, расположенных в алфавитном порядке от А до Я; 𝑇 𝐴 = {𝑡a1, … , 𝑡a𝛼} – блок терминов, у которого литеры начинаются с буквы А,  – количество терминов помещенных в словарь с первой литерой А, остальные блоки терминов (от Б до Я) имеют аналогичный состав; 𝑂 = {𝑂 𝐴 , … , 𝑂Я }– правая часть словаря, которая состоит из подмножеств блоков словарных статей 𝑂 𝐴 , … , 𝑂Я , расположенных также в алфавитном порядке; ОА   АОta1,...,A Ota  – блок словарных статей, термины которых начинаются с литеры А, где  – количество словарных статей этого блока или кардинал подмножества О А ; A Оta 1   a ota 1.1,...,a ota 1.4  – подмножество вариантов толкования термина (в этом случае левый верхний индекс показывает, что в блоке словарных статей 𝑂 𝐴 словарная статья, соответствующая термину ta 1 содержит четыре варианта толкования). Подвергнем более детальному анализу отношения, в которых находятся элементы корпуса текстов {П, С, О} ⊂ 𝐾1 . Свяжем элементы корпуса текстов отношением включения    П, С, О   K1 ; Т А ,...,Т Я  С ;  ta 1,...t  Т А ,…,  tя 1,...tя   Т Я ; ОА ,...,ОЯ  О ;  АОta 1,...,A Ota   ОА ,…,  ЯОtя 1,...,Я Otя   ОЯ ;  a ota 1.1,...,a ota 1.  AOta 1 ,...,  яotя 1.1,...,я otя 1.  ЯOtя N . Отношения строгого порядка между подмножествами С и О и их элементами зададим в следующем виде: Т А  T Б ,..., T Я ; ta 1  ta 2 ,..., tб 1  tб 2 ,..., tя 1 ,..., tя  ; О А  О Б ,...,O Я ; A O ta 1 ,..., A O ta   Б O tб 1  Б O tб 2 ,...,Я O tя 1 ,..., Я O tя  ; a ta 1.1 o ,..., a o ta 1. ;…; я o tя 1.1 ,..., я o tя 1. . Учитывая, что между подмножествами С и О, а также их элементами существуют некоторые бинарные отношения, то можно записать следующие соответствия: Е  С  О ; Н А  Т А  ОА ,…, Н Я  Т Я  О Я ; G A  ta 1  A Ota 1 ,…, G Я  tя   Я Оtя  , где С, О  Е – множество пар, в данном случае одна (словарь и правая часть     словаря), Т А , ОА  Н А ,…, Т Я , ОЯ  Н Я – множество пар блоков терминов и их словарных статей,  ta 1, AOta 1  G A ,…,  tя , Я Оtя   G Я – множество пар терминов и блоков вариантов их толкования. В случае, когда одному термину соответствует несколько толкований, можно записать, например, для термина, начинающегося с литеры А,  a ota 1.1,...,a ota 1. ,  ta 1, a ota 1.1  DA ,…,  ta 1, a ota 1.  DA термина и его DA  ta 1  где множество пар толкований. В обобщенном виде, отождествляя корпус текстов с моделью общенаучного словаря 𝐾1 ≡ 𝑀об и не учитывая соответствие термину нескольких определений, запишем 𝑀об = ⟨П, 𝑇 𝐴 , … , 𝑇 Я , 𝑂 𝐴 , … , 𝑂Я , 𝑡𝑎 1, … , 𝑡я 𝛿, 𝑂𝑡𝑎 1 , … , 𝑂𝑡я 𝛿 , ⊂, <⟩.

2.7.5 Примеры использования теоретико - kaf

Related documents

Products

Support

2.7.5 Примеры использования теоретико - kaf

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib