Э.К. Лавошникова (Москва) «Подводные камни» в компьютерной системе коррекции правописания

advertisement
Э.К. Лавошникова (Москва)
«Подводные камни» в компьютерной системе коррекции правописания
MS Word
Одна из самых распространенных в настоящее время систем проверки правописания –
автокорректор ОРФО, встроенный в текстовый редактор Microsoft Word. В системных
словарях Word’овского спеллера довольно много слов, которые пропускаются без
подчеркивания, т.е. без указания на возможную ошибку или опечатку, но с большей
вероятностью могут появляться в текстах пользователя в результате пропуска буквы
(например, при недостаточно сильном нажатии клавиши).
Примеры: взмутиться, взнести, взносить, вкруг, вскальзывать (вскользнуть),
вшибать, вытроить (вытраивать), запреть, заушить, икриться, корец (в словаре
Ушакова – «обл., ковш»), наустить, опороть, остареть, поветь (помещение в
крестьянском дворе, обл.), повестить, подустить, помститься, постыть,
преставление (смерть), приять, сбирать (и сбираться: «Как ныне сбирается вещий
Олег…»), слеплять, сроить, сточка, тропить, уловный, умаять, уточить.
Многие короткие слова нередко совпадают с началами или концами более
длинных словоформ и могут при случайных разбиениях слова пропускаться спеллером
без замечаний. С этим приходится мириться. Но в Word’овских словарях имеются и
пропускаются в текстах без подчеркиваний малоупотребительные слова ин, тать, ость,
ер и т.п. Кстати, слово ер как старое название твердого знака в словаре автокорректора
ОРФО отсутствует (как и «старое название буквы х»), хотя словоформа ер порождается.
Это видно из того, что словоформы ером и еров подчеркиваются красным (мы тоже
подчеркиваем примеры слов, в которых спеллер предполагает орфографические
ошибки). Как нетрудно убедиться, словоформы ер, ерой (ёр, ёрой) образуются в системе
ОРФО от устаревшего существительного ёра. В «Толковом словаре» Д.Н. Ушакова
(1935 г.) дается значение слова ёра – «озорной гуляка, волокита».
Далее для примера – специально сконструированные нами фразы, которые
пропускаются Word'овским текстовым редактором без замечаний.
«В оологическом саду жил од ин ежь, он был принесен пи онером». Частица ин в
современном языке почти не употребляется, о чем спеллер мог бы предупреждать
пользователя. Это слово может быть получено при нечаянной вставке пробела: крестьян
ин, ин вариант, ин станция. При ошибочном написании слова еж с мягким знаком в
нашем примере получился императив («Ёжь!») от неупотребительного глагола ёжить.
Слово онер употребляется только в выражении «со всеми онёрами», о чем сигнализирует
двоеточие в соответствующей словарной статье в грамматическом словаре
А.А. Зализняка (а спёллёр буквы «е» и «ё» нё различаёт!), но ОРФО порождает полную
парадигму (онера, онеру и т.д.), которая засоряет системный словарь и мешает спеллеру
обнаруживать опечатки (например, в словоформах от слова опера) или случайное
разбиение пробелом некоторых слов.
«Вы неправильно мыслете». Эта фраза с ошибкой в глагольной форме тоже
пропускается спеллером без подчеркиваний (в словаре Зализняка мыслете – «старое
название буквы м»).
Word’овский спеллер подчеркивает красным (как ненайденное) второе слово в
конструкции ничтоже сумняшеся, но слово ничтоже почему-то при этом не
подчеркивается.
В основном словаре автокорректора ОРФО имеются термины: путец, сточка,
морской термин протрактор, ботанические оология, перилла, ость, геологический
термин трапп, астрономический вертикал, музыкальные затакт, нона и нонет
(совпадение с последними тремя терминами может получиться при «склеивании» слов).
Никаких предупреждений к узкоспециальным терминам, «похожим» на более
употребительные словоформы и конструкции, системная подсказка вордовского
спеллера пока не выдает.
С одной стороны, желательно, чтобы в каждой очередной версии системные
словари текстовых редакторов как можно больше пополнялись. С другой стороны, в
основном словаре должны быть выявлены малоупотребительные словоформы, которые
могут совпасть с искажениями (в результате наиболее вероятных ошибок и опечаток)
достаточно употребительных словоформ.
Такие «подводные камни» способствуют пропуску слов с ошибками или
«вылезают» в списках рекомендуемых вариантов исправления. Если не представляется
целесообразным убрать их совсем, то можно было бы снабжать их особыми пометами
для сообщений «программы»-подсказки или выносить в дополнительные компьютерные
словари для проверки текстов особой тематики.
Игорь Станиславович Ашманов в 2009 г. писал: «Я своими руками сделал
русскую морфологию в ОРФО много лет назад <…> Короче говоря, улучшать спеллеры
можно. Но это вряд ли окупится, если не будет гранта или госфинансирования. Потому
что продать пользователям следующую версию спеллера, если в нём есть тончайшие
улучшения типа "меньше стали путаться редкие слова и ошибки" – нельзя»
(https://roem.ru/27-03-2009/128340/yandeks-poka-ne-budet-delat-brauzer/). Увы!..
Литература
Зализняк А.А. Грамматический словарь русского языка: Словоизменение. Ок.
110 000 слов. – 4-е изд., испр. и доп. – М.: «Русские словари», 2003.
Лавошникова Э.К. Компьютерная проверка орфографии: вчера, сегодня, завтра //
Вестник Московского ун-та. Серия 9: Филология. № 5, 2003. С. 53–68.
Лавошникова Э.К. О «подводных камнях» в компьютерных системах проверки
правописания // Вестник Московского ун-та. Серия 9: Филология. № 6, 2002. С. 151–163.
Лавошникова Элина Константиновна,
вед. программист, Научно-исследовательский вычислительный центр
МГУ им. М.В. Ломоносова
Download