Алгоритмы классификации типов символов в исторических

реклама
Тезисы доклада
1. НАЗВАНИЕ ДОКЛАДА:
(на русском языке) – АЛГОРИТМЫ КЛАССИФИКАЦИИ ТИПОВ СИМВОЛОВ В
ИСТОРИЧЕСКИХ СТЕНОГРАФИЧЕСКИХ ДОКУМЕНТАХ
(на английском языке) – ALGORITHM OF SYMBOLS TYPES CLASSIFICATION IN
HISTORICAL SHORTHAND DOCUMENTS
2. АВТОРЫ:
(на русском языке) – Гиппиев М. Б., Рогов А. А.
(на английском языке) - Gippiev M. B., Rogov A. A.
3. ОРГАНИЗАЦИЯ (полное наименование, без аббревиатур):
(на русском языке) – Петрозаводский государственный университет
(на английском языке) – Petrozavodsk state university
4. ГОРОД:
(на русском языке) – Петрозаводск
(на английском языке) – Petrozavodsk
5. ТЕЛЕФОН: +79095706717
6. ФАКС:
7. E-MAIL: gippiev@gmail.com
8. АННОТАЦИЯ:
(на русском языке) – При распознавании строк в стенографических документах
возникает задача определения, к какому типу (основной, надстрочный и подстрочный)
относится каждый символ. Ее сложность связана с тем, что на определение строк и
типов символов влияют такие факторы, как наклон текста в ту или иную сторону,
заваливание, исправление и зачеркивание текста. Существующие методы,
применяемые в современных системах OCR, хорошо справляются с распознаванием
строк в печатных текстах, однако они оказываются бесполезными в случае стенограмм.
В данной статье предлагается алгоритм классификации рукописных символов
стенографических документов на основные, надстрочные и подстрочные, в основе
которого лежит метод аппроксимации.
(на английском языке) – Lines recognition in shorthand documents includes the task of
determination to what type (main, superscript and subscript) each symbol in a document
belongs. Difficulties of this task are associated with the fact that determination of lines and
symbols types is affected by such factors as slope of text in one or another direction,
lowering, correction and strikeout of text. Existing methods, applied in modern OCR systems,
do well with lines recognition in printed texts, but they are useless in the case of shorthand
documents. The article offers the algorithm of classification of handwritten symbols of
shorthand documents to main, superscript and subscript symbols. This algorithm is based on
approximation method.
9. КЛЮЧЕВЫЕ СЛОВА:
(на русском языке) – алгоритм распознавания строк; стенографический документ;
метод построения графа связей; классификация символов; надстрочные и подстрочные
символы.
(на английском языке) – lines recognition algorithm; shorthand document; method of
bond graph construction; symbols classification; superscript and subscript symbols.
10. ТЕКСТ ТЕЗИСОВ ДОКЛАДА:
Современные системы оптического распознавания символов (OPC), такие как
«ABBYY FineReader», «CuneiForm», «Google Tesseract» и другие успешно справляются
с задачей распознавания печатных текстов, даже при наличии в них искажений,
характерных для сканированных печатных документов. Сложности возникают при
попытке
распознавания
рукописных
документов,
к
которым
относятся
стенографические документы, то есть документы записанные посредством целого ряда
сокращений и особых знаков.
Одной из проблем при распознавании стенографических документов является
определение строк, а так же выявления надстрочных и подстрочных символов. Данная
проблема обуславливается тем, что любой рукописный документ несет в себе
индивидуальные особенности, которые связаны с привычками автора, скоростью
письма, аккуратностью и некоторыми другими факторами. Кроме того, на определение
строк влияют: наклон текста в ту или иную сторону, заваливание, исправление и
зачеркивание текста [1, 2].
Существующие методы определения строк в документах не блещут
разнообразием. Основным можно назвать метод определения строк при помощи
построения проекции символов на ось перпендикулярную строкам текста. Пики в
построенной проекции соответствуют строкам. Данный метод не применим к
стенографическим документам, так как в отличии от печатных текстов, где строки
расположены строго горизонтально, в рукописных документах строки могут быть
выпуклыми, вогнутыми или расположенными под некоторым углом.
В связи с неприменимостью существующих алгоритмов распознавания строк
разработан алгоритм распознавания строк методом построения графа связей, который
является модификацией алгоритма распознавания строк методом ближайшего соседа,
описанного в работе [3], и главная идея которого заключается в выделении на
стенограмме отдельных символов и нахождении расстояний между ними. Данный
алгоритм описан подробно в статье [4], поэтому рассмотрим только его идею. Вначале
строятся связи между символами в стенограмме. Для каждой связи задается первый
символ, второй символ и расстояние между ними, не превышающее заранее
определенное значение. Затем последовательно в порядке возрастания расстояний для
каждой связи пытаемся соединить символы (объединить в строки), входящие в нее.
Если символы соединить нельзя, то есть если они уже связаны с другими символами, то
тогда находим вертикальные интервалы между символами, связанными с первым
символом, и символами, связанными со вторым символом. Если все интервалы не
превышают максимальное заданное значение, то тогда объединяем все символы в одну
строку.
При распознавании строк возникает задача определения, к какому типу
(основной, подстрочный и надстрочный) относится каждый символ, входящий в
строку. В докладе предлагаются два алгоритма, позволяющих решать данную задачу, а
именно алгоритм классификации типов символов методом одинарной аппроксимации и
алгоритм классификации типов символов методом двойной аппроксимации. Оба
алгоритма используют метод аппроксимации, так как проведенный анализ показал, что
строки в стенографических документах, как правило, имеют форму, которую можно
аппроксимировать полиномом некоторой степени.
Идея алгоритма классификации типов символов методом одинарной
аппроксимации заключается в следующем. После распознавания строки строится линия
аппроксимации по центрам ее символов (см. рис. 1). Затем определяется расстояние
между центрами символов и линией аппроксимации. Обозначим это расстояние для
некоторого символа за . Тогда вероятность того, что данный символ является
основным равна Pосн  e   , а вероятность того, что данный символ является
надстрочным, в случае если он расположен над линией аппроксимации, либо
подстрочным, в случае если он расположен под линией аппроксимации, равна
Pнеосн  1  e   , где λ – некоторый коэффициент, который подбирается в зависимости от
стенограммы. При этом Pосн  Pнеосн  1 .
Рисунок 1 – Классификация символов методом одинарной аппроксимации
Идея алгоритма классификации типов символов методом двойной
аппроксимации заключается в следующем. После распознавания строки строятся две
аппроксимирующие функции: одна ( T x  ) по точкам, являющимся серединами
верхних сторон, и одна (  B x  ) по точкам, являющимися серединами нижних сторон
прямоугольников, в которые вписаны символы строки. При этом верхняя и нижняя
стороны каждого такого прямоугольника параллельны оси абсцисс.
Пусть некоторый символ S вписан в прямоугольник, верхняя сторона которого
задана уравнением y  y ST , а нижняя – уравнением y  y S B . Центр прямоугольника
находится в точке с абсциссой xSC . Тогда функция T x  принимает в данной точке
 
значение y AT  T xS C  , а функция  B x  – значение y AB   B xS C .
y S B . Для ~
y ST :
Определим новые значения ординат ~y ST и ~
y y ;
 если y  y , то ~
ST
AT
ST
AT
y ST  y AB ;
 если y ST  y AB , то ~
y ST  y ST .
 если y AB  y ST  y AT , то ~
Аналогично определяется значение ~y .
SB
Пусть y AC – ордината середины отрезка с концами в точках xS C , y AT  и
xSC , y AB  , а hA – длина данного отрезка. Пусть ~ySC – ордината середины отрезка с
y
y , а h – длина отрезка с концами в точках
концами в точках x , ~
и x ,~

SC
ST


SC
SB

C
x
SC
, y AC

и
x
SC

,~
yS C . Вероятность того, что символ S является основным, равна
hA / 2  hc
y S C  y AC )
, а вероятность того, что символ S является надстрочным ( ~
hA / 2
h
y S C  y AC ), равна Pнеосн  c .
или подстрочным ( ~
hA / 2
Основное преимущество алгоритма классификации типов символов методом
двойной аппроксимации перед алгоритмом классификации типов символов методом
одинарной аппроксимации заключается в том, что данный алгоритм менее
чувствителен к размерам символов. Это связано с тем, что данный алгоритм учитывает
и верхние, и нижние границы символов, а алгоритм классификации типов символов
методом одинарной аппроксимации учитывает только центры символов, при этом
возможна такая ситуация, когда центр крупного символа, который является основным в
строке, совпадает с центром надстрочного или подстрочного символа.
Pосн 
Работа выполняется при поддержке Программы стратегического развития (ПСР)
ПетрГУ в рамках реализации комплекса мероприятий по развитию научноисследовательской деятельности на 2012–2016 гг.
Литература:
1. Местецкий Л. М. Непрерывная морфология бинарных изображений: фигуры,
скелеты, циркуляры. М.: Физматлит, 2009. 227 c.
2. Горский Н. Д., Анисимов В. А., Горская Л. М. Распознавание рукописного
текста: от теории к практике. СПб.: Политехника, 1997. 126 c.
3. Рогов А. А., Скабин А. В., Штеркель И. А. О дешифровке исторических
рукописных документов // El’manuscript-2012: Информационные технологии и
письменное наследие. Материалы IV международной научной конференции.
Петрозаводск, Ижевск. 2012. С. 230–233.
4. Гиппиев М. Б., Жуков А. В., Рогов А. А., Скабин А. В. Распознавание строк в
стенографических документах [Электронный ресурс] // Современные проблемы
науки и образования. 2013. № 4. URL:www.science-education.ru/110-9725 (дата
обращения: 29.08.2014).
Скачать