Эффективность технологии корректуры

advertisement
Ю.Н.Филиппович, А.Ю.Филиппович,
ИНТЕГРИРОВАННЫЕ
СИСТЕМЫ И ТЕХНОЛОГИИ
В МЕДИАИНДУСТРИИ
Слайд-лекции
для студентов специальности 230204
«Информационные технологии в медиаиндустрии»
Модуль 1. Интегрированные издательские технологии
Тема. Технологии корректуры.
Москва, 2012 г.
Корректура
• Корректура – совокупность процессов, назначением
которых является исправление ошибок и нарушений
технических правил в наборе.
• В «традиционном классическом описании»
корректура состоит из двух основных процессов:
чтения корректурных оттисков и правки набора.
Корректурные знаки
• При чтении оттисков ошибки отмечаются специальными
корректурными знаками, повторяемыми на полях оттисков,
причем рядом с этими знаками указываются правильные
буквы, слова и т.п.
Примеры корректурных знаков
Фрагмент корректурной правки
Факторы, влияющие
на процесс корректуры
• особенности издания
(первое издание или какое-либо его переиздание);
• индивидуальные особенности текста
(тема, предмет, язык, авторские цели, назначение и т.п.);
• профессионализм корректора
(культурный уровень, знания, навыки, умения,
психологические установки, социально-экономические
факторы и др.);
• технологические факторы
(форма рабочего материала, инструментальные
аппаратные и программные средства поддержки
корректорской деятельности, временные и стоймостные
ресурсные ограничения, методика и др.)
Инструментарий корректора
• Печатные словари.
• Электронные лексикографические ресурсы,
в числе которых:
– локальные электронные словари;
– интернет-порталы;
– словарные базы данных;
– встроенные в текстовые редакторы и издательские
системы орфо- и грамматические редакторы;
– программы спеллеры.
Два основных типа словарей
• Лингвистические словари
– Объектом описания лингвистических словарей являются
языковые единицы: слова, устойчивые словосочетания,
словоформы, морфемы и др.
• Энциклопедические словари
– Энциклопедические словари – научные или научнопопулярные справочные издания, представляющие собой
систематизированный свод знаний в каких-либо областях.
– Объектом их описания служат научные (реже обиходные)
понятия, термины, исторические события, персоналии,
географические реалии и т.д.
Два основных типа словарей
• Пример словарной статьи из лингвистического словаря:
– СУРОК, -р к а, м. Небольшой грызун сем. бельчьих,
живущий в норах и зимой впадающий в спячку.
• Пример словарной статьи из энциклопедического словаря:
– СУРКИ, род млекопитающих сем. бельчьих. Длина тела до
60 см, хвоста менее 1/2 длины тела. 13 видов, в Сев.
полушарии (исключая пустыни и тундры); в России неск.
видов. Объект промысла (мех, жир, мясо). Могут быть
носителями возбудителя чумы. Нек-рые виды редки,
охраняются.
Грамматические словари
• Грамматические словари – это словари, которые
содержат сведения о морфологических и синтаксических
свойствах слова.
• Расположение − в прямом или обратном алфавитном
порядке.
• Принципы отбора и объем сведений о слове различны в
зависимости от назначения и адресата каждого
грамматического словаря.
• Печатные словари:
– Зализняк А. А. Грамматический словарь русского языка.
Словоизменение. М., 1977; 3-е изд. М., 1987.
– Дискурсивные слова русского языка: Опыт конкретно-семантического
описания / Под ред. К. Киселевой и Д. Пайара. М., 1998.
– Панов Б. Т., Текучев А. В. Грамматико-орфографический словарь
русского языка. М., 1976.
Пример словарной статьи
• АВОСЬ, част., разг. Употребляется для выражения
такого предположения, которое свидетельствует, с одной
стороны, о желательности для говорящего наступления
какого-л. события, а с другой — о ясном осознании
говорящим того, что если предшествующее событие и
наступит, то только из-за особенного стечения обстоятельств,
т. е. независимо от его воли.
* С и н. может быть, <глядишь разг., чем черт не шутит разг.
Пойду выйду на воздух, авось голова пройдет. Возьми с
собой сумку, авось пригодится. Попробуем, авось удастся. О
На авось разг. — в надежде на случайную удачу. Лучше
предварительно заказать номер, а не ехать на авось. Авось
да небось; авось, небось да как-нибудь разг. — о беспечном
отношении к порученному и т. п. ... Запомни, авось, небось да
как-нибудь до добра не доведут / / сущ. авоська — ж., разг.
Морфемные
и словообразовательные словари
• Словари, показывающие членение слов на составляющие их
морфемы, словообразовательную структуру слова, а также
совокупность слов с данной морфемой – корневой или
аффиксальной. Слова в словообразовательных словарях
приводятся с расчленением на морфемы и с ударением.
• Морфема (от греч.morphe – форма) – минимальная значимая
часть слова.
• Существует 4 основных типа морфемных
словообразовательных словарей:
– словари-корнесловы;
– словари морфемной членимости слов;
– толковые словари аффиксальных морфем;
– частотные словообразовательные словари.
Морфемные
и словообразовательные словари
• Печатные словари:
– Тихонов А. Н. Словообразовательный словарь русского
языка: В 2 т. М., 1985; 2-е изд., стер. М., 1990.
– Кузнецова А. И., Ефремова Т. Ф. Словарь морфем русского
языка. М., 1986.
– Ефремова Т. Ф. Толковый словарь словообразовательных
единиц русского языка. М., 1996.
• Электронные ресурсы:
– Морфемно-орфографический словарь на
http://slovari.yandex.ru/
Орфографические словари
• Словари, содержащие алфавитный перечень слов
в их нормативном написании.
• Печатные словари:
– Зелинский В. Подробный орфографический словарь. Для
учащихся. Изд. 2-е, испр. и значительно увеличенное. М., 1914.
– Букчина Б. З. Русский орфографический словарь. М., 1999.
– Орфографический словарь русского языка / Под ред. С. Г.
Бархударова, С. И. Ожегова, А. Б. Шапиро. М., 1956.
• Электронные ресурсы:
Пример словарной статьи:
шаблоìнный; кр. ф. -оìнен, – http://slovari.yandex.ru/
оìнна
– http://www.slovari.ru/
филлопоìд, -а
Электронные словари
• Проект «РУССКИЕ СЛОВАРИ» предназначен для всех, кто
интересуется русским языком - как родным или как
иностранным, для учащихся средней и высшей школы, а
также для специалистов, профессионально занимающихся
лингвистикой или преподаванием русского языка. Он
содержит общедоступную лингвистическую информацию
разного типа.
• Словарная база сайта содержит 21 том основных
интерактивных лингвистических словарей, многие из которых
входят в золотой фонд отечественной лексикографии.
• Режим доступа: http://www.slovari.ru/
Электронные словари
• Яндекс-словари содержат 11 словарей русского языка,
86 энциклопедий и переводной словарь (7 языков).
– http://slovari.yandex.ru/
• Словари и энциклопедии на Академике
– http://dic.academic.ru/
• «Кругосвет» – универсальная энциклопедия
– http://www.krugosvet.ru/
• Википедия – свободная энциклопедия
– http://ru.wikipedia.org/
• Словари на «Рубриконе» – река информации
– http://www.rubricon.com/
• «Мир словарей» – коллекция словарей и энциклопедий
– http://mirslovarei.com/
• Мир энциклопедий
– http://www.encyclopedia.ru/index.html
Электронные переводные словари
• Система электронных словарей Lingvo
– http://www.lingvo.ru/
• Онлайновый переводчик компании ПРОМТ
– http://www.translate.ru/Rus/
• Электронные словари компании Мультилекс
– http://www.multilex.ru/
• Переводной словарь Google
– http://www.google.ru/dictionary?hl=ru
Корректура
• Сегодня для подготовки текстов используются различные
программы верстки и текстовые редакторы.
• А в качестве средств автоматизации корректурных процессов
выступают различные встроенные функции проверки текста
на наличие орфографических, синтаксических и
стилистических ошибок.
• Одна из таких функций – функция спеллер (speller –
сокращение от spelling checker – программа поиска опечаток,
корректор).
• Особенность современных программ проверки текстов
является их ориентация на современную
общеупотребительную лексику, что затрудняет их
использование для специфических, старинных текстов.
Традиционная
технология корректуры
t к i  ni  tср  no i  tи
Начало
где: tср – время сравнения слова,
tи – время исправления ошибки;
ni – общее количество слов на i-ой
странице,
nоi – количество ошибок на i-ой
странице.
m
m
m
Tkt   t к i   ni  tср   no i  tи
i 1
i 1
i 1
где
m
–
количество
страниц всего текста.
да
конец страницы?
нет
ni
Сравнение слова tср
Ошибка?
да
Исправление слова t и
Конец
нет
noi
Автоматизированная
технология корректуры
Начало
да
nнов _ i
конец страницы?
Занесение слова в
словарь спеллера
нет
Сравнение неизвестного
tср
слова
нет
Ошибка?
да
Исправление слова
Конец
nсл   nнов i 1  nнов _ i
n нов _ i  n p i  n p i 1 i
noi
tи
Автоматизированная
технология корректуры
t к i  nнов _ i  tср  no i  tи
где nнов_i – количество новых слов на i-ой странице,
nоi – количество ошибок на i-ой странице.
Количество новых слов – занесенных в словарь:
nсл   nновi1  nновi
nновi  n p i  n p i1i
где nрi – количество разных слов на i-ой странице
(неповторяющихся на странице),
n p i 1i
- количество общих разных слов i-ой и предыдущей
(i-1) странице.
Эффективность технологии
корректуры
• Эффективность той или иной технологии корректуры
будем определять исходя их времени, затрачиваемом на
корректуру текста.
• В формальной модели корректуры фигурируют два вида
параметров: время, затрачиваемое, на ту или иную
деятельность и количественные характеристики.
• Проанализируем количественные характеристики на примере
корректуры Словаря Академии Российской 1789-1794 гг.
Исследование количества ошибок
Результаты сравнения ошибок в «Показании» САР 1-го тома
Характеристики сравнения (кол-во)
Введенный текст
Вычитанный текст
Всего записей
6092
6103
Всего неповторяющихся записей
6078
6094
Всего неповторяющихся слов
6031
6049
Одинаковых записей
5499
Одинаковых неповторяющихся записей
5477
Одинаковых неповторяющихся слов
5571
Ошибок в неповторяющихся записях
601
Ошибок в неповторяющихся словах
460
Ошибок в номерах колонок
108
Отсутствующих записей
11
Отсутствующих номеров колонок
33
Исследование количества ошибок
• Общее количество несоответствий (ошибок) в тексте
Показания составляет 612 ошибок. Общий объем текста
Показания составляет 46 страниц.
• Таким образом, среднее количество ошибок на странице
составляет 13,3.
• Если считать, что ошибки распределены равномерно по всему
тексту словаря, тогда на одной странице будет встречаться
13-14 ошибок.
Анализ систематических ошибок
Ошибки,
связанные со
старинной
лексикой и
грамматикой
Анализ систематических ошибок
Ошибки,
обусловленные
особенностями
графем шрифта
Анализ систематических ошибок
Другие систематические ошибки (технические)
Анализ систематических ошибок
Другие систематические ошибки
Анализ систематических ошибок
Соотношение разных видов ошибок
27%
Ошибки, связанные со старинной
лексикой и грамматикой
Ошибки, обусловленные особенностями
графем шрифта
52%
21%
Другие систематические ошибки
•Характер некоторых систематических ошибок свидетельствует о том, что
данный текст был сформирован с помощью ручного набора. На это
указывают некоторые технические ошибки и опечатки, которые мог
сделать только человек.
•Некоторые систематические ошибки можно устранить автоматически с
помощью замен, что уменьшит временные затраты на корректуру.
Исследование
частотных характеристик слов
Графическая модель страниц Словаря
1 стр.
2 стр.
- количество не повторяющихся слов
- количество повторяющихся слов
- количество новых не повторяющихся
слов не входящих в словарь-спеллер
3 стр.
8 стр
- количество слов входящих в
словарь-спеллер
- количество ранее встечавшихся
слов
Исследование
частотных характеристик слов
Рост количества ранее встречавшихся слов в выборках
количество слов
3500
3000
с учетом регистра
2500
без учета регистра
2000
Логарифмический (без
учета регистра)
1500
1000
2
3
4
5
6
выборки
7
8
9
10
Исследование
частотных характеристик слов
Характеристики страниц 1-8
Характеристики сравнения
Общее количество слов на
странице
Количество разных слов
Общее количество ранее
встречавшихся
на странице слов
Количество разных слов ранее
встречавшихся на странице
Количество слов проверяемых
корректором
Страницы
1
2
3
4
5
6
7
8
228 256 279 268 265 294 276 288
188 201 227 211 215 233 222 226
51
86
103 101 130 107 125
24
41
58
56
83
69
78
188 177 186 153 159 150 153 148
Исследование
частотных характеристик слов
Соотношение количества ранее встречавшихся слов,
известных и не известных Word
100%
90%
80%
70%
60%
Не известных Word
50%
Известных Word
40%
30%
20%
10%
0%
1 стр.
2 стр.
3 стр.
4 стр.
5 стр.
6 стр.
7 стр.
8 стр.
Эффективность технологии
корректуры
Количество слов,
проверяемых
корректором для
страниц 1-8.
количество слов
• Для оценки общего количества проверяемых слов при
использовании автоматизированной технологии корректуры
для 1-8 страниц была построена аппроксимирующая функция.
300
250
200
150
100
50
0
y = -20,942Ln(x) + 192,01
2
R = 0,7799
1
2
3
4
5
6
7
8
страницы
количество слов проверяемых корректором
логарифмическая аппроксимирующая кривая
Эффективность технологии
корректуры
Для оценки общего количества слов на промежутке
с 9 по 570 страницу построим аппроксимирующую кривую с учетом
промежуточных значений. В качестве метода аппроксимации используем
метод наименьших квадратов и линейную зависимость.
Уравнение аппроксимирующей прямой имеет вид:
y = -0,11 x + 10,84.
Соотношение количества слов,
проверяемых корректором
для страниц 8-570 с учетом
промежуточных значений
Эффективность технологии
корректуры
• Количество слов, проверяемых корректором при
использовании автоматизированной технологии
корректуры определяется следующим выражением:
x 8
Y
 -20,94  ln x  192,01dx
x 570

x 1
 -0,11 x  10,84dx
 44015
x 9
Эта величина соответствует количеству новых слов:
m
n
i 1
нов i
 44015
Эффективность технологии
корректуры
• Будем считать, что время исправления
ошибки в K раз больше времени сравнения слова,
тогда, обозначив время сравнения как t, получим:
tср = t, tи = Kt.
Эффективность технологии
корректуры
• Традиционная технологий корректуры:
m
m
m
i 1
i 1
i 1
Tkt   t kt i   ni  t   no i  Kt
Tkt  153330t  7581Kt
• Автоматизированная технологий корректуры:
m
m
m
i 1
i 1
i 1
Tka   t ka i   nнов i  t   no i  Kt
Tka  44015t  7581Kt
Эффективность технологии
корректуры
• Сравнение технологий корректуры:
Tk  1  Tka / Tkt
При K=1 , суммарный выигрыш времени корректуры
может достигнуть 68%,
а при К=10 и выигрыш времени корректуры 47,7%.
Эффективность технологии
корректуры
• Оценивая полученные показатели, следует отметить ряд
допущений, которые были приняты в формальной модели
корректуры.
• Во-первых, было принято, что ошибки распределены по
тексту равномерно, поэтому количество ошибок на каждой
странице постоянно.
• Во-вторых, рассматривались только орфографические
ошибки, не рассматривались ошибки пунктуации и связанные
с нарушением правил верстки. В данную модель не входят
также ошибки в словах, входящих в состав словаря спеллера.
Download