5.2. ТЕХНОЛОГИЯ ОБРАБОТКИ ТЕКСТОВОЙ ИНФОРМАЦИИ Создавать, редактировать, форматировать и распечатывать текстовые документы можно с помощью специальных программ обработки программ обработки текстов: текстовых редакторов и текстовых процессоров: Текстовые редакторы – это программы для создания, редактирования, форматирования, сохранения и печати документов. Текстовые процессоры – это текстовые редакторы, имеющие в своем составе расширенный набор функций для работы с документами. Некоторые текстовые процессоры являются так называемыми WYSIWYG – редакторами (от англ. What You See Is What You Get – то, что ты видишь, есть то, что ты получишь). Когда говорят, что это WYSIWYG – редактор, то гарантируют полное соответствие внешнего вида документа на экране компьютера его печатной копии. К редакторам такого типа относятся Word и StarWriter. Некоторые современные редакторы поддерживают концепцию «почти» WYSIWYG. Вид документа на экране при этом немного отличается от его печатной копии, но делается это специально с целью более эффективного использования рабочего окна документа. Примерами «почти» WYSIWYG – редакторов являются Netscape Composer и KLyX. Мощные программы обработки текста – настольные издательские системы – предназначены для подготовки документов к публикации. Примером такой системы является Adobe PageMaker. Текстовые файлы – наиболее распространенный тип данных в компьютерном мире. Существуют несколько проблем, связанных с текстовыми файлами. Первая проблема – чрезвычайно большое число символов, требующихся для поддержки различных языков. Вторая проблема заключается в том, что люди хотят, чтобы распечатываемые документы содержали графики, диаграммы, примечания, заголовки и чтобы при этом использовались различные шрифты. Кроме того, документы, распространяемые в Интернет (он-лайновые документы), содержат мультипликацию, ссылки на различные ресурсы и звуковое сопровождение. Многие текстовые файлы передаются в виде простого текста. Простой текст сложно сделать привлекательным и легко читаемым, так как в нем нет шрифтов различных начертаний, графиков, заголовков, подзаголовков и т.д. Эти дополнительные особенности называются разметкой текста указывается точный вид каждого фрагмента: положение на странице, размер и начертание шрифта. При логической разметке указывается логическое значение данного фрагмента, например: «это заголовок главы». Эти два способа разметки предназначаются, как правило, для использования в разных ситуациях. Для того, чтобы распечатать текст на принтере, необходимо использовать физическую разметку. Должны быть на приняты решения о размере полей и абзацных отступах. Ранние версии текстовых процессоров использовали только физический тип разметки. При этом для каждого фрагмента указывается шрифт, размер и стиль. При обмене информацией физическое оформление текста накладывает ряд ограничений, особенно для он-лайновых документов. Размер экрана, разрешение и шрифты различны для различных систем. В некоторых случаях логическое оформление текста практически необходимо (при создании электронных документов типа страниц WWW или при создании и публикации объемных трудов, таких как книги). Таблица 5.1 Основные объекты окна приложения Объект Наименование Строка заголовка Содержит название программы и название файла, который в данный момент обрабатывается. Меню Важнейшая часть окна – приложения. Из него выбираются необходимые команды. Панель инструментов Простым щелчком мыши на кнопке того или иного инструмента вы можете задать команду для редактора Word Линейки Служат для изменения абзацного отступа, масштаба изображения страниц текста на экране, ширины колонок текста и размеров ячеек таблиц, а также для установки позиции табуляции в тексте Полосы прокрутки Применяются в тех случаях, когда весь текст не помещается на экране и требует сдвига вверх – вниз или влево - вправо Строка состояния Выводит информацию о текущем положении текстового курсора в документе, текущем времени и текущем режиме редактирования Для сохранения разметки документов при передаче текстовой информации от машин к машине применяют разные способы. Текстовые процессоры и издательские системы используют специально разработанные форматы файлов, содержащие не только текст, но и информацию о том, как он должен быть оформлен. Основная проблема заключается в несовместимости таких форматов, хотя наиболее сложные программы обычно могут читать файлы в форматах программ – конкурентов. Примерами такого подхода являются текстовые процессоры Word и StarWriter. При другом подходе непосредственно в текст документа вставляются специальные команды разметки. Даже если у вас нет программного обеспечения, поддерживающего такой формат, вы все же сумеете в нем разобраться. Существует немало способов подобного представления разметки текста, в том числе: HyperText Markup Language (HTML), использующий в Word Wide Web; TeX и LaTeX, пользующиеся популярностью у многих академических изданий, а также у математиков, физиков, химиков и даже музыкантов. Файлы, созданные разными редакторами, зачастую имеют уникальные расширения, позволяющие, не заглядывая внутрь документа, догадаться о способах разметки текста. Так, файлы, созданными редакторами подготовки простого текста, часто имеют расширение .txt, а подготовленные в текстовом процессоре Word – расширение .doc. Кроме того, Word поддерживает и другие форматы, например RTF (расширение .rtf). Документы, содержащие команды разметки языка HTML, имеют расширение .html или .htm. В процессе вывода символа на экран компьютера производится обратный процесс – декодирование. Одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы. В большинстве случаев пользователь не должен заботится о перекодировках текстовых документов, так как это делают специальные программы – конвекторы, встроенные в приложения. Текстовый редактор Microsoft, и в нем реализован объектный подход. Из табл.5.1 и рис.5.1 видно, что часть объектов повторяет стандартное окно Windows, но появились новые объекты, такие как строка состояния, панель рисования, панель инструментов, панель форматирования и т.д. Прежде всего выясним, с какими объектами мы будем работать. Как и в других приложениях Microsoft Office, можно выделить две основные группы объектов: документы и инструменты. Все документы MS Word создаются на основе выбранного шаблона (образца). Шаблон – это служебный файл, который содержит всевозможную информацию о структуре и оформлении документов конкретного типа. Использование шаблонов позволяет создавать документы таким образом, чтобы все элементы оформления органично сочетались между собой. Шаблоны являются специализированными программами и сохраняются как файлы с расширением .dot. В стандартный комплект пакета MS Office включены шаблоны для наиболее распространенных типов документов. При запуске Word без указания имени файла процессор по умолчанию предлагает начать создание нового документа под именем «Документ 1» на основе стандартного шаблона «Обычный». На рис. 5.2 показано, из каких объектов состоит объект Документ, а в табл. 5.2 приведены примеры свойств некоторых объектов. Поясним некоторые термины. Кегль (размер шрифта) – вертикальный размер, измеряемый в пунктах (1 пункт равняется 0,376 мм). Для большинства документов используются 10-12 – пунктовые шрифты, в то время как газетная полоса может иметь только 8 – пунктовые шрифты. Размер шрифта более 14 пунктов обычно используется лишь для заготовков и выделений. Гарнитура (тип шрифта) определяет особенности написания целого набора символов, включающего в себя заглавные и строчные буквы, цифры, знаки пунктуации и специальные символы. Каждый тип шрифта имеет несколько стилей начертания символов (например, полужирный, курсив, полужирный курсив, обычный). Кроме того, можно ввести подчеркивание символов и фрагментов текста. С помощью инструментов мы производим различные операции над документами. Так, оперируя различными символами, можно ввести текст, придать ему необходимый вид, расположить на странице. Выполняя операции с фигурным текстом, можно оформить красивый заголовок на титульном листе. Операции с рисунками позволяют украсить внешний вид вашего документа и сделать его содержание более понятным. Символ – это минимальный элемент текста. Он обладает следующими свойствами: размер; начертание (обычное, жирное, курсивное, подчеркивание); цвет; шрифт; позиция. Из символов состоят другие объекты текстового редактора: строка, абзац, страница, текст. Каждый последующий объект наследует свойства предыдущего, и к ним добавляются характерные свойства данного объекта. Строка – это последовательность символов, завершенная кодом конца строки. Строка как объект имеет следующие свойства: начало и конец строки; номер строки в тексте; длина строки; левая и правая границы строки (левая граница – позиция, в которой начинается строка, правая граница – позиция, за которую она не должна заходить). Абзац – это набор строк, выделяемый наличием отступа красной строки в начале. Свойства абзаца: левый и правый отступы; отступ в красной строке, т.е. позиция, с которой начинается первая строка абзаца; число строк; межстрочный интервал; положение на странице. Страница – это набор строк, завершаемый кодом конца страницы. Её свойства: номер страницы; число строк на странице. Последним, глобальным, объектом текстового редактора является весь текст в целом. Ко всем наследуемым свойствам у текста добавляются новые: начало и конец текста; число строк в тексте; расположение текста на странице. Итак, для того чтобы подготовить документ для печати, необходимо научиться выполнять следующие операции: ввод текста; редактирование текста; форматирование символов; форматирование абзацев; вставка иллюстраций; вставка таблиц; вставка колонтитулов; сохранение документа; печать.