"А.В.Хамадеев. Лекции по курсу Техника и технология средств массовой информации (печатные издания) " - читать интересную книгу автора


Устройства ввода и передачи текстовой информации

На стадии допечатной подготовки изданий пользователю предоставляется
большое многообразие средств ввода новой информации.

Клавиатурный ввод текстовой информации. В данном случае, как правило,
используется стандартная клавиатура ПЭВМ, предусматривающая не только ввод
текстового материала, но и управление функциональными возможностями как
самой ПЭВМ, так и применяемых программных средств.

Процесс клавиатурного ввода данных можно рассматривать как кодирование
множества знаков в машинодоступной форме. Собственно кодирование знаков в
системах обработки текста осуществляется на двух уровнях машинного
представления, а именно: знака, выраженного в цифровой комбинации, и его
начертания. Любая система ввода и последующей обработки текста предполагает
его вывод на соответствующий носитель информации (бумагу, пленку, формный
материал). Тем самым при выводе обеспечивается широкий доступ к
разнообразным гарнитурам и начертаниям шрифтов.

Клавиатурный ввод текстовой информации обеспечивается
программой-драйвером операционных систем ПЭВМ и разнообразными программами,
получившими название текстовых редакторов или текстовых процессоров.

В результате клавиатурного ввода формируется текстовой электронный
файл, в котором символы представляются в виде двоичных кодов стандартной
формы (ASCII, КОИ-8, ANSI, двухбайтовый UNICOD).

Автоматизированный ввод текстовой информации на основе использования
технологий распознавания символов (технологий OCR). Значительная часть
авторских экземпляров рукописей поступает в издательства или редакции в
машинописном виде (в том числе распечатанных на принтерах, печатающих
машинках и т. д.) Некоторые материалы поступают в редакцию по факсам.
Применяемые интеллектуальные информационные технологии автоматизированного
ввода текстовой информации базируются на методах распознавания символов
(текста).

Системы распознавания весьма разнообразны, но в их основе лежит общий
принцип преобразования просканированного изображения печатной страницы в
последовательность двоичных кодов символов исходного текстового документа.
Распознавание текста осуществляется с помощью модулей локализации текстовых
объектов. При этом используется аналитический метод, основанный на
распознавании отдельных символов во входной строке и работающий по следующей
схеме:

-

многовариантное разделение входной строки для обхода
некачественных изображений (разрывы и слияния символов);