"А.В.Хамадеев. Лекции по курсу Техника и технология средств массовой информации (печатные издания) " - читать интересную книгу автора -
распознавание полученных компонентов (или подкомпонентов) с запоминанием уровней соответствия (доверия полученным результатам); - контекстный анализ на базе просмотра словаря; он позволяет выбрать наилучшие варианты, вычисляя наименьшую дистанцию соответствия между полученным словом и содержимым словаря. Реальные тексты могут содержать множество встроенной графической информации - водяные знаки, фоновые рисунки, иллюстрации и т. п. В этих случаях локализация текста становится сложной задачей для системы распознавания. Определенные сложности возникают и из-за наличия рисунков, диаграмм, необычного фона. Распознавание также осложняется особенностями и самого текста - размерами, толщиной, видом шрифта, фоном и позиционированием. Другая проблема связана с последовательностью процесса распознавания: сканирования текста, выделения текстовых блоков, сегментации на линии и символы, распознавания, контекстного анализа, перевода текста в электронный формат. Ошибка на любом этапе приводит к неверному результату в целом. Для устранения опасности ошибки на ранних этапах определенные решения переносятся на более поздний этап процесса распознавания. По этой причине особенности текстовых компонентов и использует их для выбора набора компонентов, которые потенциально содержат строки текста. Модуль распознавания работает по той же схеме. Прежде всего, генерируется гипотеза разделения входной строки текста. Далее к каждой полученной части применяют алгоритм распознавания, что дает вероятные символы, сопоставляемые с данной частью изображения входной строки. Затем отбирают гипотезы разделения на этапе контекстного анализа, минимизируя отличия слова от содержимого словаря. При реализации современных систем распознавания текста обычно используются два базовых метода: матричное сопоставление и выделение особенностей. Метод матричного сопоставления, наиболее простой и распространенный, основан на сравнении того, что "видит" сканер, с библиотекой символьных матриц или шаблонов. В том случае, когда изображение совпадает с каким-либо заранее заданным шаблоном точек с определенным уровнем соответствия, программа оптического распознавания ставит изображению в соответствие символ. Метод выделения особенностей, известный также как ICR (Intelligent Character Recognition - интеллектуальное распознание символов) или TFA (Topological Feature Analysis - топологический анализ особенностей), не требует строгого соответствия изображений заранее заданным шаблонам. |
|
|