"Максим Бычков, Григорий Кудрявцев "Ноябрьские тезисы о сканировании"" - читать интересную книгу автораМаксим Бычков, Григорий Кудрявцев.
Ноябрьские тезисы о сканировании Email: [email protected] Date: 10 Nov 2000 Материалы этой страницы будут регулярно пополняться. Опытом OCR делятся Максим Бычиков и Григорий Кудрявцев, у них на счету - ПСС Шекспира, Стейнбека, Диккенс, ... всего около 60Мб подготовленных и вычитанных электронных текстов. Установки сканера по яркости Если материал представлен в виде качественной (желательно высокой) печати шрифтом 10 и более пунктов, то сканирование в разрешении 300 точек с ручной установкой яркости дает более чем приемлемые результаты. Количество ошибок на лист A4 стремится к нулю и колеблется в районе 1-5 неправильно распознанных знаков. Установку яркости можно подобрать опытным путем, сводя к минимуму помехи в виде рассыпанной по листу "сыпи", но в основном, яркость на уровне 42-45% обеспечивает хорошее качество распознавания. Особо следует отметить ситуацию при сканировании некоторых печатных сочинений изданных в это время. Несмотря на качественную печать, использование сложных "многозавитушечных" шрифтов вводит программу распознавания в искус придумать какое-то свое толкование некоторых знаков, что существенно снижает качество получаемого текста. Частично разрешить проблему позволяет повышение разрешения до 400 точек на дюйм - ошибок становиться заметно меньше. Однако дальнейшее увеличение разрешения не дает прироста точности распознавания. (Можно поробовать распознавание с обучением, но это во первых долго и муторно, а во вторых, субъективно, не дает заметного увеличения качества распознавания) При сканировании книг с небольшим внутренним полем и "не раскрывающихся до конца" в клееном переплете приходиться использовать автоматический подбор яркости чтобы избежать затемнения в области переплета. Однако автоподбор яркости снижает скорость прохода сканера и отнюдь не способствует лучшему распознаванию областей текста не лежащих в затемненной части, поэтому лучше избегать сканирования с автоматическим подбором, кроме самых крайних случаев (особой ценности издания, и особой узости внутренних полей). (Книжка обычно после этого становится загубленной.) К сканированию с разрешением 600 точек на дюйм следует прибегать только в случаях если оригинал напечатан шрифтом 9 и меньше пунктов. Maxim mailto:[email protected] |
|
|