"Максим Бычков, Григорий Кудрявцев "Ноябрьские тезисы о сканировании"" - читать интересную книгу автора

Максим Бычков, Григорий Кудрявцев.

Ноябрьские тезисы о сканировании


Email: [email protected]
Date: 10 Nov 2000


Материалы этой страницы будут регулярно пополняться. Опытом OCR
делятся Максим Бычиков и Григорий Кудрявцев, у них на счету - ПСС Шекспира,
Стейнбека, Диккенс, ... всего около 60Мб подготовленных и вычитанных
электронных текстов.

Установки сканера по яркости

Если материал представлен в виде качественной (желательно высокой)
печати шрифтом 10 и более пунктов, то сканирование в разрешении 300 точек с
ручной установкой яркости дает более чем приемлемые результаты. Количество
ошибок на лист A4 стремится к нулю и колеблется в районе 1-5 неправильно
распознанных знаков. Установку яркости можно подобрать опытным путем, сводя
к минимуму помехи в виде рассыпанной по листу "сыпи", но в основном, яркость
на уровне 42-45% обеспечивает хорошее качество распознавания.

Особо следует отметить ситуацию при сканировании некоторых печатных
изданий изданных в 40-е-60-е годы, в частности это касается многих собраний
сочинений изданных в это время. Несмотря на качественную печать,
использование сложных "многозавитушечных" шрифтов вводит программу
распознавания в искус придумать какое-то свое толкование некоторых знаков,
что существенно снижает качество получаемого текста. Частично разрешить
проблему позволяет повышение разрешения до 400 точек на дюйм - ошибок
становиться заметно меньше. Однако дальнейшее увеличение разрешения не дает
прироста точности распознавания. (Можно поробовать распознавание с
обучением, но это во первых долго и муторно, а во вторых, субъективно, не
дает заметного увеличения качества распознавания)

При сканировании книг с небольшим внутренним полем и "не раскрывающихся
до конца" в клееном переплете приходиться использовать автоматический подбор
яркости чтобы избежать затемнения в области переплета. Однако автоподбор
яркости снижает скорость прохода сканера и отнюдь не способствует лучшему
распознаванию областей текста не лежащих в затемненной части, поэтому лучше
избегать сканирования с автоматическим подбором, кроме самых крайних случаев
(особой ценности издания, и особой узости внутренних полей). (Книжка обычно
после этого становится загубленной.)

К сканированию с разрешением 600 точек на дюйм следует прибегать только
в случаях если оригинал напечатан шрифтом 9 и меньше пунктов.


Maxim mailto:[email protected]