"Г.Г.Кудрявцев. Как на самом деле делаются книги для lib.ru " - читать интересную книгу авторапропущенными при сканированию страницами и последующую работу с полученными
изображениями, а также, вероятно, улучшит качество распознавания, так как FR сам пытается "довернуть" половинку страницы до правильного, по его мнению, положения. Картинку разворота же, если страницы "разваливаются" в стороны или скошены внутрь исправить таким путем невозможно. Однако у этой полезной, в сущности, опции есть и оборотные стороны. При сканировании поэтических произведений, строки которых сильно разбросаны по вертикали, случаются неприятные казусы в виде разрезания отсканированного разворота не по темной полосе сгиба, а горизонтально, по промежутку между строками. РАБОТА С ПОЛУЧЕННЫМИ ИЗОБРАЖЕНИЯМИ СТРАНИЦ Если отсканированная книжка была оформлена без особых изысков, например, это был обычный прозаический текст, разлитый по страницам без витиеватостей и в одну колонку, то можно смело отдавать команду "распознать все", после чего FR с успехом оправдает свое название. (Не факт - bmn) Ежели же вы были оригинальны и отсканировали книжку стихов или пуще того, какую-нибудь пьесу, то настоятельно рекомендую сначала "выделить блоки на всех станицах" (ctrl+shift+E), потом последовательно пробежаться и просмотреть все ли правильно. Особенно достается пьесам. Бедный FR старается как может, но раскрыть коварные замыслы верстальщика вкупе с автором он не всегда в силах. (Он и не пытается, а просто фантазирует, а фантазия у него ой какая богатая и необузданная. - bmn.) "В пакете нет нераспознанных страниц", можно переходить к следующему этапу. ВЫБОР ВАРИАНТА СОХРАНЕНИЯ ТЕКСТА Отметим, что еще на стадии распознавания, надо помнить следующее: страницы на которых преобладает прозаический текст стоит распознавать включив опцию Tools -> Options -> Recognition -> Autodetect и отключив Tools -> Options -> Formatting -> Formats Settings -> TXT все галочки, а страницы на которых преобладает текст поэтический, где важны расставленные автором окончания строк (абзацы) необходимо распознавать включив галочку Keep line breaks и включив опцию Tools -> Options -> Recognition -> Plain text formatted with spaces. (Не согласен, даже для прозы лучше держать включенными галочки в опциях сохранения "Сохранять деление на строки" и "Разделять абзацы пустыми строками". И обязательно поставить первый сервис пак, тогда FR будет лучше определять конец абзаца. - bmn) Более того, при окончательном сохранении текста в файле, стоит сохранять файлы с прозаическим и поэтическим форматированием отдельно, для последующей же раздельной с каждым работы. Окончательное объединение стоит производить только на заключительном этапе компоновки готового и вычитанного файла. Исключение составляют только очень сильно разноплановые тексты, тогда решение стоит принимать оценив преобладающий тип, помня, однако, что убирать лишние разделители абзацев в прозе сложнее. (Не, я сразу все делаю, ошибок |
|
|