"Готье Неимущий. Что полезно сделать, считав текст после OCR" - читать интересную книгу автора

пес (аналогично)
н (вместо "и", "в").
п (то же)
л (вместо "к, "в")
па (вместо "на")
пе ("не")
пет ("нет")
ве ("не")
оп ("он")
нс ("не")
б (вместо шестерки встала "бэ").
з (вместо тройки встала "зэ").
30. Хорошо бы и следующее. Часто OCR ошибается (у меня так): вместо
"один" - "одни". И наоборот. Значит, просмотреть все на "Только слово
целиком":
одни
один
И глядеть по смыслу.
31. Убрать "Только слово целиком" и глянуть текст на "ё", бывают лишние.
32. Хорошо бы просмотреть весь текст и на кавычки, хотя долго бывает. Цели:
а) Выловить непарные кавычки;
б) Выловить при внимательном просмотре "кавычки внутри кавычек", где они
должны быть в виде лапок.
33. Ввести выражение 34. Можно сделать также и 35. Специально для делающих
из *.doc и *rtf файлы *.htm.
У меня, например, бывают такое (просто привожу фрагмент из вводной части
перед текстом одной сделанной книги):
"В эскимосском прозвище Фрейхена - Питa, всюду в оригинальном тексте
проставлено ударение. В электронной версии также проставлено ударение, но
следует иметь в виду, что "a" является не буквой, а одним из символов в
Word (Латиница 1). Аналогичным образом с "o" в слове бoльшую и со
скандинавскими буквами в датских выходных данных книги (см. заголовок) и в
иноязычной библиографии (!Intro_After.doc). В *.txt указанные символы не
воспроизводятся, а в *.htm же они отображаются корректно только когда при
конвертировании задают не кириллицу, а многоязыковую поддержку".
И, по-моему, при конвертировании в *.htm надо выключить в Word расстановку
переносов (я редко делаю *.htm; неспециалист).

Пока больше ничего придумать не могу.
Всем полезно дополнять эту методику: если у кого возникнет мгновенная
мысль во время считывания, призываю сразу оторваться на минуту от работы и
пусть грубо, но зафиксировать ее хотя бы в этом рабочем файле (я именно
так и делал).
Понятно, что делать все такое скучно весьма, но полезно. Иначе иногда даже
теряется смысл при указанных выше огрехах. И три точки бывают важны, а
вместо них вдруг - две. Троеточие это или лишняя точка?
Могут сказать, что я - нудный. Не согласен - электронные версии следует
стараться отлизать: они будут доступны очень большому числу людей. Да и
сами OCR + корректура - нудные дела в принципе.
Но мое мнение остается неизменным - электронные версии редких текстов -