"Готье Неимущий. Что полезно сделать, считав текст после OCR" - читать интересную книгу автора пес (аналогично)
н (вместо "и", "в"). п (то же) л (вместо "к, "в") па (вместо "на") пе ("не") пет ("нет") ве ("не") оп ("он") нс ("не") б (вместо шестерки встала "бэ"). з (вместо тройки встала "зэ"). 30. Хорошо бы и следующее. Часто OCR ошибается (у меня так): вместо "один" - "одни". И наоборот. Значит, просмотреть все на "Только слово целиком": одни один И глядеть по смыслу. 31. Убрать "Только слово целиком" и глянуть текст на "ё", бывают лишние. 32. Хорошо бы просмотреть весь текст и на кавычки, хотя долго бывает. Цели: а) Выловить непарные кавычки; б) Выловить при внимательном просмотре "кавычки внутри кавычек", где они должны быть в виде лапок. 33. Ввести выражение 34. Можно сделать также и 35. Специально для делающих из *.doc и *rtf файлы *.htm. перед текстом одной сделанной книги): "В эскимосском прозвище Фрейхена - Питa, всюду в оригинальном тексте проставлено ударение. В электронной версии также проставлено ударение, но следует иметь в виду, что "a" является не буквой, а одним из символов в Word (Латиница 1). Аналогичным образом с "o" в слове бoльшую и со скандинавскими буквами в датских выходных данных книги (см. заголовок) и в иноязычной библиографии (!Intro_After.doc). В *.txt указанные символы не воспроизводятся, а в *.htm же они отображаются корректно только когда при конвертировании задают не кириллицу, а многоязыковую поддержку". И, по-моему, при конвертировании в *.htm надо выключить в Word расстановку переносов (я редко делаю *.htm; неспециалист). Пока больше ничего придумать не могу. Всем полезно дополнять эту методику: если у кого возникнет мгновенная мысль во время считывания, призываю сразу оторваться на минуту от работы и пусть грубо, но зафиксировать ее хотя бы в этом рабочем файле (я именно так и делал). Понятно, что делать все такое скучно весьма, но полезно. Иначе иногда даже теряется смысл при указанных выше огрехах. И три точки бывают важны, а вместо них вдруг - две. Троеточие это или лишняя точка? Могут сказать, что я - нудный. Не согласен - электронные версии следует стараться отлизать: они будут доступны очень большому числу людей. Да и сами OCR + корректура - нудные дела в принципе. Но мое мнение остается неизменным - электронные версии редких текстов - |
|
|