"Готье Неимущий. Что полезно сделать, считав текст после OCR" - читать интересную книгу автора

Готье Неимущий (Gautier Sans Avoir). [email protected]


ЧТО ПОЛЕЗНО СДЕЛАТЬ, СЧИТАВ ТЕКСТ ПОСЛЕ OCR


Апрель 2003 г.

Это методика окончательного просмотра текста на предмет выявления
систематических огрехов после OCR и после считывания. Есть еще ряд
основных действий до считывания; о них писал ранее и будет еще дополненное
когда-нибудь после (в частности, замена всех тире на Все-таки вначале
назову одну вещь при считывании:
Специфические систематические ошибки для конкретного текста.
Например, встретилось при считке Джеме Росс (в имени вместо "с" вкралась
"е") - хорошо немедленно отвлечься, отметить место докуда считал (я пишу
просто: "досюда"; такое слово редко бывает), и просмотреть весь текст
"Найти" на "Джеме" (или сразу заменить). И т.п. Для сайта "Восточная
литература" это особенно важно - много необычных имен и названий.
Теперь просмотр после считывания.
Включить в Word "Непечатаемые символы" для просмотра данного документа (я
вообще их никогда не выключаю)

Сначала заменить первый раз два пробела на один пробел (несколько раз,
пока не станет "0"). Однако сначала следует посмотреть, не сделал ли
кто-то в версии вместо таблицы такую штуку пробелами (если версия не
твоя). Или так оставил место для подписи.

В *.doc надо включить поиск "Найти" и просмотреть весь текст на:

1. Вкравшийся в ненужные места полужирный шрифт и курсив (бывает в тире,
пробелах и т.п.)
а) Просмотреть на полужирный
б) Просмотреть на курсив.
Обычно же я, передав текст из Fine Reader в Word, сразу, до считывания,
выделив весь текст, делаю "полужирный - отмена полужирного", "курсив -
отмена курсива". Тогда после считывания ничего проверять на шрифты,
конечно, не нужно. Расстановку же нужного курсива и полужирного делаю при
считывании, сверяясь с книгой.

2. 3. (Вот для чего мы в начале заменяли два пробела на один, чтобы после
цифры перед дефисом не было два пробела - иначе не найдем такие места с
цифрами, пробелами и дефисами.)
4. 5. 6. [любая цифра] -[любая цифра]- [любая цифра] - 7. То же с римскими
цифрами (важно для исторических монографий):
I- (один римская с дефисом вместо короткого тире)

V-

X-