"Готье Неимущий. Что полезно сделать, считав текст после OCR" - читать интересную книгу автора


I -

V -

X -

- I
- V
- X
- I
- V
- X
Вряд ли есть римские L, но надо смотреть по конкретному тексту.
8. Все то же можно с римскими цифрами и длинным тире.
9. [дефис пробел Любая буква]
10. Три абзаца подряд (два бывает где заголовки, но три - лишнее).
11. 12. Найти "крышки" (бывают как огрехи OCR).
13. Найти две запятые подряд: 14. Найти лишние 15. Найти 16. Найти знак
17. Заменить два пробела на один 18. Найти
-
-
Это лишние пробелы у дефиса.
19. -любая буква
любая буква-
(То есть, где пропущен пробел у длинного тире)
20. Найти:
)
(
Это лишние пробелы вблизи скобок.
21. Найти - Заменить:
абзац пробел
пробел абзац
Это все заменить просто на "абзац".
22. буква абзац
(Это где пропущены точки в конце предложения в конце абзаца; придется
просматривать попутно все заголовки).
23. :буква
.буква
,буква
24. Это где вместо двоеточия вкралась точка с запятой.
25. Найти 26. Найти:
Так же и с 27. Найти 28. Важно для историч. документов:
Найти 29. Систематические ошибки считывания (наверное, можно добавить
что-то еще).
Включить "Найти" на "Только слово целиком":
ля (встало вместо "ли")
кик ("как")
се ("ее")
нес ("нее", а слово "нес" встречается редко).