"Готье Неимущий. Что полезно сделать, считав текст после OCR" - читать интересную книгу автораI - V - X - - I - V - X - I - V - X Вряд ли есть римские L, но надо смотреть по конкретному тексту. 8. Все то же можно с римскими цифрами и длинным тире. 9. [дефис пробел Любая буква] 10. Три абзаца подряд (два бывает где заголовки, но три - лишнее). 11. 12. Найти "крышки" (бывают как огрехи OCR). 13. Найти две запятые подряд: 14. Найти лишние 15. Найти 16. Найти знак 17. Заменить два пробела на один 18. Найти - - Это лишние пробелы у дефиса. 19. -любая буква любая буква- 20. Найти: ) ( Это лишние пробелы вблизи скобок. 21. Найти - Заменить: абзац пробел пробел абзац Это все заменить просто на "абзац". 22. буква абзац (Это где пропущены точки в конце предложения в конце абзаца; придется просматривать попутно все заголовки). 23. :буква .буква ,буква 24. Это где вместо двоеточия вкралась точка с запятой. 25. Найти 26. Найти: Так же и с 27. Найти 28. Важно для историч. документов: Найти 29. Систематические ошибки считывания (наверное, можно добавить что-то еще). Включить "Найти" на "Только слово целиком": ля (встало вместо "ли") кик ("как") се ("ее") нес ("нее", а слово "нес" встречается редко). |
|
|