Re: Возможно ли отсканировать и распознать текст, напечатанный в дореволюционном алфавите?
Андрей Лебедев, Православный, РПЦ - 10:33 10.06.2004
|
Александр Гольденберг, Вы писали:
> А как эти глюки проявляются, в частности, при распозновании текста со старой орфографией?
> Ведь одно дело, если FineReader ошибается в каких-то символах, но помечает их как сомнительные, и совсем другое - если эти ошибочные символы считаются уверенно распознанными.
> И о какой версии FineReader идет речь?
У меня 6-ая версия
Дело в том, что я не правлю текст в FR. После сканирования, загоняю текст в Word и уже правлю в нем
Ошибки бывают такие, например "Божии" практически всегда распознается как "Божий", "Исаия" как "Исайя", ять курсивная - куча вариантов, ер курсивный часто как мягкий знак, и наоборот ерь как твердый знак.; "яже" как "ассе" и т.д. и т.п. Если еще учесть, что FR старается "предугадать" распознавемое слово, то иногда он может поменять буквы в слове, и соответственно, распознанное слово будет иным чем в тексте.
Если же распознается одновременно русский, английский, греческий, то количество ошибок увеличивается в разы, например русское "то", может распознаться как "to", или тоже самое греческими буквами, или, например "еси", практически всегда распознается как "ecu".
Еще проблема есть со знаками препинания, если они рядом с корешком, в первых пяти-шести строках, они часто пропадают.
|
|