Православный взгляд на ИТ

Возможно ли отсканировать и распознать текст, напечатанный в дореволюционном алфавите?
Александр Гольденберг, Православие - 11:17 01.06.2004

                


Не пора ли выслать ссылку на эту дискуссию на е-мэйл разработчикам упомянутых в дискуссии программ? (-)
MNT, РПЦ МП - 09:39 11.06.2004

                


Re: Возможно ли отсканировать и распознать текст, напечатанный в дореволюционном алфавите?
StanB., православный из РПЦ - 20:54 10.06.2004
А стоит ли вообще это делать? Ведь "царская" орфография точнее передавала смысл.

                


Орфография
Павлов Александр, Православный, РПЦ IMHO по умолчанию - 21:20 10.06.2004
StanB., Вы писали:
> А стоит ли вообще это делать? Ведь "царская" орфография точнее передавала смысл.
Вобще, спорный вопрос.
IMHO, если будем аккуратны, и не слишком поторопимся обвинять друг друга в ересях и ламерстве, может будет полезно.

Если желаете, давайте обсудим его в Гостинной.

                


Re: Орфография
StanB., православный из РПЦ - 21:33 10.06.2004
Вообще то, мне бы не хотелось вступать в дискуссию по этому поводу. Желающие могут прочитать статью И. Ильина "О РУССКОМЪ ПРАВОПИСАНIИ". (http://rus-sky.com/nasledie/Fonts/Iljin.doc)

                


Re: Орфография
Павлов Александр, Православный, РПЦ IMHO по умолчанию - 21:37 10.06.2004
Спасибо за ссылку.

Меньше всего хотел бы подзуживать Вас на дискуссию :)

                


Re: Возможно ли отсканировать и распознать текст, напечатанный в дореволюционном алфавите?
Братец Дыкъ, православный обнагленец из OCA - 20:58 10.06.2004
StanB., Вы писали:
> А стоит ли вообще это делать? Ведь "царская" орфография точнее передавала смысл.

Так что же теперь книги набраные гражданским шрифтом не сканировать? :)

                


Re: Возможно ли отсканировать и распознать текст, напечатанный в дореволюционном алфавите?
StanB., православный из РПЦ - 23:30 01.06.2004
Кажется, есть какая-то программа под названием "Иероглиф". Но я могу путать.

                


Re: Возможно ли отсканировать и распознать текст, напечатанный в дореволюционном алфавите?
Андрей Лебедев, Православный, РПЦ - 11:26 01.06.2004
Можно, любым FineReader'ом, но лучше начиная с 6-ой версии

                


Re: Возможно ли отсканировать и распознать текст, напечатанный в дореволюционном алфавите?
Александр Гольденберг, Православие - 06:08 10.06.2004
Спасибо за совет.
Решил купить себе FineReader 7.0 Professional.

                


Re: Возможно ли отсканировать и распознать текст, напечатанный в дореволюционном алфавите?
Киот, Православный РПЦ МП - 11:41 01.06.2004
Он яти не признает, а также фиты

                


Re: Возможно ли отсканировать и распознать текст, напечатанный в дореволюционном алфавите?
Андрей Лебедев, Православный, РПЦ - 12:03 01.06.2004
Признает, я их перевожу, в соответствующие буквы современного алфавита глобальной заменой, проблемы возникают, когда текст набран курсивом

                


Глобальная замена
Киот, Православный РПЦ МП - 07:07 10.06.2004
Хорошо. Но как заменить, если от ять за "Ъ", "Ь", иногда "Ы", иногда "Ю" принимает. Или Вы имеете ввиду "какъ"-> "как", "какь" => "как" и т. д.?

                


Re: Глобальная замена
Андрей Лебедев, Православный, РПЦ - 07:39 10.06.2004
Киот, Вы писали:
> Хорошо. Но как заменить, если от ять за "Ъ", "Ь", иногда "Ы", иногда "Ю" принимает. Или Вы имеете ввиду "какъ"-> "как", "какь" => "как" и т. д.?

Угу, технология такова, сначала меняю все "ъ", а именно: твердый знак с пробелом на пробел, тв.зн. с точкой на точку, тв.зн. с запятой на запятую и т.д. (восклицательный знак, вопросительный, точка с запятой, двуточие, закрывающая скобка), потом i на и, потом ять на е, а уж затем руками с начала текста до конца.

                


Re: Глобальная замена
Александр Гольденберг, Православие - 09:36 10.06.2004
А если воспользоваться AfterScan Antique? Производитель утверждает, что программа обрабатывает старорусскую орфографию и переводит в современную: http://www.afterscan.com/ru/ http://www.adelaida.net/hieroglyph/intro.html
Сам ни AfterScan, ни "Иероглиф" никогда не пользовался, да и тексты никогда не сканировал, только собираюсь...
Вот думаю купить AfterScan Antique...

                


Re: AfterScan
Братец Дыкъ, православный обнагленец из OCA - 18:37 10.06.2004
Александр Гольденберг, Вы писали:
> А если воспользоваться AfterScan Antique? Производитель утверждает, что программа обрабатывает старорусскую орфографию и переводит в современную: http://www.afterscan.com/ru/ http://www.adelaida.net/hieroglyph/intro.html
> Сам ни AfterScan, ни "Иероглиф" никогда не пользовался, да и тексты никогда не сканировал, только собираюсь...
> Вот думаю купить AfterScan Antique...

Я купил, ддя проекта OCR Лаборатория. ИМХО не стоит он тех 50 баксов что я на него потратил. :(
Все желающие могут мне прислать тексты, я их прогоню через него, и вышлю результат назад, посмотрите и сами решите, покупать али нет.
(В связи с продолжающейся переустановкой всего на моем компе, такой тест может занять некоторое время).

                


Re: AfterScan
Александр Гольденберг, Православие - 19:14 10.06.2004
Ну уж хуже-то от него не будет.

                


Re: AfterScan
Братец Дыкъ, православный обнагленец из OCA - 20:56 10.06.2004
Александр Гольденберг, Вы писали:
> Ну уж хуже-то от него не будет.

Помимо совершенно правильного ответа Александра :) добавлю:

Кому - как. :)
Тебе если ты вычитываешь тексты в Ворде, полагаясь на спелчекер и собственную грамотность, наверно будет не хуже.
Мне же предпочитающему вычитывать их прям в FR где я имею перед глазами оригинал, с которым и сверяю, получается полный отстой: после того как AfterScan по тексту прошелся его назад в FR yже не засунешь.

Кроме того FR удобно выделяет буквы которые он не уверен что правильно распознал другим цветом, теперь, я думаю, что это можно импортировать в AfterScan и даже сохранить во время обработки текста, но AfterScan тоже помечает цветами обработаный текст и в итоге получается полный календоскоп в котором уже тяжело разобраться.

С другой стороны, кому-то может быть очень удобная функция журнал в AfterScan, это когда в специальном окне у тебя есть возможность пройтись по списку измененных слов, а также слов которым AfterScan не нашел заменны, и обобрить/поправить/отменить, каждую заменну.
Можешь скачать Express версию здесь и поиграться с этой фичей:
http://afterscan.com/ru/download.html

                


Re: AfterScan
Александр Гольденберг, Православие - 22:02 10.06.2004
А разве нельзя выправить текст в FR, а затем пропустить через AfterScan?

                


Re: AfterScan
Братец Дыкъ, православный обнагленец из OCA - 23:16 10.06.2004
Александр Гольденберг, Вы писали:
> А разве нельзя выправить текст в FR, а затем пропустить через AfterScan?

Можно, но после того как руками вычитал текст, какой смысл пропускать его еще через AfterScan?? То есть пропустить его через спелчекер может быть и не плохо, но спелчекер есть и в FR и в Ворде, платить еще 50$ за другой спеллчекер? Лучше тогда скачать бесплатный Иероглиф где стоит тот же спелчекер что и AfterScan.

Еще раз повторю, ИМХО, для людей предпочитающих вычитывать не сверяясь еже минутно с оригиналом, а полагающихся на свои знания и грамотность, таких как профессиональные корректоры и редакторы, AfterScan будет полезен и свои бабки оправдает. Для меня , который вычитывая сам по себе, наделает на порядок больше ошибок, чем даже FR сама по себе, он оказался "не пришей кобыле хвост".

Вот если бы разроботчики сделали его встраиваемым в FR или чтобы AfterScan мог читать внутриний формат страниц FR и отображать текст на подобии FR с отсканированной странице рядом и синхронизованной с распознаным текстом, тогда бы он мне был бы очень полезен и мне за него было бы не жалко заплатить и в 2 раза больше. Но увы такой функциональности там нет и не похоже чтобы предвиделось и "вины" разработчиков тут особой нет, ABBYY ломит такие цены на версии/лицензии для разработчиков, что у небольших контор создающих продукты для горизонтального рынка врядли хватит средств с FR интегрироваться. :(

                


Re: AfterScan
Павлов Александр, Православный, РПЦ IMHO по умолчанию - 19:23 10.06.2004
Александр Гольденберг, Вы писали:
> Ну уж хуже-то от него не будет.

Если я правильно понял Братца Дыка- будет хуже на 50 баков.
Впрочем, может деньги и вправду - зло... :)

                


Re: Глобальная замена
Андрей Лебедев, Православный, РПЦ - 09:57 10.06.2004
Александр Гольденберг, Вы писали:
> А если воспользоваться AfterScan Antique?

Я тоже ими не пользовался. Но в любом случае, так или иначе придется все равно пройтись по тексту. Из своего опыта знаю, что после глобальных замен, правки типа, "щаго" на "щего" обычно не так уж и много

                


Re: Возможно ли отсканировать и распознать текст, напечатанный в дореволюционном алфавите?
Буквариус, Православный, РПЦ МП - 18:13 01.06.2004
В дополнение. Если уж приводить текст к современному алфавиту, нужно думать и об орфографии. Например, менять все старые грамматические формы на современные (вроде окончаний прилагательных). А это не всегда можно сделать простым поиском и заменой ("первыя"->"первые/первой"). Проблемы есть, короче...

                


Re: Возможно ли отсканировать и распознать текст, напечатанный в дореволюционном алфавите?
Андрей Лебедев, Православный, РПЦ - 07:45 10.06.2004
Буквариус, Вы писали:
> В дополнение. Если уж приводить текст к современному алфавиту, нужно думать и об орфографии. Например, менять все старые грамматические формы на современные (вроде окончаний прилагательных). А это не всегда можно сделать простым поиском и заменой ("первыя"->"первые/первой"). Проблемы есть, короче...

Не всегда это получается, например, цитаты из Св. Писания на ЦСЯ, имхо, надо и писать, как "первыя", т.е. глобальная замена хороша, когда убираются/заменяются именно яти, еры, ижицы и т.д., , а потом все равно надо править руками по тексту. К сожалению у FR есть глюки с распознаванием даже нормального текста

                


Re: Возможно ли отсканировать и распознать текст, напечатанный в дореволюционном алфавите?
Александр Гольденберг, Православие - 10:01 10.06.2004
Андрей Лебедев, Вы писали:
...проблемы возникают, когда текст набран курсивом.
(цитата из Вашего поста про старорусский текст)
К сожалению у FR есть глюки с распознаванием даже нормального текста

А как эти глюки проявляются, в частности, при распозновании текста со старой орфографией?
Ведь одно дело, если FineReader ошибается в каких-то символах, но помечает их как сомнительные, и совсем другое - если эти ошибочные символы считаются уверенно распознанными.
И о какой версии FineReader идет речь?

                


Re: Возможно ли отсканировать и распознать текст, напечатанный в дореволюционном алфавите?
Андрей Лебедев, Православный, РПЦ - 10:33 10.06.2004
Александр Гольденберг, Вы писали:
> А как эти глюки проявляются, в частности, при распозновании текста со старой орфографией?
> Ведь одно дело, если FineReader ошибается в каких-то символах, но помечает их как сомнительные, и совсем другое - если эти ошибочные символы считаются уверенно распознанными.
> И о какой версии FineReader идет речь?

У меня 6-ая версия

Дело в том, что я не правлю текст в FR. После сканирования, загоняю текст в Word и уже правлю в нем

Ошибки бывают такие, например "Божии" практически всегда распознается как "Божий", "Исаия" как "Исайя", ять курсивная - куча вариантов, ер курсивный часто как мягкий знак, и наоборот ерь как твердый знак.; "яже" как "ассе" и т.д. и т.п. Если еще учесть, что FR старается "предугадать" распознавемое слово, то иногда он может поменять буквы в слове, и соответственно, распознанное слово будет иным чем в тексте.

Если же распознается одновременно русский, английский, греческий, то количество ошибок увеличивается в разы, например русское "то", может распознаться как "to", или тоже самое греческими буквами, или, например "еси", практически всегда распознается как "ecu".

Еще проблема есть со знаками препинания, если они рядом с корешком, в первых пяти-шести строках, они часто пропадают.

                


Re: Возможно ли отсканировать и распознать текст, напечатанный в дореволюционном алфавите?
Александр Гольденберг, Православие - 11:46 10.06.2004
Андрей Лебедев, Вы писали:
> У меня 6-ая версия

Производитель утверждает, что версия 7.0 стала точнее в среднем на 25%, точность распознавания "трудных для чтения" документов увеличилась на 33%.

> Если еще учесть, что FR старается "предугадать" распознавемое слово, то иногда он может поменять буквы в слове, и соответственно, распознанное слово будет иным чем в тексте.

Насколько я понимаю, это может происходить в случае, если к данному языку есть словарь. А к русскому (старая орфография) языку словаря в FR нет.
К тому же, как я понимаю, если FR меняет буквы в слове, то он считает эти символы неуверенно распознанными; следовательно, они будут помечены. Впрочем, это зависит от настроек.

                


Re: Возможно ли отсканировать и распознать текст, напечатанный в дореволюционном алфавите?
Андрей Лебедев, Православный, РПЦ - 12:13 10.06.2004
Александр Гольденберг, Вы писали:
> Производитель утверждает, что версия 7.0 стала точнее в среднем на 25%, точность распознавания "трудных для чтения" документов увеличилась на 33%.

Может быть, надо эту версию FR смотреть. Разница между 4 и 6 на текстах со старой орфографией была разительной за счет поддержки старой орфографии, а на русских текстах, имхо, какая была, такая и осталась.


> Насколько я понимаю, это может происходить в случае, если к данному языку есть словарь. А к русскому (старая орфография) языку словаря в FR нет.
> К тому же, как я понимаю, если FR меняет буквы в слове, то он считает эти символы неуверенно распознанными; следовательно, они будут помечены. Впрочем, это зависит от настроек.

И зависит от словаря русского языка, который поддерживает FR, я уже писал про Божии и Исаию, они распознаются как Божий и Исайя, есть еще несколько слов, т.е. если FR считает, что данное слово написано на русском (при сканировании текста в старой орфографии приходится включать распознавание на русском и старую орфографию), то оно и будет приведено в соответствии с правилами русского языка (например, буква "а" в "ваго", будет распознанного как "о")

                


Re: Возможно ли отсканировать и распознать текст, напечатанный в дореволюционном алфавите?
Киот, Православный РПЦ МП - 13:43 10.06.2004
А где взять этот словарь со старой орфографией?

                


Re: Возможно ли отсканировать и распознать текст, напечатанный в дореволюционном алфавите?
Андрей Лебедев, Православный, РПЦ - 14:07 10.06.2004
Киот, Вы писали:
> А где взять этот словарь со старой орфографией?

А его нет, в FR только словарь русского языка