Беседы о Православии

О сканировании книг для интернета
Братец Дыкъ, православный обнагленец из OCA - 07:37 09.11.2002
Сегодня натолкнулся на небезинтересный для меня ресурс по сабджу:
Distributed Proofreaders http://texts01.archive.org/dp/
Это независимый проект содействия Проекту Гутенберг http://www.gutenberg.net/ - огромной библиотеки электроных текстов на которые истек срок копирайта. Все к сожелению только на англиском :(

Похожая система уже достаточно давно действует и на сайте CCEL:
http://ccel.org/help/facsim/ , а вот как их система выглядит в действии: http://ccel.org/help/facsim/

Жаль что в рунете нет пока ничего подобного, ни для православных библиотек, ни даже дял общих, хотя судя по скоросте пополнения скажем lib.ru , людей в этом заинтересованых - предостаточно. :(

                


Re: О сканировании книг для интернета
Олеговна, православная, РПЦ - 09:52 12.11.2002
Братец Дыкъ, Вы писали:
> Сегодня натолкнулся на небезинтересный для меня ресурс по сабджу:
> Все к сожелению только на англиском :(
> Жаль что в рунете нет пока ничего подобного,
> людей в этом заинтересованых - предостаточно. :(


Сканируем, да.. Костя, а пару слов о сути проекта на русском не скажешь? Чем хорош проект?

                


Re: О сканировании книг для интернета
Братец Дыкъ, православный обнагленец из OCA - 21:13 12.11.2002
Олеговна, Вы писали:
>
> Сканируем, да.. Костя, а пару слов о сути проекта на русском не скажешь? Чем хорош проект?

Оба эти сайта создали весьма похожие системы для расперделенной и массовой подготовки книг для публикации а инете.
Желающие принять участие в этом проекте выбирают кусок работы, размером в одну страницу, система загружает им отсканированую картинку страницы из книги и рядом с ним или под ним окно для ввода текста, в котором уже загружен текст распознаный OCR программой (интересно что Distributed Proofreaders используют наш отечественный FineReader, правда не по-русски честно купленный за 99 USD :) ). Задача добровольца вычитать текст, это весьма напоминает процес вычитки в FR, но менее удобно так как картинка страницы не синхронизирована с текстовым окном и ее приходится скролинговать в ручную. К тому же нет выделением цветом мест в точности распознания которых OCR не уверен.
Зато чтобы принять участие в этом благом деле теперь не надо иметь ни сканер, ни специальные знания, ни тратить на это много времени - даже если делать одну страницу в день (5 минут для ненабившего руку) это все равно будет не малый вклад 300-350 страниц в год. Людей готовых потратить столько времени на это дело гораздо больше чем готовых в одиночку делать целую книгу, тем более большую.
Каждая страница вычитывается как миниум дважды разными людьми плюс координатор книги просматривает помеченые ими места, где например невозможно разобрать текст.
Что бы дать представление о возможностях этого подхода я дам статистику с их сайта с начала ноября этого года они делали более не менее стабильно около 1000 страниц в день, после того как 4 дня назад о них написал крупный новостной сайт slashdot.org они начали делать больше 10 000 страниц в день, сделав больше 15 тысяч в день аннонса. Похоже за этот месяц они сделают больше по объему чем выложенно книг во всех православные интернет библиотеки в руннете вместе взятых.
Конечно адоптируй мы (русскоязычные православные) подобную систему объем был бы намного ниже, так как нас в инете намного меньше.

Вот такой вот краткий обзор.

                


Попытка оценки
Олеговна, православная, РПЦ - 14:29 13.11.2002
Спасибо, Костя.

Не в порядке дискуссии, просто мысли по поводу

Можно рассмотреть часть параметров системы:
· Производительность
· Надежность корректуры ("вычитки" (качество сетевого текста)
· Добровольное начало (энтузиазм)
· Координирование совместного труда

Если ранжировать в порядке убывания значимости параметров, то м.б. на первое место даже надо поставить "координирование"

Добровольцев при такой системе может стать как раз меньше, т.к. работа кропотливо-нудная и напрочь отсутствует хоть какой-то творческий элемент. А точнее, не меньше, а скорее всего будет "распределение энтузиазма".

Тенденция развития сетевых библиотек, конечно, требует внедрения таких систем, несомненно. Может они будут сливаться и укрупняться?

> Конечно адоптируй мы (русскоязычные православные) подобную систему объем был бы намного ниже, так как нас в инете намного меньше.
>

Вот бы еще помимо статистических цифр знать, что за тексты все так дружно ломанулись приуготовлять. Если хочется побыстрее прочесть новый хит-детектив или какое-то подобное чтиво, то все понятно. Но (ты прав!) в деле православного рунета все будет по-другому, взять хотя бы просто нашу "леность обыкновенную". Поговорить все любим, а вот потрудиться на благо..

Подумалось: а вообще-то с помощью такой системы можно было бы за пару дней выложить многотомное "Добротолюбие" - при наличии энтузиастов, конечно; можно вмете составить "Список мечт" :)

                


Re: Попытка оценки
Братец Дыкъ, православный обнагленец из OCA - 21:37 13.11.2002
Олеговна, Вы писали:
> Спасибо, Костя.
>
> Не в порядке дискуссии, просто мысли по поводу
>
> Можно рассмотреть часть параметров системы:
> · Производительность
> · Надежность корректуры ("вычитки" (качество сетевого текста)
> · Добровольное начало (энтузиазм)
> · Координирование совместного труда
>
> Если ранжировать в порядке убывания значимости параметров, то м.б. на первое место даже надо поставить "координирование"
>
> Добровольцев при такой системе может стать как раз меньше, т.к. работа кропотливо-нудная и напрочь отсутствует хоть какой-то творческий элемент. А точнее, не меньше, а скорее всего будет "распределение энтузиазма".

Практика (и мой личный опыт и отзывы людей с DP) показывает, что вычитка при том что она безусловно "работа кропотливо-нудная и напрочь отсутствует хоть какой-то творческий элемент" имет некоторую притягательность. Видимо того же плана как и вязание.

> Тенденция развития сетевых библиотек, конечно, требует внедрения таких систем, несомненно. Может они будут сливаться и укрупняться?

Пока мне известны только две такие системы, у них похожие но различные цели, вряд ли они объединятся, скорее имеет смысл импортировать результаты труда каждой системы в остальные библиотеки.

> > Конечно адоптируй мы (русскоязычные православные) подобную систему объем был бы намного ниже, так как нас в инете намного меньше.
> >
>
> Вот бы еще помимо статистических цифр знать, что за тексты все так дружно ломанулись приуготовлять. Если хочется побыстрее прочесть новый хит-детектив или какое-то подобное чтиво, то все понятно.

Напротив, новый хит-детектив защищен копирайтом его не разместишь в инете по крайне мере в цивилизованых странах.
Этот проект работает только с книгами срок копирайта, на которые уже истек. В основном книги выпущенные до 1926 года. Это сильно сужает выбор, но всеравно остается ОГРОМНОЕ количество хорошей литературы. В рамках DP обрабатываются разные книги от бестселеров тех времен, до трактатов Ньютона, из того, что я там видел и даже вычитал страничку другую: "Эссе о природе человеческого понимания" Локка, "История Пелопоннейской войны", "Путешествия Марко Пола"

> Но (ты прав!) в деле православного рунета все будет по-другому, взять хотя бы просто нашу "леность обыкновенную". Поговорить все любим, а вот потрудиться на благо..
>
> Подумалось: а вообще-то с помощью такой системы можно было бы за пару дней выложить многотомное "Добротолюбие" - при наличии энтузиастов, конечно; можно вмете составить "Список мечт" :)

ИМХО такая система как раз была бы особенно полезна, для больших проектов. Например, подготовить для сети собрание сочинений св. Василия Великого или св. Ефрема Сирина одному человеку практически не реально, особенно, когда они изданы репринтом в старой орфографии, с подобной же системой это можно было бы осуществить за срок порядка месяца, а то и меньше. Простая прикидка 100 человек по одной странице в день - 1500 страниц в месяц (учитывая двойную вычитку) - примерно объем каждого из мобраний сочинений.

Но вот конкретно с Добротолюбием торопиться ИМХО не стоит, не та эта книга чтобы всем желающим в свободный доступ давать. Тем кому она нужна смогут ее и так достать, она несколько раз переиздавалась, а для празднолюбопытствующих ИМХО только лучше что она целиком не в сети. Вполне хватит "Добротолюбия для мирян" выложенного на pagez.ru .

                


Re: Попытка оценки
Kirrr, православный христианин - 02:14 18.11.2002
Костя, а инициатива наказуема - исполнением. Давай займемся, а? У меня все равно пока работы нет. Напиши мне

Кирилл

                


Re: Попытка оценки
Братец Дыкъ, православный обнагленец из OCA - 03:08 18.11.2002
Kirrr, Вы писали:
> Костя, а инициатива наказуема - исполнением. Давай займемся, а? У меня все равно пока работы нет. Напиши мне

Дык, может созвонимся?
Мои позвони мне на мобилку до полуночи: (917) 622 8395
или завтра на работу: (212) 433 5658 или кинь мне свои телефоны, у меня на выходных междугородка бесплатная.

Костя.

                


Re: О сканировании книг для интернета -продолжение
Братец Дыкъ, православный обнагленец из OCA - 01:46 12.11.2002
http://www.theinquirer.net/?article=6167
То же по-англиски :(

P.S.
Надо было мне эту ветку в IT разделе открыть, а так полный offtopic вышел. :(