Список форумов |  Добавить сообщение |  Правила |  12.09.2025, пятница, 03:24:33
СПИСОК ФОРУМОВ
11.09.2025
23:56 Главная гостевая книга библиотеки(5859)
09:07 Обо всем - мнения(3149)
06.09.2025
15:23 "Разыскивается песня", доска объявлений(5441)
02.09.2025
12:08 "Разыскиваются книжки", доска объявлений(15508)
10:11 Проблемы OCR и электронных библиотек(1973)
16.08.2025
07:39 Книжки, которые скоро будут выложены(56)
02.05.2025
21:25 О возвышенной поэзии(1593)
24.02.2025
13:09 Книжки, которые стоит прочитать(5230)
13:05 Водный и всякий туризм(87)
22.02.2025
06:11 Русские впечатления о заграничной жизни(9443)
05:34 Мнения читателей о дизайне библиотеки(1479)
Lib.Ru

Проблемы OCR и электронных библиотек
Тема форума: В этом форуме обсуждаются общие проблемы связанные с поддержкой электронных библиотек и сканированием книг.

А так же обсуждение статьи Вадима Ершова "О коллективных сайтах"

Отсортировано по [убыванию] [возрастанию]   

СООБЩЕНИЯ ЗА 04.01.2003
76. Eugeny, Екатеринбург (odz@etel.ru) 23:13:26 [ответить]
      Уважаемые господа!
      Существует ли способ перевода Ваших текстов из .txt в .pdb, чтобы было удобно всегда носить с собой!
      С уважением,
      Евгений.


75. [марат], н.челны (maratustra@yandex.ru) 14:10:55 [ответить]
      простите,алексей...но вопрос модератору - каким образом я могу "подвесить" на либ перевод произведения (соответственно либ.ру сского)


74. [марат], н.челны (maratustra@yandex.ru) 13:48:35 [ответить]
      ершову (по поводу статьи): не вопрос, а скорее реплика поддержки...


СООБЩЕНИЯ ЗА 03.01.2003
73. алексей, Самара (novator@samaramail.ru) 22:12:03 [ответить]
      На сайте www.lib.ru у меня возникает такая проблема.Не весь текст который я скачиваю, скачивается нормальною.Какаето честь текста представляет собой набер букв и цифр.Как мне с этим справится?


СООБЩЕНИЯ ЗА 02.01.2003
71. Фёдор Москалейчик, Москва (potock@pochtamt.ru) 21:51:23 [ответить]
      КЛАССНАЯ КНИГА!!! PROSTOR.BY.RU
     
     
      Молодой писатель-мистик Фёдор Москалейчик недавно опубликовал свою книгу с эпатажным названием "СОБРАНИЕ СОЧИНЕНИЙ, которые наглая глупость автора осмелилась выставить на суд читателя".
     
      Виртуальная копия книги в виде .zip-архива и on line расположена на сайте prostor.by.ru (а также на зеркале prostor.newmail.ru)
     
      Несмотря на молодость автор уже выработал свой стиль, отличающийся легкостью языка, живой образностью и аффективной насыщенностью.


СООБЩЕНИЯ ЗА 29.12.2002
70. PDF-библиотека, Augsburg (info@imwerden.de) 12:18:33 [ответить]
      > 68. Сергей Сотников.
      > Добрый день.
      > Среди моих pdf-книг есть несколько экземпляров, в которых не разботает сглаживание текста. Не подскажете ли, в чем проблема, и как ее исправить?
     
      Это обозначает, что эти pdf сделаны на компьютерах без правильной установки русских шрифтов. При этом буквы становятся картинками с оптимальным расширением (не большим и не маленьким).
      Помочь в этом случае нечем. PDF-Файл это конечный продукт, как, грубо говоря, распечатанный на бумаге текст.


69. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:58:30 [ответить]
      > 65. pdf-библиотека.
      > По поводу обращения Вадима Ершова. Размышления
      >
     
      > Если признать библиотеку Машкова - главной, то необходимо, чтобы у него были самые разнообразные форматы файлов. Ведь классическая Библиотека - это собрание не текстов, а изданий. Об этом косвенно говорит Вадим.
     
      Впрочем, еще подумав, проблему предотвращения путаницы, на которую я все время указывал, можно решить, приняв предложение авторов проекта "OREL" (и реализованное на ОРЛе и в "Милитерре"), а именно, если тексты, которые будут сгоняться на общие сервера, снабжать объяснительной паспортичкой. Для сканерщиков-библиотекарей, которые держат сравнительно небольшое количество текстов, это было бы вполне по силам. Сложнее тем, у кого текстов уж очень много - тысячи и десятки тысяч. Но для сайтов с объемом до нескольких сот файлов в собственных файлохранилищах это вполне реализуемо.


68. Сергей Сотников, Минск 00:40:39 [ответить]
      Добрый день.
      Среди моих pdf-книг есть несколько экземпляров, в которых не разботает сглаживание текста. Не подскажете ли, в чем проблема, и как ее исправить?


СООБЩЕНИЯ ЗА 27.12.2002
67. Zmiy, Минск (zmiy@inbox.ru) 14:20:42 [ответить]
     
      Для хозяев эл.б-ки www.bestlibrary.ru :
     
      Я НЕНАВИЖУ ДЕБИЛОВ, КОТОРЫЕ УКАЗЫВАЮТ МНЕ ЧЕРЕЗ КАКУЮ СТРАНИЧКУ ВХОДИТЬ НА САЙТ!
     
      ЗАЧЕМ НАСТАВИЛИ СКРИПТОВ НА ЗАГРУЗКУ СТРАНИЧКИ www.bestlibrary.ru/index2.html ??? РАНЬШЕ СПОКОЙНО ЗАГРУЖАЛ ЕЁ, А ТЕПЕРЬ ИДЕТ РЕФРЕШ НА СТАРТОВУЮ СТРАНИЦУ!
     
      С МОИМ ИНТЕРНЕТОМ Я ДОЛЖЕН ПОЛЧАСА ЖДАТЬ ЗАГРУЗКИ ИХ СТАРТОВОЙ СТРАНИЧКИ, ЧТОБ ПОТОМ НАЖАТЬ ССЫЛКУ www.bestlibrary.ru/index2.html И ЕЩЕ ПОЛЧАСА ЖДАТЬ ЗАГРУЗКИ ИХ ГРЁ***ЫХ ФРЕЙМОВ !? Я УЖ НЕ ГОВОРЮ О ЗАГРУЗКАХ СТРАНИЦ АВТОРОВ И СТРАНИЦ ТЕКСТОВ...
     
      СДЕЛАЙТЕ ЕЩЕ БОЛЬШУЮ ВЛОЖЕННОСТЬ! УМА НА ЭТО ВАМ ХВАТИТ!
      ДЛЯ КОГО ВЫ СДЕЛАЛИ СВОЮ БИБЛИОТЕКУ? ДЛЯ СПОНСОРОВ ИЛИ ДЛЯ ЧИТАТЕЛЕЙ???


66. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 02:57:10 [ответить]
      > 65. pdf-библиотека.
      Платонова (то, что отсканировал впервые) Машкову. Он их всё ещё не выложил. В формате txt. Кроме того - послал Вадиму Ершову - он их уже выложил в doc. А у меня всё только в pdf. Таким образом, на трёх страницах лежит одно и тоже, но в трёх разных форматах. Остаётся сделать перекрёстные ссылки и работа закончена...
      > Если признать библиотеку Машкова - главной, то необходимо, чтобы у него были самые разнообразные форматы файлов. Ведь классическая Библиотека - это собрание не текстов, а изданий. Об этом косвенно говорит Вадим.
      Ваши случаи легкие. Это один и тот же текст, только под разными именами в разных форматах, что известно. А когда приходит не очень понятно, что, да под разными именами в разных форматах, то тут уже, действительно, черт ногу сломает. Кто-то при сканинге страницы пропускает/путает, кто-то названия перевирает, а сами-то тексты, как таковые, есть. Проблема выбрать из них лучший, хотя он и с дефектами. Но это может быть даже и вовсе не то, что в заголовке. Конкретный пример. Года 3 назад на philosophy.ru валялась ссылка на "Левиафан" Гоббса. Файл где-то на 700 килов. А внутри файла вовсе никакой не Гоббс, а современная развлекательная текстуля, которая тоже "Левиафан" называется. Библиотекарь выложил без проверки. Такое бывает. Ну, и пошел этот файл до людям множиться и гулять. Вот на какую проблему я указываю. А с тем, что Вы описываете, - ясно. Это-то без проблем.


СООБЩЕНИЯ ЗА 26.12.2002
65. pdf-библиотека, Augsburg (info@imwerden.de) 13:32:39 [ответить]
      По поводу обращения Вадима Ершова. Размышления
     
      Самой лучшей, на мой, конечно, взгляд, была бы специализация библиотек по АВТОРАМ. Например, у меня в библиотеке - полное собрание Евгения Боратынского. Это - моя "специализация". А, например, сочинения Горького меня совершенно не волнуют. Зато Платонов - мой сегодняшний кумир! При этом я послал рассказы Платонова (то, что отсканировал впервые) Машкову. Он их всё ещё не выложил. В формате txt. Кроме того - послал Вадиму Ершову - он их уже выложил в doc. А у меня всё только в pdf. Таким образом, на трёх страницах лежит одно и тоже, но в трёх разных форматах. Остаётся сделать перекрёстные ссылки и работа закончена...
      Если признать библиотеку Машкова - главной, то необходимо, чтобы у него были самые разнообразные форматы файлов. Ведь классическая Библиотека - это собрание не текстов, а изданий. Об этом косвенно говорит Вадим.


СООБЩЕНИЯ ЗА 25.12.2002
64. п пЁп╬я я , п я я -п п╬я п╨ (rubinshteyn2001@yahoo.com) 21:51:00 [ответить]
      п я я я п╣я п╣ п╫п╣п©п╩п╬я п╟я п╠пёп╠п╩пёп╬я п╣п╨п╟ п╫п╟ bestlibrary.ru, пё п©п╬пёя п╨п╬п╡п╟я я пёя я п╣п╪п╟ п╫п╟ kulichki.ru


63. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 02:05:19 [ответить]
      По предложению В.Ершова
      Сама идея - это принцип работы фидошной файлэхи book, распространенный на инет, понятно. Мои замечания. Ни у кого вообще полного комплекта файлов, пробегавших по book, нет, хотя у людей имеются огромные архивы. Что-то по разным причинам в архивы не откладывается и не откладывается вообще нигде. Но тем не менее, имеются, повторяю, огромные архивы. Если тройку-четверку из них в один свести, то с разных узлов вольется в одну воронку дополнительно к совпадающим еще несколько сот книг. И это хорошо, это правильно. Но представим далее, что сводный узел грохнулся, а наполнявшие его, напрасно понадеявшись на его надежность, очистились. Что имеем? Исчезновение одним махом всей коллекции. Поэтому нужна, как минимум, двойная страховка. Правильно? В том же book в точности одни и те же тексты в ha-файлах, пропущенные (продублированные) с интервалом в два года и более, именовались по-разному. Это своего рода вид страховки тоже, где-то оправданный по обстоятельствам, описанным мной здесь выше. Но когда абсолютно идентичные дубли в по-разному поименованных архивах на одном и том же винте лежат, то это нужно, может быть, на случай порчи файлов, чтобы тогда стало можно использовать дубликаты. Но, а как же тогда с каталогизацией? Десятки тысяч файлов-то. В этой же путанице, которая образуется, никто никогда вообще не разберется...


СООБЩЕНИЯ ЗА 19.12.2002
62. Фёдор Москалейчик, Москва (potock@pochtamt.ru) 19:52:29 [ответить]
      КЛАССНАЯ КНИГА!!! PROSTOR.BY.RU
     
     
      Молодой писатель-мистик Фёдор Москалейчик недавно опубликовал свою книгу с эпатажным названием "СОБРАНИЕ СОЧИНЕНИЙ, которые наглая глупость автора осмелилась выставить на суд читателя".
     
      Виртуальная копия книги в виде .zip-архива и on line расположена на сайте prostor.by.ru
     
      Несмотря на молодость автор уже выработал свой стиль, отличающийся легкостью языка, живой образностью и аффективной насыщенностью.


СООБЩЕНИЯ ЗА 17.12.2002
61. Сергей, Н. Новгород (szan@mail.nnov.ru) 15:44:28 [ответить]
      Как в данной библиотеке найти т.н. "бирюльки", которыми ведала в свое время "КП" в рубрике "Verbлюд"?


СООБЩЕНИЯ ЗА 14.12.2002
60. Григорий, Ярославль 22:25:50 [ответить]
      > 59. Izvergue.
      > Помогите разобраться!
      > Отсканировал я книжку и хочу отформатировать её "под Мошкова". Какой прогой это делается?
     
      Смотри тут:
      http://lib.ru/TXT/incoming.txt>http://lib.ru/TXT/incoming.txt
      Также тут вот: http://www.lib.ru/COMPULIB/ocr_bychkov.txt>http://www.lib.ru/COMPULIB/ocr_bychkov.txt
      есть ссылка на прогу: http://www.lib.ru/COMPULIB/ocr_bychkov_textfmt.rar>http://www.lib.ru/COMPULIB/ocr_bychkov_textfmt.rar


59. Izvergue, 13:08:01 [ответить]
      Помогите разобраться!
      Отсканировал я книжку и хочу отформатировать её "под Мошкова". Какой прогой это делается?


СООБЩЕНИЯ ЗА 12.12.2002
57. Фёдор Москалейчик, Москва (potock@pochtamt.ru) 22:28:17 [ответить]
      КЛАССНАЯ КНИГА!!! RPOSTOR.BY.RU
     
     
      Молодой писатель-мистик Фёдор Москалейчик недавно опубликовал свою книгу с эпатажным названием "СОБРАНИЕ СОЧИНЕНИЙ, которые наглая глупость автора осмелилась выставить на суд читателя".
     
      Виртуальная копия книги в виде .zip-архива и on line расположена на сайте prostor.by.ru
     
      Несмотря на молодость автор уже выработал свой стиль, отличающийся легкостью языка, живой образностью и аффективной насыщенностью.


56. Виталий Папилкин, Samara (rio-tv@mail.ru) 14:41:52 [ответить]
      Предлагаю составить рейтинг библиотечно-издательских систем. Господа Участники ЛИТКЛУБА, жду ваших предложений. Какой из ресурсов, по-вашему, должен войти в список для голосования. Сейчас в нем:
     
      - Библиотека Максима Мошкова (Самиздат www.lib.ru).
     
      - Национальный сервер современной прозы (www.proza.ru).
     
      - Самиздат (www.samizdat.sol.ru).
     
      - USERLINE (www.userline.ru).
     
      - Группа 62 (www.group62.ru).
     
      - FAБРИКА.ru (http://www.f-abrika.ru>http://www.f-abrika.ru).
     
      - Локальная сеть на Таганке (http://arch.cpms.ru/office/>http://arch.cpms.ru/office/).
     
      - Самиздат - сателит сайта \"Современной гей-литературы\" (http://leshk.webservis.ru>http://leshk.webservis.ru)
     
      - Литературный журнал \"ПЕРЕФЕРИЯ\". (http://periferia.kulichki.net>http://periferia.kulichki.net).
     
      Жду ваших предложений в течении недели на e-mail, в форме ответов на это сообщение в ЛИТКЛУБЕ, а так же мнений в гостевой книге своего сайта.
     
      Напоминаю вопрос будущего голосования: \"Какая из предложенных ниже библиотечно-издательских систем, по вашему, работает лучших других?\"


СООБЩЕНИЯ ЗА 07.12.2002
55. Equin, 23:31:52 [ответить]
      > Книжечку 19-го века расшивать вряд ли позволят. Я уж не говорю об евангелиях 16-го века, которые открыть лишний раз - страшно.
      > Библиотекари даже просто светить сканерной лампой на бумагу боятся - вдруг она пожелтеет и рассыпется от этого на 40 лет раньше, и изыскивают экзотические сканеры со слабым светом, с зеленой лампой, и т.п. экзотику (за бешенные деньги). В общем - есть проблемы, есть...
     
      > Места, библиотеки, из которых невозможно вынести книгу, а со своим планшетным сканером не пустят: решение - цифровая фотокамера с 4-5Mpix (500-1000$)
     
      Я пробовал для книги формата "примерно половина А4" пользовать 2-х мегапиксельную мыльницу с макрорежимом. После фильтра, убирающего "подушку" изображения + autolevel, файнридер 6 давал 2-3 ошибки на страницу. Единственная проблема - ограниченная память фотоаппарата. Хотя можно сразу в нотбук сливать.


54. Thick-as-a-brick, (toomanyfaces@mail.ru) 11:49:02 [ответить]
      > 53. V.
      > >
      > Дамы,господа и товарищи, берите пример с этого замечательного человека, оперативно сообщайте о таких нечаянных вулканических выбросах в ноосферу, как textz.com , и будет вам щасссте.
     
     
      Вы просите книжков? Их есть у меня!
     
      http://www.blackmask.com/page.php>http://www.blackmask.com/page.php
     
      http://der.nachtwaechter.net/bottomframe.php>http://der.nachtwaechter.net/bottomframe.php
     
      http://artefact.cns.ru/cgi/library.pl?view=abc&letter=3>http://artefact.cns.ru/cgi/library.pl?view=abc&letter=3
     
      http://lib.coolparty.ru/>http://lib.coolparty.ru/
     
      http://greylib.by.ru>http://greylib.by.ru
     
      http://www2.hn.psu.edu/faculty/jmanis/jimspdf.htm>http://www2.hn.psu.edu/faculty/jmanis/jimspdf.htm


СООБЩЕНИЯ ЗА 06.12.2002
53. V, 19:31:26 [ответить]
      > 51. CTAKAH.
      > Максиму Мошкову: по-моему, немецкие подпольщики тексты в сеть грузят. Много всякого. Пока их не прикрыли, стоит может быть чего скачать? (на lib.ru в смысле..:) Или как?
      > http://textz.com>http://textz.com
     
      Дорогой и уважаемый "стакан"!
     
      Ну какой же Вы молодец!
     
      Скачана куча интересных текстов, теперь откуда-то накачать времени и здоровья всё прочесть ;) но всё равно приятно.
     
      Пью здоровье "Стакана" из элегантной рюмочки ;)
     
      Дамы,господа и товарищи, берите пример с этого замечательного человека, оперативно сообщайте о таких нечаянных вулканических выбросах в ноосферу, как textz.com , и будет вам щасссте.


52. vladimir keidan, Roma (v.keidan@tin.it) 17:08:53 [ответить]
      Многоуважаемый Леон Дотан, Вы сканировали и поместили в Библиотеку Машкова книгу И. Бунина "Воспоминания". В тексте книги много ссылок и примечаний, но к сожалению их невозможно открыть и прочитать. Я работаю над книгой о М. Семенове и издательстве "Скорпион". В "Воспоминаниях" есть цитата из статьи Семенова в газете "Русская мысль" со ссылкой 27. Мне очень важно узнать, что скрывается за этой ссылкой. Не могли бы Вы быть так любезны сообщить мне текст этого примечания. Заранее благодарю и готов к взаимным услугам.
      Владимир Кейдан, Рим


СООБЩЕНИЯ ЗА 04.12.2002
51. CTAKAH, 02:58:42 [ответить]
      Максиму Мошкову: помоему немецкие подпольщики тексты в сеть грузят. Много всякого. Пока их не прикрыли, стоит может быть чего скачать? (на lib.ru в смысле..:) Или как?
      http://textz.com>http://textz.com


СООБЩЕНИЯ ЗА 03.12.2002
50. Thick-as-a-brick, (toomanyfaces@mail.ru) 00:39:18 [ответить]
      > 48. Андрей Никитин-Перенский.
      > Всем привет.
     
      Обычные инет вымогатели и ничего больше. Полно их сейчас развелось.
     
      Я чуть не каждый день получаю угрозы занести меня во всевозможные базы рассылок спама и предложения за пару копеек не включать меня в эти базы. Гэбисты самодеятельные...
     
      Кроме того, юридически вопрос авторских прав в инете не урегулирован. Но здесь не об этом речь. Это так - мелкие инетовские шавки.
     
      В игнор.


СООБЩЕНИЯ ЗА 01.12.2002
49. Юрист, Москва 20:37:22 [ответить]
      > 48. Андрей Никитин-Перенский.
      > Ваш сайт просмотрен модератором РОМС и занесен в базу данных организаций и лиц,
      > сообщите об этом нам, чтобы модераторы РОМС исключили Вас из
      > поисково-претензионной базы.
     
      Типичный спам и вымогательство денег.
      Поставьте игнор и не обращайте внимания.


48. Андрей Никитин-Перенский, Аугсбург (info@imwerden.de) 15:52:23 [ответить]
      Всем привет.
     
      Получил письмо от РОМС - вот выдержка:
     
      "Уважаемые владельцы http://www.imwerden.de>http://www.imwerden.de!
      Ваш сайт просмотрен модератором РОМС и занесен в базу данных организаций и лиц, являющихся пользователями по Закону РФ "Об авторском праве и смежных правах".
      Использование охраняемых Законом произведений, исполнений, фонограмм разрешается только на основании договора, заключенного непосредственно с каждым правообладателем, либо на основании лицензии, полученной от специальной организации по коллективному управлению авторскими и смежными правами.
      Если Вы используете на своем сайте произведения и/или фонограммы только на основании письменных договоров с обладателями прав на них, пожалуйста, сообщите об этом нам, чтобы модераторы РОМС исключили Вас из поисково-претензионной базы.
      Если Вы не получили разрешений от правообладателей на использование их произведений, то это повлечет санкции предусмотренные действующим законодательством."
     
      Значит ли это, что мне нужно убрать со страницы всех авторов, обладателей авторских прав. А это и Пастернак и Мандельштам и Ахматова и Окуджава?.. Вот такие дела. Да, они отослали меня на свою страницу http://www.roms.ru>http://www.roms.ru, где можно скачать типовой договор с ними и платить деньги за то, сколько у меня кто скачал файлов. То есть деньги вымогают. Короче я должен платить не только за место в интернете и за то, если у меня скачают больше лимита, но еще и за конкретные скачиваемые файлы. Речь идет о моём самом большом собрании чтения стихов авторами: Бродским, Ахматовой и Пастернаком. Записи, которые достать почти не возможно ни за какие деньги!!!! А у меня лежат бесплатно и скачиваются и слушаются тысячами пользователей, которым нет никакой возможности добыть эти записи в магазине. Короче, я очень расстроен сегодня. Я конечно уберу всё, что противоречит авторскому праву, вот только как спросить наследников Ахматовой о том, можно ли опубликовывать эти чтения ею стихотворений. Да и что это за наследники - Пунины??


СООБЩЕНИЯ ЗА 28.11.2002
47. Максим Мошков, Москва 19:13:45 [ответить]
      > 46. Шумахер.
      > Маленький вопрос.
      > А как быть, если во время прочтения видишь ошибки и очепятки?
     
      http://lib.ru/TXT/incoming.txt>http://lib.ru/TXT/incoming.txt
     
      Приветствуются новые е-тексты интересных с _вашей_ точки зрения книг, а так же - поправки, замечания, вычитанные spellcheck'нутые варианты на замену существующим е-книгам.


46. Шумахер, (mail@shumaher.net) 16:56:54 [ответить]
      Маленький вопрос.
      А как быть, если во время прочтения видишь ошибки и очепятки?
      Ответ "не обращать внимания", несколько обламывает. :)
     
      Есть ли возможность направлять отчет об ошибках? И насколько своевременно они будут исправляться?
      Личного секретаря такими поручениями обременять не хочется, а ресурс Ваш оч полезный.
     
      Спасибо за понимание!
      В надежде на сотрудничество...


СООБЩЕНИЯ ЗА 24.11.2002
45. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 02:35:20 [ответить]
      > 42. Максим Мошков.
      > > 41. Вячеслав Сачков.
      > > проблема тугих переплетов? Дык книжачки можно аккуратненько расшить и переплести по-новой. Такая вещь широко практикуется.
      >
      > Книжечку 19-го века расшивать вряд ли позволят. Я уж не говорю об евангелиях 16-го века, которые открыть лишний раз - страшно.
      > Библиотекари даже просто светить сканерной лампой на бумагу боятся - вдруг она пожелтеет и рассыпется от этого на 40 лет раньше, и изыскивают экзотические сканеры со слабым светом, с зеленой лампой, и т.п. экзотику (за бешенные деньги). В общем - есть проблемы, есть...
      >
     
      16-й век не по моей части, а что касается 19-го, то авторитетно могу утверждать, что все действительно ценные и редкие книги Музея книги Ленинки, например, давным-давно пересняты на 35 мм и читаются они с помощью больших старинных смешных аппаратов немецкого производства. Качество съемки, по-моему, не самое лучшее, попадаются не полностью (без нескольких крайних строк) отснятые страницы, даже иногда имеет место пропуск страниц при съемке, где-то недодержка, где-то передержка, но читать в целом можно. Вопрос поэтому другой - как с этими пленками возиться. И еще есть пленки формата 6 на 9, если не ошибаюсь, американские, на каждой пленке кадров-разворотов, кажется, штук по 40, давно с этим дело имел, плохо помню. Даже уже и забыл, где эти аппараты стояли. Возможно, даже и не в Ленинке, а в каком-то архиве. На них качество текста получше было. Хорошие дорогие сканеры позволяют с такими слайдами (35 мм) работать, но что должно получаться в итоге, представляю слабо. Это все практически проверяется.


СООБЩЕНИЯ ЗА 23.11.2002
44. A.E., (eskov@mailru.com) 18:25:18 [ответить]
      Система распределенной вычитки текстов после OCR - перспективна?
     
      Отсканить текст - не проблема. По появлении некоторых навыков это делается автоматически (одновременно с просмотром телевизора :) и две-три сотни разворотов за вечер осилить можно. Но потом их надо вычитать - и это (по моему опыту) 85% от всех трудозатрат на перевод текста в электронный вид.
     
      Использование всяких общедоступных спелчекеров и персонально созданных программ - эффект дает не слишком высокий (надеюсь, пока) и текст, вычитанный глазами все-таки IMHO заметно "чище", чем тот, что "причесали" автоматизированно. Плюс к этому - смысловые ошибки, кои только головой и можно поймать (в коллекцию приколов ФайнРидера: "Солнце бросало отблеск на яйца моряков"... разумеется - "на лица" :)
     
      Возможным выходом может служить система, при которой на одного сканящего приходится несколько вычитывающих - она работает, но требует сложной организации (FTP, пересылка объемистых tif`ов и четкая координация). Как вариант такой системы меня очень заинтересовал вот этот сайт:
     
      http://texts01.archive.org/dp/>http://texts01.archive.org/dp/
     
      Мое знание английского ("матерюсь со словарем":) не позволяет всесторонне оценить найденное. Вот что пишет человек, с "подачи" которого я туда попал:
     
      ------------- цитата ----------------------------
      Желающие принять участие в этом проекте выбирают кусок работы, размером в одну страницу, система загружает им отсканированую картинку страницы из книги и рядом с ним или под ним окно для ввода текста, в котором уже загружен текст распознаный OCR программой. Задача добровольца вычитать текст, это весьма напоминает процес вычитки в FR, но менее удобно так как картинка страницы не синхронизирована с текстовым окном и ее приходится скролинговать в ручную. К тому же нет выделением цветом мест в точности распознания которых OCR не уверен.
      Зато чтобы принять участие в этом благом деле теперь не надо иметь ни сканер, ни специальные знания, ни тратить на это много времени - даже если делать одну страницу в день (5 минут для ненабившего руку) это все равно будет не малый вклад 300-350 страниц в год. Людей готовых потратить столько времени на это дело гораздо больше чем готовых в одиночку делать целую книгу, тем более большую.
      Каждая страница вычитывается как миниум дважды разными людьми плюс координатор книги просматривает помеченые ими места, где например невозможно разобрать текст.
      Что бы дать представление о возможностях этого подхода я дам статистику с их сайта с начала ноября этого года они делали более не менее стабильно около 1000 страниц в день, после того как 4 дня назад о них написал крупный новостной сайт slashdot.org они начали делать больше 10 000 страниц в день, сделав больше 15 тысяч в день аннонса. Похоже за этот месяц они сделают больше по объему чем выложенно книг во всех православные интернет библиотеки в руннете вместе взятых."
      ...
      Похожая система уже достаточно давно действует и на сайте CCEL:
      http://ccel.org/help/facsim/>http://ccel.org/help/facsim/ , а вот как их система выглядит в действии


42. Максим Мошков, 13:09:45 [ответить]
      > 41. Вячеслав Сачков.
      > проблема тугих переплетов? Дык книжачки можно аккуратненько расшить и переплести по-новой. Такая вещь широко практикуется.
     
      Книжечку 19-го века расшивать вряд ли позволят. Я уж не говорю об евангелиях 16-го века, которые открыть лишний раз - страшно.
      Библиотекари даже просто светить сканерной лампой на бумагу боятся - вдруг она пожелтеет и рассыпется от этого на 40 лет раньше, и изыскивают экзотические сканеры со слабым светом, с зеленой лампой, и т.п. экзотику (за бешенные деньги). В общем - есть проблемы, есть...
     
      > 40. Григорий.
      > по соотношению цена/эффективность действия (в нашем конкретном случае - ч/б сканирование) равных дешевым скази планшетникам нет.
     
      Не вопрос, все верно. По цене, эффективности - да.
     
      Речь идет о некоторых видах использования, где этот "народный" вариант - "не катит".
      А именно - редкие, старые книги, тугая ветхая обложка: решение - Сканер-"Гусь" (10,000-25,000$)
     
      Места, библиотеки, из которых невозможно вынести книгу, а со своим планшетным сканером не пустят: решение - цифровая фотокамера с 4-5Mpix (500-1000$)
     
      Или когда надо сканировать очень много: решение - промышленный сканер с разрезалкой (30,000-100,000$)


41. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:49:35 [ответить]
      1. А к чему си мудрости-премудрости со сканом под углом 90? В FR есть простенькая штучка, называется постраничное сканирование. Правда, на каждой страничке приходится лишний раз давить на мыша, но это не вагоны с дровами разгружать по тяжести процесса. Все дела. Или имеется в виду проблема тугих переплетов? Дык книжачки можно аккуратненько расшить и переплести по-новой. Такая вещь широко практикуется. Если это не шибко редкая и ценная книга, то я не вижу тут никаких вопросов.
      2. Кто-нибудь в курсе, какие дела с сайтом "Словесник" (www.slovesnik.ru). Была такая чудная-прекрасная библиотека, потом на нее налегли, извиняюсь за выражение, представительницы перекрасного полу и сделали из домена нечто суперпошлое и -похабное. Дальше-то как?


СООБЩЕНИЯ ЗА 22.11.2002
40. Григорий, Ярославль 00:06:52 [ответить]
      > 39. Максим Мошков.
      > > 38. Григорий.
      > > Только сканер такой сканер дорого стоит.
      >
      > A ты сверху цифровой фотоаппарат на штативе прикрути и лампу галогеновую, для равномерного освещения.
      >
      > Конечно, подороже обойдется, чем обычный планшетник - но ведь подешевле, чем те монстры, что у Перли стоят или у elibron'а.
     
      Мысль хорошая. Только мне кажется, что по соотношению цена/эффективность действия (в нашем конкретном случае - ч/б сканирование) равных дешевым скази планшетникам нет. Однако, я могу и ошибаться.


СООБЩЕНИЯ ЗА 21.11.2002
39. Максим Мошков, 00:49:16 [ответить]
      > 38. Григорий.
      > Только сканер такой сканер дорого стоит.
     
      A ты сверху цифровой фотоаппарат на штативе прикрути и лампу галогеновую, для равномерного освещения.
     
      Конечно, подороже обойдется, чем обычный планшетник - но ведь подешевле, чем те монстры, что у Перли стоят или у elibron'а.


СООБЩЕНИЯ ЗА 20.11.2002
38. Григорий, 18:04:23 [ответить]
      > Смысл этой штуки элементарен - ставится деревянная подставка-уголок, градусов на сто, в него вкладывается книга - полураскрытая, и уголок сперва одной стороной прижимают к горизонтали, а затем - другой. А сканер, естественно, с верхним с'емом (вроде фотоувеличителя по виду)
     
      Только сканер такой сканер дорого стоит.


37. Максим Мошков, 13:47:17 [ответить]
      > 32. Григорий.
      > В ленинке есть такая штука, позволяет сканить книги разворачивая только 90 град. Но больше такой штуки в России наверно нет.
     
      Вообще-то такую штуку любой столяр выпилит и склеит из мебельного щита и нескольких дверных петель. За полдня и за тысячу рублей.
     
      Смысл этой штуки элементарен - ставится деревянная подставка-уголок, градусов на сто, в него вкладывается книга - полураскрытая, и уголок сперва одной стороной прижимают к горизонтали, а затем - другой. А сканер, естественно, с верхним с'емом (вроде фотоувеличителя по виду)
     
      Что до использования цифровых фотоаппаратов для перес'емки и OCR книг - то действительно, особых проблем с их использованием не будет.
     
      Новые модели 4М-пиксельных (2270x1700) фотокамер начинаются от 450$.
      Из них я себе присмотрел Nikon CoolPix 4300 за 510$
     
      http://guru.yandex.ru>http://guru.yandex.ru - на выбор около десятка предлагает по ценам 450-650$.
     
      Цена 256Мб компактфлэшки - 80$ (ее хватит на 100-200 снимков)
      512Мб - 150$
     
      MicroDrive 1Gb - 450$
     
      Таким образом вполне работоспособный комплект для мобильной перес'емки книг можно собрать сейчас за 600$


36. Соколов, Н.Новгород (sokolov_av@pochtamt.ru) 11:20:22 [ответить]
      > 31. Zmiy.
     
      Когда я оценивал необходимое разрешение для цифрового фотоаппарата (планировал когда-то взять - удобно для работы вне дома), то в принципе для одной страницы (125х200) достаточно разрешения 2048х1536 (это примерно 250-300 dpi). Приемлемое качество и при 1600х1280. Сейчас есть и на 4096х3072, но стоят они, увы, бешеные бабки. А у дешевых (порядка до 300$) разрешение до 1280х1024.
      А насчет ручных сканеров: требуемое поле сканера не менее 4,5 дюймов (лучше 5), чтоб работать без учета перекрытия. У большинства же ручных сканеров это поле - 4 дюйма. Вторая проблема - нужно иметь два связанных ролика (они отсчитывают расстояние, кстати мнение о том, что ручные сканеры тянут связано с тем, что встроенный процессор при быстром движении не успевает обработать данные в кэше и некоторые линии удаляются) - до и после лампы, иначе возникают проблемы на краях листа. Еще одно требование - ширина от боковых границ сканера до лампы не должна превышать 0,4 дюйма, а опять же большинство сканеров имеют 0,5 и выше.
      Кстати, есть строчные сканеры типа С-Pen. Но это для любителей.
      HP CapShare 910/920 имеет малую ширину - 4 дюйма и дорог.
      А насчет того, что сканер в Ленинке один - я думаю, что остальные подобные не являются общедоступными.


35. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:59:08 [ответить]
      1. Гнустные типы в FR не сделали такой фичи типа сдвоенного русско-немецкого словаря на вычитку, а латинский изволь сам делай ручками. В гайде они написали, как ручками сдвоенные словари делать. Но это мудренее талмуда. И как жить сирым убогим крестьянам? Просто достало латинские слова в английский словарь сувать. Да и не дело это совершенно.
      2. В 6-м FR-e еще такая гаисть. Идет, допустим, нормальный русско-английский текст. Встречается немецкая фраза с умляутами или французская со значками ударения вправо-влево. Вызываешь, есесьно, соответствующий словарь, а он выдает словоформы без над/подбуквенных значков, и хучь ты убейся. Самое обидное при этом то, что ручками соответствующий символ, как в ворде, не вставишь, запоминай это место, возвращайся к нему при вычитке потом. А в 5-м FR словоформы с умляутами выдавались пучком. Апгрейдеры недорезанные...


СООБЩЕНИЯ ЗА 15.11.2002
33. Abolin, 10:59:46 [ответить]
      > Цифровые фотоаппараты не подходят для OCR - у них слишком малое разрешение...
     
      Ну, смотря какие аппараты...
     
      Вот, почитайте - http://forum.ixbt.com/0020/003448.html>http://forum.ixbt.com/0020/003448.html


СООБЩЕНИЯ ЗА 14.11.2002
32. Григорий, Ярославль 01:41:28 [ответить]
      > 30. Евгения.
      > У нас стоит проблема оцифровки редкого фонда, книги
      > довольно старые, мы переживаем за их состояние
      > после сканирования. Посоветуйте, каким образом лучше оцифровывать текст? Если сканером, то каким? А может лучше цифровым фотоаппаратом?
     
      В ленинке есть такая штука, позволяет сканить книги разворачивая только 90 град. Но больше такой штуки в России наверно нет.


СООБЩЕНИЯ ЗА 13.11.2002
31. Zmiy, Минск (zmiy@inbox.ru) 12:11:09 [ответить]
      > 30. Евгения.
      > У нас стоит проблема оцифровки редкого фонда, книги
      > довольно старые, мы переживаем за их состояние
      > после сканирования. Посоветуйте, каким образом лучше оцифровывать текст? Если сканером, то каким? А может лучше цифровым фотоаппаратом?
     
      Цифровые фотоаппараты не подходят для OCR - у них слишком малое разрешение...
      Я слышал, что у нас в Нац.Биб-ке Беларуси какие-то редкие старые книги оцифровали... Попробуйте с ними связаться и уточнить такие вопросы (см. контакты на http://natlib.org.by/>http://natlib.org.by/).
      От себя - можно пробовать планшетным (ну не рвать же книги!) или ручным сканером... Ну а в крайнем случае, если там картинки, то набрать текст вручную, а картинки уж фотоаппаратом...


30. Евгения, Иваново (janestar@yandex.ru) 10:10:21 [ответить]
      У нас стоит проблема оцифровки редкого фонда, книги
      довольно старые, мы переживаем за их состояние
      после сканирования. Посоветуйте, каким образом лучше оцифровывать текст? Если сканером, то каким? А может лучше цифровым фотоаппаратом?


СООБЩЕНИЯ ЗА 12.11.2002
29. Соколов, Н.Новгород (sokolov_av@pochtamt.ru) 10:15:47 [ответить]
      > 15. Zmiy.
      > Вопрос ко всем :
      > Q: У кого какой сканер, его цена и скорость сканирования в час для разворота книжки обычного(самого распространенного) формата?
     
      У меня Primax Colorado Direct 4800 (LPT) 1997 г. Цена была 200$. Скорость 350 обычных (125х200) стр. в час. Выбирал месяца два. Сейчас, правда, уже совершенно не катят цветные изображения (5 лет работы все-таки). И у меня есть новый Epson 1250 (USB) для них (черно-белый, увы, на нем не катит). А LPT был выбран для переносимости - USB тогда не было.
     
      А в принципе, максимальная скорость - 400 обычных стр. Больше уже чересчур хлопотно.
     
      А насчет вычитки: я, как и Григорий, уже 3 года как разочаровался во всех spellcheck'ерах и программухах и гоню все как TXT с сохранением формата. Сначала, правда, пытался составить список стандартных ошибок FR, но где-то на 500-й плюнул. Причем в FR отслеживаю только выделения и правильность выделения абзацев. Все остальное можно сделать и в Word'е.
     
      На счет заглавных букв добавлю "Д" и то, что они появляются при перекосе, согласен.


28. Кир Санов, Кемерово (rabbi-t@kemcity.ru) 06:49:53 [ответить]
      имеюца отсканированные буки. треба окаэрщика. оп всем вопросам на мыло.
     
      Кюртис - Молодожены
      У. Фолкнер - Деревушка (Поселок)
      Э. Ионеско - Лысая певица
      П. Лэне - Кружевница
      Ле Клезио - Мондо
      З. Ленц - Урок немецкого
      А. Мердок - Дитя слова
      Э. Олби - Что случилось в зоопарке
      Ж. Перек - Вещи
      Ф. Саган - Немного солнца в холодной воде
      Н. Саррот - Детство
      Триоле - Луна-парк. Розы в кредит.
      Э. Тайле - Обед в ресторане "Тоска по дому"
      Данные книги снанились для сдачи экзамена по истории зарубежной литературы на старших курсах филфака и ргф. распознав их, вы поможете очень многим людям, впрочем возможно и себе, так как некоторые книги очень редки.
      Далее учебники:// 1. Galperin I.R. Stylistics of English Language (уже почти весь распознан)
      2. Иванова, Чахоян - История английского языка
      3. Зражевская, Гуськова - Трудности перевода общественно-политического текста с англ. яз на русский.
      4. Брайент Дж. Кретти - Психология современного спорта.
      В общем, отцы и дети OCR, не поленитесь :)


СООБЩЕНИЯ ЗА 11.11.2002
24. Григорий, Ярославль 01:46:19 [ответить]
      > 23. Zmiy.
      > > 22. Григорий.
      > > А можно поделиться с общественностью ╚методикой╩?
      >
      > Ну-у... Если чуть-чуть... -------------;-)
      >
      > Я обрабатываю текст в FARе в формате TXT. Написал несколько программ и плугинов к FARу...
     
      > Вот... Все как есть выложил... ----------------:-)
      > По крайней мере качество на уровне обычной вычитки получается...
     
      Думал над чем-то таким же...
      Но пришел к выводу, что раз все равно контроль человеческий нужен, то в качестве облегчителя работы использую только свору банальных поисков\замен наработанных. Кстати, фирменная "штучка" ФР - большие буквы - проявляется только при наличии маломальского перекоса страницы >2', и затрагивает только буквы Э и З. По крайней мере у меня.


СООБЩЕНИЯ ЗА 10.11.2002
23. Zmiy, Минск (zmiy@inbox.ru) 22:17:00 [ответить]
      > 22. Григорий.
      > А можно поделиться с общественностью ╚методикой╩?
     
      Ну-у... Если чуть-чуть... -------------;-)
     
      Я обрабатываю текст в FARе в формате TXT. Написал несколько программ и плугинов к FARу...
      После FR сохраняю в TXT причем в вариантах с делением на строки и без деления, и сразу же ищу по тексту " - это мусор (кавычки обычно ╚ и ╩), далее одна из прог по этим двум текстам, анализируя их, делает один текст DOS-кодировки, где исправляются некоторые слияния знаков препинания, удаляются лишние пробелы, корректируются абзацы (поэтому два TXT) и др.
      Далее по картинкам проверяю ВСЕ абзацы, объединяю страницы, делаю отступы глав, оформляю сноски... Вот самое нудное - проверка абзацев - ну вот FR все равно или склеивает их или разделяет, что ты с ним не делай... Хотя анализ из двух TXT немного исправляет это дело, но все же не все варианты...
      Далее проверка текста. Один из плугинов по горячей клавише останавливается в том месте редактора, где есть какая-нить неопределенность в тексте. Тут проверяются знаки препинания (какие возможны, а какие нет - варианты типа .., не пройдут!); буквы искаженные в цифры или в англ.буквы; мусор из не-букв (типа &*%); слова неправильно распознанные и пропущенные FR при проверке (типа па, пего, опа, тапки, руной ... - уже 1000 слов таких насреблос); слова с больших букв (тоже "фича" от FR); после .!? новое предложение должно быть с большой буквы; слова с тире до/после слова; искажения типа "о вместо но, или "ад вместо над; а и но должны обычно после запятой; и др.
      Другой плугин с небольшой прогой используется для поиска пропавших/искаженных точек/запятых и искаженных первых букв слова (по словарю проверяет текст - обычные слова с большой буквы только после .!? и т.д.).
     
      Вот... Все как есть выложил... ----------------:-)
      По крайней мере качество на уровне обычной вычитки получается...


22. Григорий, 15:08:53 [ответить]
      > 21. Zmiy.
     
      > У меня своя методика "вычитки", основанная на правилах русского языка и на выявленных недостатках FR, который может сделать "в бой пошли тапки и самолеты" и при проверке пропустит эту лажу...
     
      А можно поделиться с общественностью ╚методикой╩?
      Я предпочитаю читать вообще. В смысле - и не скучно и польза, и для души. Размеренно вчитываюсь в каждое слово, особо не торопясь.
      Чистым просмотром обрабатываю только те, которые надо сделать, а читать либо невыносимо, либо нет никакого желания. А стихи все равно приходится полностью вручную, постоянно сверяясь с оригиналом.
      А FR, особенно четвертый, можно использовать в качестве генератора ╚гэгов╩.
      Как, например, такое ╚осеняя себя крестным знамением из церкви выбежали нацисты╩.
      Были конечно ╚паписты╩.


21. Zmiy, Минск (zmiy@inbox.ru) 12:38:34 [ответить]
      > 18. Григорий.
      > Без вычитки конечно обойтись можно. Но такие поделки на бестлибрари даже просматривать противно. Лучше уж никак.
      > Потому маньяки вроде нас и существуют как вид, что контролировать все равно должен человек.
     
      А вот я признаюсь - я не вычитываю книжки... -------------;-)
      У меня своя методика "вычитки", основанная на правилах русского языка и на выявленных недостатках FR, который может сделать "в бой пошли тапки и самолеты" и при проверке пропустит эту лажу...
      Было вычитано чтением где-то около 5 книг, где книжки были просто в ужасном состоянии и методика не прошла...
      По крайней мере у мя качество вычитки намного лучше большинства тутошних (интернетных) текстов. Хотя и у меня есть ошибки...
      Тем более, что я брал несколько инетных текстов, да и после вычитки других тоже, и проверял по своему варианту - ошибки тоже были... Все таки когда читаешь, да еще захлебом что-нить интересное, то ошибки не замечаешь и пропустишь... Сложно и вникать в текст и проверять ошибки...
      (Для тех, кто пробовал - про AfterScan говорить не будем -------------;-) )


Continue