Список форумов |  Добавить сообщение |  Правила |  12.09.2025, пятница, 05:30:35
СПИСОК ФОРУМОВ
12.09.2025
04:43 Главная гостевая книга библиотеки(5861)
11.09.2025
09:07 Обо всем - мнения(3149)
06.09.2025
15:23 "Разыскивается песня", доска объявлений(5441)
02.09.2025
12:08 "Разыскиваются книжки", доска объявлений(15508)
10:11 Проблемы OCR и электронных библиотек(1973)
16.08.2025
07:39 Книжки, которые скоро будут выложены(56)
02.05.2025
21:25 О возвышенной поэзии(1593)
24.02.2025
13:09 Книжки, которые стоит прочитать(5230)
13:05 Водный и всякий туризм(87)
22.02.2025
06:11 Русские впечатления о заграничной жизни(9443)
05:34 Мнения читателей о дизайне библиотеки(1479)
Lib.Ru

Проблемы OCR и электронных библиотек
Тема форума: В этом форуме обсуждаются общие проблемы связанные с поддержкой электронных библиотек и сканированием книг.

А так же обсуждение статьи Вадима Ершова "О коллективных сайтах"

Отсортировано по [убыванию] [возрастанию]   

СООБЩЕНИЯ ЗА 10.11.2002
20. Zmiy, Минск (zmiy@inbox.ru) 12:27:38 [ответить]
      > 16. Thick-as-a-brick.
      >
      > 1. Книжки в мягкой обложке (e.g. Penguin, Bantam) трудно раскрыть на 180 град. А если это толстый роман на достаточно плотной бумаге - вообще невозможно. И после одного прочтения такие книжки практически теряют "товарный вид". Так что, имхо, рЭзать и только рЭзать. Не жалко.
     
     
      Ну, если это книшки в мягкой обложке, да еще клееные, а не сшитые тетрадками, то да - кошмар. У мя одна такая распотрошеная до сих пор лежит (моя - не чужая ----------:-) )...
      Хотя, вот сканил таких два тома Станюковича по 450 стр. - так не порвались и отлично сканились (там клея достаточно наложили, что листы не отрывалис...).
     
     
      >
      > 2. Ну не хочу я еще и после работы час или два страницы перед компом переворачивать. Лучше уж блины на сковородке :) (Да и комп не один)
     
     
      А вот это, батенька, называется ЛЕНЬ! --------------;-)
     
      >
      > А вот такой вопрос -
      >
      > При распознавании обычной книги на англ., к примеру, - простая верстка в один столбец, без иллюстраций, на бумаге средней серости, шрифтом средней мелкости - СКОЛЬКО ОШИБОК БУДЕТ НА СТРАНИЦУ? Одна на 10 страниц или 10 ошибок на страницу? Т.е. можно ли без вычитки обойтись?
     
      Книжка-книжке рознь! Бывает книги на одинаковой бумаге, а начнешь сканить - на одной без ошибок, а на другой - море...
      Поэтому - как повезет...


19. Zez, (anatoly52@hotmail.com) 11:41:20 [ответить]
      Уважаемый г-н Мошков!
      Зачем выкладывать невычитанные книги?
      Заглянул в "Назову себя Гастенбайн" Макса Фриша, появившийся
      в библиотеке 9-го ноября, так текст совершенно не вычитан и
      полно ошибок.Читать этот текст все равно никто не станет -
      невозможно, так зачем выкладывать.
      Да, хотел спрсить когда мои тексты у Вас появятся, а то мне
      кажется что я книги для самого себя сканирую.
      Спасибо за внимание.


18. Григорий, Ярославль 00:57:29 [ответить]
      > 16. Thick-as-a-brick.
     
      > 2. Ну не хочу я еще и после работы час или два страницы перед компом переворачивать. Лучше уж блины на сковородке :) (Да и комп не один)
     
      А новости смотришь - и переворачиваешь. Вот тебе и час. :)
     
      >
      > А вот такой вопрос -
      >
      > При распознавании обычной книги на англ., к примеру, - простая верстка в один столбец, без иллюстраций, на бумаге средней серости, шрифтом средней мелкости
     
      > - СКОЛЬКО ОШИБОК БУДЕТ НА СТРАНИЦУ? Одна на 10 страниц или 10 >ошибок на страницу? Т.е. можно ли без вычитки обойтись?
     
     
      Весьма и весьма туманное определение.
      Газетная бумага и 10-ка шрифт?
      Тогда, если вкраплений на бумаге нет ошибок немного. 1-2 на страницу. При качественной офсетной печати и не глянцевой бумаге - ошибок _практически_ нет вообще. В реальности это менее 1 на 10 разворотов. Но такое бывает редко.
     
      Без вычитки конечно обойтись можно. Но такие поделки на бестлибрари даже просматривать противно. Лучше уж никак.
      Потому маньяки вроде нас и существуют как вид, что контролировать все равно должен человек.


17. Григорий, Ярославль 00:48:16 [ответить]
      > 15. Zmiy.
      > Вопрос ко всем :
      > Q: У кого какой сканер, его цена и скорость сканирования в час для разворота книжки обычного(самого распространенного) формата?
     
      Сейчас основные сканеры:
      Mustek 12000 SP Plus (SCSI) скорость сканирования А4 (300дпи) примерно 30 сек. С учетом обратного хода - чуть больше разворота в минуту. Тк. медленный обратный ход. Зато недорого.
      Acer 640S (SCSI) - проход - чуть быстрее, откат быстрый. Гасит лампу.
     
      Замечательны (из опробованных планшетников) старые Хьюлеты - 4c например. 15-20 сек сканирование 10 - обратный ход. Гасит лампу при обратном ходе - тоже плюс. Только не достать их теперь.
     
      Совершенно глупо использовать дорогие с высокой цветопередачей сканеры. Они перед каждый проходом греют и калибруют лампу.
      Вывод - чем дешевле (проще) - тем лучше.
      SCSI - быстрее чем USB. Правда, такой вывод только на основании личного опыта.
     
      > У меня Mustek 1200CU (USB). Цена до 70$. Скорость 200 стр. в час (100 разворотов).
     
      Быстро. Меняю представление о ЮСБ.
     
      > Я сканю и распознаю сразу, чтоб видеть ошибки распознавания и соответствующе корректировать яркость...
     
      Корректирую яркость только в начале сканирования и меняю только в случае, если вижу, что качество печати меняется. Распознаю пакетно. По ночам. Правда после выделения блоков - просматриваю. Особенно если стихи. Бывает такое запилит...
     
      > Как понимать Thick-as-a-brick "страницы плохо раскрываются"??? Уточни...
      > Как понимать Thick-as-a-brick "И времени нет"??? --------------;-) Компьютер-то и так занят... (если он один...)


СООБЩЕНИЯ ЗА 09.11.2002
16. Thick-as-a-brick, (toomanyfaces@mail.ru) 23:30:21 [ответить]
      > 15. Zmiy.
     
      > Как понимать Thick-as-a-brick "страницы плохо раскрываются"??? Уточни...
      > Как понимать Thick-as-a-brick "И времени нет"??? --------------;-) Компьютер-то и так занят... (если он один...)
     
      1. Книжки в мягкой обложке (e.g. Penguin, Bantam) трудно раскрыть на 180 град. А если это толстый роман на достаточно плотной бумаге - вообще невозможно. И после одного прочтения такие книжки практически теряют "товарный вид". Так что, имхо, рЭзать и только рЭзать. Не жалко.
     
      2. Ну не хочу я еще и после работы час или два страницы перед компом переворачивать. Лучше уж блины на сковородке :) (Да и комп не один)
     
      А вот такой вопрос -
     
      При распознавании обычной книги на англ., к примеру, - простая верстка в один столбец, без иллюстраций, на бумаге средней серости, шрифтом средней мелкости - СКОЛЬКО ОШИБОК БУДЕТ НА СТРАНИЦУ? Одна на 10 страниц или 10 ошибок на страницу? Т.е. можно ли без вычитки обойтись?


15. Zmiy, Минск (zmiy@inbox.ru) 22:46:12 [ответить]
      Вопрос ко всем :
      Q: У кого какой сканер, его цена и скорость сканирования в час для разворота книжки обычного(самого распространенного) формата?
     
      У меня Mustek 1200CU (USB). Цена до 70$. Скорость 200 стр. в час (100 разворотов).
      За время обратного хода я успеваю переворачивать страницы, а если будет 500 стр. в час - так ить запыхаться можно переворачивать-та... --------------:-)
     
      Я видел один сканер со SCSI, так оно вешало всю машину на время передачи данных. Мне не понравилось...
      В цену SCSI-сканера войдет еще и стоимость SCSI-карточки...
      Я против потрошения книг. ------------;-) Книжка то может быть чужая...
      Я сканю и распознаю сразу, чтоб видеть ошибки распознавания и соответствующе корректировать яркость...
      Как понимать Thick-as-a-brick "страницы плохо раскрываются"??? Уточни...
      Как понимать Thick-as-a-brick "И времени нет"??? --------------;-) Компьютер-то и так занят... (если он один...)


14. Thick-as-a-brick, (toomanyfaces@mail.ru) 16:32:10 [ответить]
      Ну зачем же сразу - промышленный :)
     
      У нас на прежней работе был сканер с фидером, но забыл какой. Но стоил он разумеется не 20 тыс.
     
      Меня бы устроил принтер со скан. головкой до 300-500 долл.
      Сканировать на планшетном не хочу. Пробовал. И долго и страницы плохо раскрываются, вследствие чего текст кривой и распознается плохо. И времени нет.
     
      А вот при сканере с фидером скорость не важна. Поставил, включил и иди чай пить. Пусть хоть всю ночь сканирует.


13. Максим Мошков, 14:53:33 [ответить]
      > 11. Григорий.
      > Нереально сканировать сканером с автоподачей
     
      Очень даже реально. У Леона такой, с автоподачей - он хвастался - книжка в мягкой обложке - за 23 минуты.
     
      > Вопрос цены. Стоимость хорошего промышленного сканера заоблачна во всех смыслах.
     
      Не заоблачна. Всего 20-30 тысяч долларов.
      Хотя, конечно, это побольше, чем 100$ за обычный планшетник.


12. Максим Мошков, 14:48:35 [ответить]
      Лучший сканер для OCR книг - HP ScanJet II - чернобелый, 300dpi, со SCSI-интерфейсом. Я один такой покупал за 30$. Увы, на 500-й книжке он скончался.
     
      Главное, на что надо смотреть - максимальная скорость прохода, ускоренный обратный ход (чтоб назад каретка двигалась быстрее, чем при сканировании), возможность отключить автоподбор яркости (отнимает много времени на каждой странице) и чтобы ФИнеРеадер знал эту модель и мог работать с ней сам, не вызывая твейн-интерфейс. И обязательно SCSI - перекачка kartinki через USB и _особенно_ через LPT - существенно дольше, чем по SCSI.
     
      HP ScanJet II сканировал со скоростью 4 разворота в минуту - т.е. 500-страничная книжка за час-полтора.
      Фидер не нужен, потому что собственно скорость сканирования - 1-2 часа, по сравнению с остальными затратами времени (2-4 часа на полуавтоматический спеллчек и корректуру, и 12 часов на вычитку) - непринципиальны.
     
      Конкретные удовлетворительные модели народ, надеюсь, назовет.


11. Григорий, 14:23:20 [ответить]
      > 10. Thick-as-a-brick.
      > Уже давно хотел бы заняться сканированием книг, особенно на инстранных языках, которые по понятным причинам очень трудно найти в инете, но не заню
      >
      > КАКОЙ СКАНЕР ВЫБРАТЬ.
      >
      > Сканировать планшетным сканером - нереально, имхо.
      Очень даже реально. Тысячи метров текста пересканированы именно планшетными сканерами. Да весь lib.ru отсканирован планшетными. Нереально сканировать сканером с автоподачей, как вы предлагаете. Вопрос цены. Стоимость хорошего промышленного сканера заоблачна во всех смыслах.
     
      >
      > Какие есть мнения?


СООБЩЕНИЯ ЗА 05.11.2002
10. Thick-as-a-brick, (toomanyfaces@mail.ru) 21:36:14 [ответить]
      Уже давно хотел бы заняться сканированием книг, особенно на инстранных языках, которые по понятным причинам очень трудно найти в инете, но не заню
     
      КАКОЙ СКАНЕР ВЫБРАТЬ.
     
      Сканировать планшетным сканером - нереально, имхо. Я бы хотел купить какой-то сканер с фидером и при помощи его сканировать книжки в мягкой обложке предварительно распотрошив их на отдельные страницы.
     
      Или м.б. есть принтеры со сканирующей головкой, способные читать из пачки страниц.
     
      Какие есть мнения?


СООБЩЕНИЯ ЗА 02.11.2002
9. V.Voblin, 18:43:13 [ответить]
      Замечательные новые тексты:
     
      Сергеев-Ценский, Айрис Мэрдок, Болеслав Прус, Юрий Герман - чудесно!
     
      Спасибо Максиму, спасибо героям OCR-a Zmiy & HarryFan!!!


СООБЩЕНИЯ ЗА 01.11.2002
8. Remnanta, Одесса (remnanta@ukr.net) 21:24:57 [ответить]
      Ваша librari - просто чудо!!!
      Но наладте "поиск".Пожалуста!!!!!!!!!!!!!!!!


СООБЩЕНИЯ ЗА 28.10.2002
7. bmn, 08:53:05 [ответить]
      > 6. В.Воблин.
      > Спасибо за ответ.
      Да, пожалуйста :))
      >
      > Хочу тоже попробовать. ПОдскажите, пожалуйста, о каких декоративных шрифтах идёт речь. Может, даже есть картинка в онлайне, на которой можно "прокатать" FR с целью воспроизвести Вашу ситуацию. Спасибо заранее.
     
      Шрифт, по моему, назывался Bodoni Gothic (сейчас уже точно не помню), и сканов уже не осталось. Но FR без обучения распознал кнгу набранную полностью таким шрифтом.


СООБЩЕНИЯ ЗА 27.10.2002
6. В.Воблин, (vvoblin@hotmail.com) 11:35:44 [ответить]
      > 5. bmn.
     
      Спасибо за ответ.
     
      > > У ФайнРидера вроде есть механизм распознавания шрифтов и даже возможность обучения новому шрифту.
      > У меня FR5.0 без обучения нормально распознает декоративные шрифты.
     
      Хочу тоже попробовать. ПОдскажите, пожалуйста, о каких декоративных шрифтах идёт речь. Может, даже есть картинка в онлайне, на которой можно "прокатать" FR с целью воспроизвести Вашу ситуацию. Спасибо заранее.


СООБЩЕНИЯ ЗА 23.10.2002
5. bmn, 08:25:48 [ответить]
      > 4. V.Voblin.
     
     
      > У ФайнРидера вроде есть механизм распознавания шрифтов и даже возможность обучения новому шрифту.
      У меня FR5.0 без обучения нормально распознает декоративные шрифты. Тк что у тебя, скорее всего, проблема с FR.
     
      > Вдобавок - даже если и делаешь эту работу - после OCR исчезает особость этого шрифта в выходном файле. Ведь OCR не знает, что точнёхонько такой же фонт установлен в моих Windows.
      Компьютер штука тупая ему все указывать надо. Выделяй эти фрагменты прямо в FR ручками, тогда он их нормально сохранит.
      >
      > Внимание, вопрос.
      > Нет ли в Файнридере (скрытой?) фичи - обучение распознаванию на основе дополнительного фонта TTF, а не набора "пиксельных" трафаретов одного размера ?
      А вот этого нет.


СООБЩЕНИЯ ЗА 19.10.2002
4. V.Voblin, 05:25:30 [ответить]
      Вот problema, например.
     
      Новая книга Терри Пратчетта.
     
      Часть текстов написана фигурным, о~ень нестандартным шрифтом "Hebrew Condensed".
     
      Этот шрифт латинский, но стилизован под еврейский. Человек прочтёт его легко. OCR-у гораздо труднее.
     
      У ФайнРидера вроде есть механизм распознавания шрифтов и даже возможность обучения новому шрифту.
     
      НО!
     
      Эти куски текста - особым шрифтом - это маленькие вставки в основной текст, набранный обычным Times New Roman. Поэтому процесс обучения, ккоторому юзер имеет доступ, происходит очень медленно и коряво. Отпадает желание так тяжело пахать ради одной книжки.
     
      Вдобавок - даже если и делаешь эту работу - после OCR исчезает особость этого шрифта в выходном файле. Ведь OCR не знает, что точнёхонько такой же фонт установлен в моих Windows.
     
      Файнридер всё прекрасно делает, когда речь идёт о трёх главных фонтах - Times, Arial, Courier. Они распознаются независимо от размера букв и сохраняются в выходном файле.
     
      Внимание, вопрос.
      Нет ли в Файнридере (скрытой?) фичи - обучение распознаванию на основе дополнительного фонта TTF, а не набора "пиксельных" трафаретов одного размера ?


СООБЩЕНИЯ ЗА 13.10.2002
1. Максим Мошков, Москва 13:16:51 [ответить]
      Пожалуй, общее обсуждение проблем OCR лучше перенести сюда, оставив форум "Книги, которые будут выложены" только для размещения списков обрабатываемых книг и синхронизации работы.