Список форумов |  Добавить сообщение |  Правила |  11.09.2025, четверг, 14:39:02
СПИСОК ФОРУМОВ
11.09.2025
12:39 Главная гостевая книга библиотеки(5854)
09:07 Обо всем - мнения(3149)
06.09.2025
15:23 "Разыскивается песня", доска объявлений(5441)
02.09.2025
12:08 "Разыскиваются книжки", доска объявлений(15508)
10:11 Проблемы OCR и электронных библиотек(1973)
16.08.2025
07:39 Книжки, которые скоро будут выложены(56)
02.05.2025
21:25 О возвышенной поэзии(1593)
24.02.2025
13:09 Книжки, которые стоит прочитать(5230)
13:05 Водный и всякий туризм(87)
22.02.2025
06:11 Русские впечатления о заграничной жизни(9443)
05:34 Мнения читателей о дизайне библиотеки(1479)
Lib.Ru

Проблемы OCR и электронных библиотек
Тема форума: В этом форуме обсуждаются общие проблемы связанные с поддержкой электронных библиотек и сканированием книг.

А так же обсуждение статьи Вадима Ершова "О коллективных сайтах"

Отсортировано по [убыванию] [возрастанию]   

СООБЩЕНИЯ ЗА 17.10.2003
412. Zmiy, Минск (zmiy@inbox.ru) 14:45:03 [ответить]
      > 411. Ихтик.
     
      > Внимание, объявление.
      > Открылась почтовая эхоконференция "OCR-ru", посвящённая вопросам OCR и
      > электронных библиотек:
      > http://groups.yahoo.com/group/OCR-ru/>http://groups.yahoo.com/group/OCR-ru/
      > Автор и модератор - Ихтик из Уфы.
      > Приглашаются все желающие.
      > Тем кто не может самостоятельно подписать или просто ленится,
      > достаточно просто написать мне письмо с просьбой о подписке, - я сам вас
      > подпишу...
      > По всем вопросам писать: Ihtik@ufacom.ru
     
     
      А зачем?
     
      Есть форум здесь, есть news-конференция FIDO.RU.OCR...


411. Ихтик, Уфа (iht57@mail.ru) 11:13:57 [ответить]
     
      Внимание, объявление.
      Открылась почтовая эхоконференция "OCR-ru", посвящённая вопросам OCR и
      электронных библиотек:
      http://groups.yahoo.com/group/OCR-ru/>http://groups.yahoo.com/group/OCR-ru/
      Автор и модератор - Ихтик из Уфы.
      Приглашаются все желающие.
      Тем кто не может самостоятельно подписать или просто ленится,
      достаточно просто написать мне письмо с просьбой о подписке, - я сам вас
      подпишу...
      По всем вопросам писать: Ihtik@ufacom.ru


409. Im Werden, Augsburg, Germany (info@imwerden.de) 10:40:49 [ответить]
      Хочу вернуться к теме "Достоевский - Чейз", поскольку вспомнил про свою былую мысль, которую излагаю:
     
      В чем отличие бумажной книги от электронной. Да в том, прежде всего, уважаемые, что бумажную НЕОБХОДИМО продать, а наши с вами электронные мы раздаем. Отсюда вытекает, что изучением общественного СПРОСА нам с вами заниматься ни к чему. В конечном итоге никому из нас большого дела нет, скачали книгу 5 человек или 500. И те и другие получили то, что хотели.
     
      Поэтому, осмелюсь еще раз предложить:
     
      Давайте сканировать и выкладывать нрежде всего НЕ ПОПУЛЯРНУЮ, но очень НУЖНУЮ литературу, найти которую в книжных магазинах не возможно. Вспомните, что Букинистические магазины повымерли. В Москве нет больше: Букинистов: Столешников пер., Проезд Худ. Театра (говорят, что и Пуш. лавка закрыта). Букиниста на Ленинском, на Тульской нет бельше Дома бук. книги. Бук. отделы в больших магазинах зажаты в 1-2 прилавка. Старую книгу продать очень сложно, но купить!!! еще сложнее!!! Остается - поиск текста в интернете.


408. Andrej, Ekaterinburg (tverjakov@mail.ru) 07:48:45 [ответить]
      > 407. Вячеслав Сачков.
      > Плохо сформулировал пункт (3). Под форматами имеется комплекс примерно следующих вопросов. Нужно ли сохранять нумерциацию страниц? В беллетристике, как правило. конечно. нет.
     
      Согласен полностью.
     
      > А в науной литературе, используемой для цитирования, безусловно. необходимо. Так я считаю.
     
      А вот это, имхо, спорно. Если кто-то ссылается на _бумажную_книгу_, используя для этой цели _электронный_файл_ - то это, имхо, просто-напросто научная недобросовестность. Потому что неизвестно, насколько этот файл адекватно воспроизводит книгу - а может сканировщик курсив поудалял или еще что-нибудь переделал, да "забыл" об этом предупредить?
     
      Имхо, используя файл - на этот файл только и можно ссылаться, а не на исходное издание. А здесь, конечно, встают вопросы - каким критериям файл должен соответствовать, чтобы на него _можно_ было ссылаться. Но страницы здесь явно ни при чем.
     
      На мой взгляд, должны выполняться три условия:
     
      1). Наличие неких атрибутов, позволяющих однозначно идентифицировать файл - кем создан (электронный "издатель"), дата создания, номер версии и т.д.
     
      2). Наличие цифровой подписи, гарантирующей аутентичность файла.
     
      3) Наличие неких авторитетных (для научного сообщества) систем депонирования файлов, гарантирующих их сохранность и обеспечивающих к ним доступ исследователей (не обязательно онлайновый).
     
      А без соблюдения этих (и, возможно, еще каких-то условий), имхо, цитирование по электронным версиям абсолютно невозможно, и наличие или отсутствие страниц здесь ничего не меняет.


407. Вячеслав Сачков, Троицк (nestor@inetcomm.ru) 01:42:52 [ответить]
      Плохо сформулировал пункт (3). Под форматами имеется комплекс примерно следующих вопросов. Нужно ли сохранять нумерциацию страниц? В беллетристике, как правило. конечно. нет. А в науной литературе, используемой для цитирования, безусловно. необходимо. Так я считаю.


406. Вячеслав Сачков, Троицк (nestor@inetcomm.ru) 01:22:54 [ответить]
      Разговор начался очень полезный и интересный, но. imho, логически неструктурированный и потому заведомо обреченный превратиться в бесплодно-тупиковый базар.
      Я вижу здесь 3 группы существенно разных вопросов:
      (1) о редакторах;
      (2) об аппарате (атрибутах описания электронных изданий)
      (3) о формате отсканированных в конкретных группах редакторов текстов.
      Возражения по моему предложению есть?


СООБЩЕНИЯ ЗА 16.10.2003
405. Zmiy, Минск (zmiy@inbox.ru) 23:36:15 [ответить]
      > 404. Reader.
      > Если в тексте предложение целиком написано заглавными буквами, Вы же не будете его менять на прописные? То же отношение должно быть и к курсиву.
     
      Буду, но не всегда! Есть у некоторых изданий привычка писать первое предложение абзаца новой главы с больших букв! Это по Вашему автор придумал? Нет!
      И название книги не буду писать из больших букв - бывает порой непонятно в названиях - слово с маленькой буквы нужно писать или с большой... Вон, к примеру, написано "ЛАБИРИНТ ДЛЯ СЛЕПОГО", а пока не прочтешь текст не поймешь как надо было "Лабиринт для слепого" или "Лабиринт для Слепого"!?.
     
      > Так как Вы лучшим вариантом фрмата книги считаете txt, то как вариант это брать слово (фразу) в нижние подчеркивание (_). Пример тому замечательные OCR'тексты HarryFan'а.
     
      Ага буду мусор в текст вносить... Нет, не буду вставлять никаких чужеродных символов типа _ ^T и др. От этого смысл НЕ ИЗМЕНИТСЯ !!!
     
      По Вашему получится, что если человек прочитает текст без всяких выделений, а потом вдруг прочитает вариант с этими курсивами, жирностями или "с больших букв", то скажет, типа, "Аа-а... Вот оно что-о... А я-то думал... Сразу бы так и сказали... Столько лет жил и не предполагал, что вот так вот оказывается... А то я главную мысль не разобрал..." ;) Т.е. он от этого что-то потеряет в жизни - этот самый курсив...


404. Reader, 19:22:00 [ответить]
      > ну вот Вам еще вариант - вот позвонит Вам знакомый автор, предложит послушать, что он придумал в новом произведении, начнет Вам читать... про курсив он Вам ничего не будет говорить - я гарантирую... другое дело интонация...
     
      Правильный пример, но не правильные выводы. Именно там где курсив редактор и будет знать где изменить интонацию, где поставить ударение.
      Если в тексте предложение целиком написано заглавными буквами, Вы же не будете его менять на прописные? То же отношение должно быть и к курсиву. Так как Вы лучшим вариантом фрмата книги считаете txt, то как вариант это брать слово (фразу) в нижние подчеркивание (_). Пример тому замечательные OCR'тексты HarryFan'а.


403. Andrej, Ekaterinburg (tverjakov@mail.ru) 19:16:52 [ответить]
      > 402. Zmiy.
      > >> . PDF-Library
      > >> . slava
      > >> . Andrej
      > >> . Reader
      >
      > >> Извините, но у Вас получается, что главное в книге - это _сюжет_.
      >
      > хм... а что же по Вашему главное в книге? курсив на 15 странице? а может фамилии редактора с корректором?
     
      А нет ничего главного - все важно. И сюжет, и стиль, и язык, и курсив, и иллюстрации иногда.
     
      Фамилия корректора значения не имеет, а вот фамидия редактора может быть важной - если речь идет не о массовом, а о,скажем, академическом издании.
     
      И уж тем более важен переводчик - это больше всего меня бесит, когда в файле (а бывает, что и в книге) переводчик не указан.


402. Zmiy, Минск (zmiy@inbox.ru) 17:59:59 [ответить]
      > > . PDF-Library
      > > . slava
      > > . Andrej
      > > . Reader
     
      > > Извините, но у Вас получается, что главное в книге - это _сюжет_.
     
      хм... а что же по Вашему главное в книге? курсив на 15 странице? а может фамилии редактора с корректором?
     
      > > Курсив, разряка текста и т.д. очень важны и необходимы для восприятия текста, данного слова, фразы. Отсутствие их уже является искажением текста, содержания книги.
     
      ну вот Вам еще вариант - вот позвонит Вам знакомый автор, предложит послушать, что он придумал в новом произведении, начнет Вам читать... про курсив он Вам ничего не будет говорить - я гарантирую... другое дело интонация...
      а помните как при Пушкине собирались родные-близкие и слушали как он читает стихи... не помните, курсив тогда уже был? ;)
     
      я могу рассказать кому-нибудь своими словами о прочитанной книге, но не буду же я про курсив рассказывать или про переводчика...


401. Reader, 17:30:14 [ответить]
      > >> Выделение курсивом или другим способом - это часть авторского замысла
     
      > 1) см. пп.2 сообщения 393
      > 3) как сказал один из известных и уважаемых OCRщиков и эл.библиотекарей (его имя на букву А ------------:-)))
      > нельзя переносить свойства и характеристики текста в бум.виде, на эл.версии - номера страниц и т.п.
     
      Не согласен. Фраза "одиного из известных и уважаемых OCRщиков" верна, но не в данном контексте. Курсив, разряка текста и т.д. очень важны и необходимы для восприятия текста, данного слова, фразы. Отсутствие их уже является искажением текста, содержания книги.


400. Andrej, Ekaterinburg (tverjakov@mail.ru) 17:47:30 [ответить]
      > 398. Zmiy.
      > > . PDF-Library.
      > > . slava.
      > > . Andrej
     
     
      >
      > >> Выделение курсивом или другим способом - это часть авторского замысла
      >
      > 1) см. пп.2 сообщения 393
      > 2) ну тогда и опечатки нельзя править - вдруг это "часть авторского замысла" ? ;)
     
      А я и не правлю. Правлю только ошибки сканирования. Сканировщик - это не редактор и не корректор. А то можно начать править и неграмотные, либо просто корявые выражения, и вообще себя Тургеневым вообразить :))
     
      > 3) как сказал один из известных и уважаемых OCRщиков и эл.библиотекарей (его имя на букву А ------------:-)))
      >
      > нельзя переносить свойства и характеристики текста в бум.виде, на эл.версии - номера страниц и т.п.

     
      Нельзя переносить свойства _книги_ на электронный файл - в таком виде согласен. А вот _текст_, имхо, должен быть идентичен в любом варианте.
     
      > именно из-за размера я и храню эл.книги в txt формате - они в архиве занимают очень мало места... у меня 5 CD с текстами, которые в моем booklst.txt. а сколько бы места занимали эти же тексты в DOC, HTM, PDF, LIT ???
     
      Ну посмотрел сейчас размеры отсканенной мной "Исэ моногатари":
     
      txt - 200,3 килобайт,
     
      html - 219,6 килобайт.
     
      Велика ли разница?
     
      > главное в книге не реквизиты и не выделение курсивом! главное содержание (не оглавление! ;) ) если Вы кому-нибудь рассказываете о книге, Вы же не говорите про выделения курсивом или про реквизиты книги!? Вы же будете рассказывать именно о содержании, о сути, о морали ("...мораль сей басни такова..." ;) ) и не будете говорить, что типа я читал книгу и вот в переводе "этого" переводчика главный герой выжил, а в переводе "того" стал калекой... ну такого же не бывает!
     
      Извините, но у Вас получается, что главное в книге - это _сюжет_.
     
      Не могу с этим согласиться, особенно если речь не идет об одних только детективах.
     
      > PDF-Library
     
      > HTML конечно нельзя делать из Word
     
      Еще как можно. Только не с помощью "Файл -> Сохранить как HTML", а с помощью VBA.


399. Zmiy, Минск (zmiy@inbox.ru) 11:30:00 [ответить]
      > . PDF-Library.
      > . slava.
      > . Andrej
      >
     
      > > ДА ВАМ ИДЕАЛЬНО ПОДХОДЯТ "ВОЗДУШНЫЕ КНИГИ"
      > > размер zip с pdf внутри больше, чем zip c doc внутри. Но, повторюсь, zip, rar... - это плохо!!!
     
      а почему "zip, rar... - это плохо" ???
      именно из-за размера я и храню эл.книги в txt формате - они в архиве занимают очень мало места... у меня 5 CD с текстами, которые в моем booklst.txt. а сколько бы места занимали эти же тексты в DOC, HTM, PDF, LIT ???
      что до возможности поиска во всяких google и yandex, то проблем поиска в архивах лично я не вижу - уже есть программы, позволяющие скачать конкретный файл из архива zip без скачки всего архива... вон, раньше не было поиска в pdf - теперь есть, так и поиск в архивах скоро сделают...
     
      > > Насчет конвертирования pdf в другие форматы. А зачем??? А нужно ли, в конечном итоге конвертирование?
     
      мне кроме текста с собой такскать еще и Acrobat Reader ??? и засунуть его в мобильный телефон или другое устройство чтения книг с малым объемом памяти??? не реально... для кого тогда PDF сделан?


398. Zmiy, Минск (zmiy@inbox.ru) 11:22:13 [ответить]
      > . PDF-Library.
      > . slava.
      > . Andrej
      >
     
      > > ХОТЕЛОСЬ БЫ УВИДЕТЬ ПОЧИЩЕННЫЕ :-))
     
      в поиск! ;) кое что чистил и посылал я... кое что Ваше у меня есть не посланное и замечу там есть и другие ошибки кроме номеров страниц... вот почему я не индексирую Ваши сканы в свой booklst.txt, так потому что слишком муторно и долго... жду, когда кто-нить вычистит и выложит нормальную версию... ;)
     
      > > ЧИТАТЬ ВСЛУХ? :-))
     
      см. тут сообщение 387. это реальные вещи...
     
      > > НУ Я ЖЕ РЕАЛЕН
     
      0) не про Вас речь, а вообще
      1) люди не вечны, если конечно Вы не горец ;)
      2) есть сканы, которые должны быть анонимны по некоторым причинам
      3) сколько эл.библиотек появилось и сколько исчезло за последние 100 лет ;) и где те сканировщики...
     
      > > RTF, XML
      > > НЕ ДУМАЮ
      > > По моему опыту rtf в несколько раз больше doc.
     
      а почему? ;) аргументы?
      см. RTF - bomanuar.aldebaran.ru/
      причем по размеру они меньше форматированного текста! и я как программист вижу еще варианты уменьшения объема rtf...
      см. XML - http://test.directdesign.ru/cgi/main.pl>http://test.directdesign.ru/cgi/main.pl и в поиске поищите и почитайте про возможности этого формата
     
      > > Выделение курсивом или другим способом - это часть авторского замысла
     
      1) см. пп.2 сообщения 393
      2) ну тогда и опечатки нельзя править - вдруг это "часть авторского замысла" ? ;)
      3) как сказал один из известных и уважаемых OCRщиков и эл.библиотекарей (его имя на букву А ------------:-)))
     
      нельзя переносить свойства и характеристики текста в бум.виде, на эл.версии - номера страниц и т.п.
     

     
      > > 4. Недостатки pdf : нельзя делать читательские пометки, как недостаток, так и достойнство : нельзя делать исправления.
     
      предоставьте пожалуйста статистику - скольким читателям понадобилось сделать пометки в эл.версии книги!? а скольким понадобилось цитировать эл.версию!? тогда при цитировании обязательно нужно указывать, что цитата именно по эл.версии книги по такой-то ссылке в интернете, такого-то издательства, такого-то города, такого-то года...
     
      > > TXT
      > > Я ТАК НЕ ДУМАЮ
     
      а почему? ;) аргументы?
     
      "читай где хочешь" - не правда?
      "редактируй" - не правда?
      "поиском пользуйся" - не правда?
      "конвертируй куда хочешь" - не правда?
      "цитируй" - не правда?
     
      главное в книге не реквизиты и не выделение курсивом! главное содержание (не оглавление! ;) ) если Вы кому-нибудь рассказываете о книге, Вы же не говорите про выделения курсивом или про реквизиты книги!? Вы же будете рассказывать именно о содержании, о сути, о морали ("...мораль сей басни такова..." ;) ) и не будете говорить, что типа я читал книгу и вот в переводе "этого" переводчика главный герой выжил, а в переводе "того" стал калекой... ну такого же не бывает!


397. PDF-Library, Augsburg, Germany (info@imwerden.de) 09:30:18 [ответить]
      > 5) Насчет объема PDF - при правильной оптимизации размер может быть меньше DOC варианта. И с поиском проблем нет - если сделано не из картинок. Про PDF подробнее Вам расскажет PDF-Library... Основной недостаток PDF - сложность конвертирования в другие форматы.
     
      Да, размер pdf, если выводить из PageMaker, но не из Word, меньше, чем doc. Но размер zip с pdf внутри больше, чем zip c doc внутри. Но, повторюсь, zip, rar... - это плохо!!! Я очень часто ищу книгу/статью/ письмо Пушкина (например) по цитате - здесь html/xml - совсем не плохи.
      Насчет конвертирования pdf в другие форматы. А зачем??? А нужно ли, в конечном итоге конвертирование?
     
      Если вам надо цитировать, то выглядит это так:
      "Она приготовила сегодня кое что: по окончании академии ей дали усиленное пособие в
      виде продуктов и денежных средств." (А. Платонов. Река Потудань. "Im Werden". 2002. Стр. 12)
     
      Наберите эту фразу в yandex. На четвертом месте стоит мой оригинал. Под "сохраненная копия" находится html, который yandex делает из pdf достаточно сносно. Там же выделена эта фраза. Если вам до зарезу надо проконвертировать - это уже сделано.
     
      Но pdf по моему глубочайшему убеждению, как и книга - это КОНЕЧНЫЙ продукт. Я делаю, как могу, pdf так, чтобы при типографской распечатке никто не видел разницы. Да ведь издательства и работают с PageMaker, QuarkXPress etc. Из них можно делать pdf. У меня вообще идея: почему бы не попросить издательства слёзно, что книги, которые уже изданы 5-7 лет назад и распроданы с трудом и никогда больше изданы не будут и прибыли не принесут - почему бы их не выложить в pdf (им и конвертировать ничего не придется). Одно издательство я уже терзаю по разным каналам. Во Франкфурте, на книжной ярмарке, я сделал первые попытки эту идею продвинуть в издательства! Посмотрим. Только в этом случае можно сказать, что электронизация книг была бы / будет РЕАЛьНОЙ !!! Зачем одну и ту же работу делать два/три/четыре раза??? (включая и конвертирование?).


396. PDF-Library, Augsburg, Germany (info@imwerden.de) 09:02:45 [ответить]
      > 395. slava.
      > > 393. Zmiy.
      > > > 392. slava.
     
      1. Поиск по pdf - есть и не плох (об этом я уже когда-то говорил Сачкову). Docs обычно выкладывают в zip (биб-ка Белоусенко) и поиск через yandex, google etc вообще не возможен. Pdf, кстати, стандарт везде, кроме России. Если я делаю pdf из PageMaker'a, то он в 5-10 раз меньше, чем из Word / FR 6.
      2. HTML конечно нельзя делать из Word (начиная с 2000). Вообще, зачем нужен 200-400 страничный html????? Тем более, что деления на страницы нет. Получается колбаса длиной в 10 метров.
      3. По моему опыту rtf в несколько раз больше doc. Может я чего не так делал, но rtf я в конце концов не пользуюсь.
      4. Недостатки pdf : нельзя делать читательские пометки, как недостаток, так и достойнство : нельзя делать исправления.
      5. Я всегда убираю номера страниц. Я называю своё "предприятие" издательством, поэтому, если знаю - всегда указываю, откуда сосканировано!!!!! Но номера страниц оригинала - нет, за исключением факсимильных/картиночных воспроизведений книг, где можно с уверенностью цитировать по скану.
      6. Указываю имя сканировавшего не всегда (иногда это и не известно). Как правило потому, что книгу вычитываю заново и нахожу массу ошибок и/или погрешностей форматирования.
      7. Слава, хотел бы моместить у себя книги про Рихтера, которого очень и очень люблю, но они содержат номера страниц, а вымарывать их у меня не хватит никакого терпения. А dvd Enigma у меня есть. Смотрел по TV, а теперь есть и на dvd. Там интересно: всё, что по-русски - по-русски, а что по-французски и по-немецки - не переводится.


395. slava, НПУЛЧБ (slavaaa@yandex.ru) 04:07:27 [ответить]
      > 393. Zmiy.
      > > 392. slava.
      > > Тема обсуждения стандарта эл.книг в Интернете.
      > > http://yanko.lib.ru/books/yanko_slava-books.htm>http://yanko.lib.ru/books/yanko_slava-books.htm
      >
      > 0-3 - о наболевшем...
      > 1-7 - по теме...
      >
      > 0) А не задумывались ли Вы, почему Ваши сканы такого большого объема? Ну нельзя же так делать! Полезной информации на 300К, а скачивать приходится по 3М. Конвертирование в html нельзя делать из Ворда - вон сколько он туда напихал мусора... Читайте про css или используйте программы преобразования текста в html.
      >
      > 1) Для кого Вы ставите номера страниц в своих сканах??? Сомневаюсь, что кто-то цитирует книги с электронного варианта! Ну не наберется и 2-3 человек кому понадобились Ваши номера страниц... Они только ухудшают вид электронной копии книги! Потом другие эл.библиотекари сидят и чистят весь этот мусор из Ваших сканов! Это нормально?
     
      ХОТЕЛОСЬ БЫ УВИДЕТЬ ПОЧИЩЕННЫЕ :-))
     
      > 2) А вот представьте себе ситуацию, когда Вам читают книгу вслух... Вам что будут говорить: "вот тут вот курсив", "а вот тут выделено", "о, тут красненьким цветом" или "страница 123" ??? Нет!
     
      ЧИТАТЬ ВСЛУХ? :-))
      >
      > 3) А реквизиты-то Вам зачем?
      ...
      Опять Вы ориентируетесь на 2-3 человек, которым понадобится цитирование...
     
      НУ-НУ...
      >
      > 4) Наилучший формат для эл.книг - RTF - совместимость с любыми платформами, возможность редактирования, малый объем файлов без учета картинок (даже меньше чем форматированный тхт), возможность конвертирования в другие форматы. Перспективный формат - XML. Скорее всего XML и надо рассматривать в данный момент.
     
      НЕ ДУМАЮ
      >
      > 5) Насчет объема PDF - при правильной оптимизации размер может быть меньше DOC варианта. И с поиском проблем нет - если сделано не из картинок. Про PDF подробнее Вам расскажет PDF-Library... Основной недостаток PDF - сложность конвертирования в другие форматы.
      ДА ВАМ ИДЕАЛЬНО ПОДХОДЯТ "ВОЗДУШНЫЕ КНИГИ"
      >
      > 6) насчет первых пунктов ("реальный автор сканирования") - это нереально.
     
      НУ Я ЖЕ РЕАЛЕН
     
      > 7) txt - это проще всего - и читай где хочешь, и редактируй, и поиском пользуйся, и конвертируй куда хочешь, и цитируй ;).
     
      Я ТАК НЕ ДУМАЮ
     
      Спасибо за критику


СООБЩЕНИЯ ЗА 15.10.2003
394. Andrej, Ekaterinburg (tverjakov@mail.ru) 20:16:58 [ответить]
      > 393. Zmiy.
      > > 392. slava.
     
      > 2) А вот представьте себе ситуацию, когда Вам читают книгу вслух... Вам что будут говорить: "вот тут вот курсив", "а вот тут выделено", "о, тут красненьким цветом" или "страница 123" ??? Нет! Так для чего все это оформление? Оно полезно, если электронный вариант будут переводить в бумажный... Но сомневаюсь, что кто-то это делает...
      >
      > 3) А реквизиты-то Вам зачем? Вот сколько я книг прочел, ну ни разу не возникало желания читать реквизиты типа адреса издательства или фамилии художника... Главное содержание! Остальное второстепенное... Опять Вы ориентируетесь на 2-3 человек, которым понадобится цитирование...
     
      Извините, не могу согласиться. Выделение курсивом или другим способом - это часть авторского замысла, и оно обязательно должно быть сохранено.
     
      Что касается реквизитов - то типографские, согласен, как правило не нужны, а вот библиографические сведения (издательство, год издания и т.д.) совершенно необходимы. Без них ценность текста сильно может падать (ибо непонятно, что, собственно, за текст - разница в разных изданиях может быть огромной).


393. Zmiy, Минск (zmiy@inbox.ru) 17:47:22 [ответить]
      > 392. slava.
      > Тема обсуждения стандарта эл.книг в Интернете.
      > http://yanko.lib.ru/books/yanko_slava-books.htm>http://yanko.lib.ru/books/yanko_slava-books.htm
     
      0-3 - о наболевшем...
      1-7 - по теме...
     
      0) А не задумывались ли Вы, почему Ваши сканы такого большого объема? Ну нельзя же так делать! Полезной информации на 300К, а скачивать приходится по 3М. Конвертирование в html нельзя делать из Ворда - вон сколько он туда напихал мусора... Читайте про css или используйте программы преобразования текста в html.
     
      1) Для кого Вы ставите номера страниц в своих сканах??? Сомневаюсь, что кто-то цитирует книги с электронного варианта! Ну не наберется и 2-3 человек кому понадобились Ваши номера страниц... Они только ухудшают вид электронной копии книги! Потом другие эл.библиотекари сидят и чистят весь этот мусор из Ваших сканов! Это нормально? Кому нужно цитирование, тот оторвет задницу от стула и сходит в обычную библиотеку!
     
      2) А вот представьте себе ситуацию, когда Вам читают книгу вслух... Вам что будут говорить: "вот тут вот курсив", "а вот тут выделено", "о, тут красненьким цветом" или "страница 123" ??? Нет! Так для чего все это оформление? Оно полезно, если электронный вариант будут переводить в бумажный... Но сомневаюсь, что кто-то это делает...
     
      3) А реквизиты-то Вам зачем? Вот сколько я книг прочел, ну ни разу не возникало желания читать реквизиты типа адреса издательства или фамилии художника... Главное содержание! Остальное второстепенное... Опять Вы ориентируетесь на 2-3 человек, которым понадобится цитирование...
     
      4) Наилучший формат для эл.книг - RTF - совместимость с любыми платформами, возможность редактирования, малый объем файлов без учета картинок (даже меньше чем форматированный тхт), возможность конвертирования в другие форматы. Перспективный формат - XML. Скорее всего XML и надо рассматривать в данный момент.
     
      5) Насчет объема PDF - при правильной оптимизации размер может быть меньше DOC варианта. И с поиском проблем нет - если сделано не из картинок. Про PDF подробнее Вам расскажет PDF-Library... Основной недостаток PDF - сложность конвертирования в другие форматы.
     
      6) насчет первых пунктов ("реальный автор сканирования") - это нереально.
     
      7) txt - это проще всего - и читай где хочешь, и редактируй, и поиском пользуйся, и конвертируй куда хочешь, и цитируй ;).


392. slava, москва (slavaaa@yandex.ru) 12:52:36 [ответить]
      Тема обсуждения стандарта эл.книг в Интернете.
      http://yanko.lib.ru/books/yanko_slava-books.htm>http://yanko.lib.ru/books/yanko_slava-books.htm


391. Tshitatel, 01:24:43 [ответить]
      > 389. Lexa.
      > > 379. V.Voblin.
      > > > 372. Lexa.
      > > > > 364. В.Воблин.
      > > > > ...есть ли разница между сканерами по скорости прохода одной страницы...
      > > >
      > > > Есть. На моём текущем (UMAX Astra 4500) и предыдущем (Acer ScanPrisa640U) цифры соответственно таковы ...: 250 разворотов в час и 110 разворотов в час.
      > >
      > > Lexa, сердечное спасибо за обстоятельный ответ.
      > > Интересно, какой интерфейс был у обоих ушпомянутых сканеров. USB?
      >
      > Да, у обоих USB
     
      Rekomenduju -
      Epson 1660-Photo - USB2 (kartu mozno i oddelno kupit dlia starich PC) rabotajet i s USB-starim no ostonavlivajetsia po doroge - po vremeni 2-4 sek medlenneje tshem s USB2.
      S USB2:
      Serij-400dpi za 11 sek. (A4)
      Tsherno-belij 300 dpi za 9 sek.
      A5 - 7-5 Sek.
      Mozno i Foto-Negativi skanirovat (imejet dopolnenije - lampu v krishke)
     
      Ostovaites s FineReader 4 !!! Nenado dengi zria tratit!


СООБЩЕНИЯ ЗА 13.10.2003
389. Lexa, (lexahr@inbox.ru) 10:38:10 [ответить]
      > 379. V.Voblin.
      > > 372. Lexa.
      > > > 364. В.Воблин.
      > > > ...есть ли разница между сканерами по скорости прохода одной страницы...
      > >
      > > Есть. На моём текущем (UMAX Astra 4500) и предыдущем (Acer ScanPrisa640U) цифры соответственно таковы ...: 250 разворотов в час и 110 разворотов в час.
      >
      > Lexa, сердечное спасибо за обстоятельный ответ.
      > Интересно, какой интерфейс был у обоих ушпомянутых сканеров. USB?
     
      Да, у обоих USB


388. Вячеслав Сачков, Троицк (nestor@inetcomm.ru) 02:17:23 [ответить]
      > 387. Ихтик.
      > Слышал я тут упоминалось об синтезе компьютером человеческой речи из электронной текстовки. Скажу по откровенности - замечательнейшая вещь, читаю, вернее слушаю книги этим способом уже года два и не нарадуюсь. Главное - привыкнуть. Всем кто интересуется ходить сюда:
      > http://art.bdk.com.ru/govor/>http://art.bdk.com.ru/govor/
      > http://www.vector-ski.ru/vecs/govorilka/>http://www.vector-ski.ru/vecs/govorilka/
      > или писать мне.
      >
      Ну, это вообще игрушки примитивные. Я лично пользую и рекомендую дигалу (особенно лицензионную, по сравнению с использующимися в массах крякнуто-обрезенными версиями это небо и земля) в связке с ридерттс, сакрамент тоже очень неплохо. Но безупречных бормоталок, к сожалению, пока еще вообще нет, а говорун, говорилка, говорящая мышь, пожалуй, - худшие из них. Кроме того, еще сравнительно недавно вирго-4 вышла - достаточно смешная бормоталка, с немецким акцентом. Зато у нее удобствий много.


СООБЩЕНИЯ ЗА 12.10.2003
387. Ихтик, Уфа (iht57@mail.ru) 18:51:59 [ответить]
      Слышал я тут упоминалось об синтезе компьютером человеческой речи из электронной текстовки. Скажу по откровенности - замечательнейшая вещь, читаю, вернее слушаю книги этим способом уже года два и не нарадуюсь. Главное - привыкнуть. Всем кто интересуется ходить сюда:
      http://art.bdk.com.ru/govor/>http://art.bdk.com.ru/govor/
      http://www.vector-ski.ru/vecs/govorilka/>http://www.vector-ski.ru/vecs/govorilka/
      или писать мне.
     
      Ещё по поводу того, что Мошков ингорирует присылаемые к нему книги. Так ведь есть много других не менее замечательных библиотек, где всё берут с удовольствием и всегда говорят спасибо. :-*
     
      orel@rsl.ru, bsperli@rsl.ru (http://orel.rsl.ru/>http://orel.rsl.ru/ -Открытая русская электронная библиотека);
      moshkow@systud.msk.su, max@lib.ru (http://www.lib.ru>http://www.lib.ru -Библиотека Максима Мошкова);
      chrushka@hotmail.com, lemail@shaw.ca (http://russiantext.com/>http://russiantext.com/ -Всеобъемлющий архив русских текстов);
      admin@bestlibrary.ru (http://www.bestlibrary.ru/>http://www.bestlibrary.ru/);
      bestbooks@pisem.net (http://www.bestbooks.ru/>http://www.bestbooks.ru/ -BestBooks.RU - онлайн библиотека);
      library@odessa.net (http://virtlib.odessa.net/>http://virtlib.odessa.net/ -Большая Одесская Библиотека);
      info@bigmir.net (http://lib.bigmir.net/>http://lib.bigmir.net/ -Библиотека на bigmir)net);
      lib@post.km.ru (http://lib.km.ru/>http://lib.km.ru/ Электронная библиотека);
      info@saslib.ru (http://www.saslib.ru/>http://www.saslib.ru/ - Библиотека популярных текстов);
      Adm@booksite.ru, anonimous@au.ru,
      lohness@klondike.ru, serga_2002@mail.ru (http://www.nesenenko.narod.ru/>http://www.nesenenko.narod.ru/);
      vgershov@pochtamt.ru, Vladimr@mail.ru (http://vgershov.lib.ru/>http://vgershov.lib.ru/ - Электронные книжные полки Вадима Ершова и К╟);
      info@books.org.ua,
      kazak2@rambler.ru,
      forsas@mail.ru (http://scbooks.chat.ru/>http://scbooks.chat.ru/ -Библиотека Scan And Send);
      biblio@i-u.ru,
      webmaster@referats.com (http://lib.students.ru/>http://lib.students.ru/);
      library@till.ru (http://www.till.ru>http://www.till.ru);
      kalaus_l@mail.ru, Lib_Pavel@km.ru,
      aldebaran@mailru.com (http://aldebaran.ru/>http://aldebaran.ru/);
      alaraf@rbcmail.ru, Artefact@mx8.mail.ru,
      yuri@book.pp.ru (http://book.pp.ru/>http://book.pp.ru/ Библиотека "Biblio Net");
      andreev_yuri@mail.ru, koap@koap.ru (http://koapp.narod.ru/>http://koapp.narod.ru/);
      lib@rin.ru (http://lib.rin.ru/>http://lib.rin.ru/);
      stulchik@mail.ru (http://divanchik.net/>http://divanchik.net/);
      lib@prm.ru (http://lib.prm.ru/>http://lib.prm.ru/);
      moppa-moppa@mtu-net.ru (http://libmop.chat.ru/>http://libmop.chat.ru/ -Библиотека редких книг);
      rw@vinbazar.com,
      serga_2002@mail.ru (http://www.geocities.com/SoHo/Exhibit/4256/>http://www.geocities.com/SoHo/Exhibit/4256/ -Книжные полки Алексея Несененко);
      rr@vip-rus.com (http://www.reading-room.narod.ru/>http://www.reading-room.narod.ru/ -Электронная библиотека "Читальный зал");
      Vitaly Ponomarev (http://lib.align.ru/>http://lib.align.ru/);
     
      за координатами для специализированных библиотек обращайтесь ко мне - приглю...
     
     
      Каталоги электронных библиотек:
      ilya@russ.ru (http://www.russ.ru/krug/biblio/>http://www.russ.ru/krug/biblio/);
      admin@allbest.ru,
      library@till.ru (http://www.till.ru>http://www.till.ru);
      inkwell@kulichki.com (http://www.kulichki.com/inkwell/>http://www.kulichki.com/inkwell/ -Чернильница);
      alexen@dialup.ptt.ru (http://piramyd.express.ru/>http://piramyd.express.ru/);
      book-ru-owner@yahoogroups.com (http://www.1book.ru/>http://www.1book.ru/);
      book-ru-owner@yahoogroups.com (http://www.1book.ru/library.htm>http://www.1book.ru/library.htm - Каталог электронных библиотек);


386. Ихтик, Уфа (iht57@mail.ru) 18:24:08 [ответить]
      Где-то с неделю парился не мог крякнуть FR 7.0. Наконец-то всё нормально работает теперь.
      Прямой линк: http://fr7.abbyy.com/fr70pro/FR70pro_en_ru.exe>http://fr7.abbyy.com/fr70pro/FR70pro_en_ru.exe
      Кряк с инструкциями вышлю по запросу.


385. Константин, Екатеринбург 16:22:40 [ответить]
      Кхе-кхе...Я вообщето понимаю что не по адресу но всетаки...жил у меня сидюк Creative, гудел как пылесос "Урал", и поколол на днях диск - самоучитель по англискому "Tell Me More" диск староват, ноеще вполне хорош. Вобщем дайте урлю где можно будет купить подобный софт, а то по ссылкам кликать замаешся, заранее благодарен.


СООБЩЕНИЯ ЗА 11.10.2003
384. Вячеслав Сачков, Троицк (nestor@inetcomm.ru) 01:34:38 [ответить]
      > 382. slava.
      > хотелось бы обсудить некий набор минимальных или максимальных требований к эл. книгам в сети.
      > С целью некой стандартизации.
      > За многие годы сканирования у меня сложился свой подход к этому вопросу.
      > Мои книги можно посмотреть у меня на сайте.
      > В моем варианте есть недостатки, но главное для меня - это максимальное приближение к бумажному варианту.
      Прекрасно. Изложите Ваши соображения для всех в обобщенном виде, тогда будет что обсуждать. Чувствую, внимательно следя за Вашими работами, что я Ваш единомышленник, но если слово изреченное есть ложь, то неизреченное слово содержит нуль информации.


383. Вячеслав Сачков, Троицк (nestor@inetcomm.ru) 01:21:53 [ответить]
      > 376. InFAiR.
      > Привет всем OCR-щикам и спецалистам по txt.
      > Вопрос: никто из Вас не встречал программ
      > лингвистического анализа текстов
      > (количество слов, % ошибок,
      > подсчет слов, синонимов
      > составление словарей и т.п).
      > Нужна программа,
      > способная работать с 4-5 тыс. файлов
      > общим объемом 5-6 GB в txt/dos
      > Спасибо.
     
      Соответствующие модульки, как общеизвестно, имеются в штатном наборе паскакаля и сей. Считают авторские листы. А по заложенному в них алгоритму желаемое сделать проще пареного. Смышленые восьмикласники делают с этими иодулями чудеса. Но если чайникам вроде Вас подобные большущие секреты выдавать, то программеры будут в голодных корчах мучиться, что не будет правильно и гуманно. Каюсь перед программерами посему.


СООБЩЕНИЯ ЗА 10.10.2003
382. slava, москва (slavaaa@yandex.ru) 15:03:21 [ответить]
      хотелось бы обсудить некий набор минимальных или максимальных требований к эл. книгам в сети.
      С целью некой стандартизации.
      За многие годы сканирования у меня сложился свой подход к этому вопросу.
      Мои книги можно посмотреть у меня на сайте.
      В моем варианте есть недостатки, но главное для меня - это максимальное приближение к бумажному варианту.


381. slava, москва (slavaaa@yandex.ru) 14:52:50 [ответить]
      Приветствую всех участников форума.


380. Maks, (plforms@yandex.ru) 11:37:32 [ответить]
      Кто интересуется более читабельным форматом текста, смотрите
      этот сайт http://plforms.narod.ru>http://plforms.narod.ru


379. V.Voblin, 03:16:18 [ответить]
      > 372. Lexa.
      > > 364. В.Воблин.
      > > с седьмой версией ФайнРидера: ваше мнение?...
      > Единственное улучшение, которое я заметил - стал иногда включать одиночную цифру (например, в названии главы) в текстовый блок.
      >
      > > ...есть ли разница между сканерами по скорости прохода одной страницы...
      >
      > Есть. На моём текущем (UMAX Astra 4500) и предыдущем (Acer ScanPrisa640U) цифры соответственно таковы ...: 250 разворотов в час и 110 разворотов в час.
     
      Lexa, сердечное спасибо за обстоятельный ответ.
      Интересно, какой интерфейс был у обоих ушпомянутых сканеров. USB?
     
      Всем спасибо за обсуждение Файнридера-7. Печально. Я бы им накидал рацпредложений, частично и с готовыми решениями на уровне псевдокода. И, уверен, у многих OCR-щиков накопилось :)


СООБЩЕНИЯ ЗА 09.10.2003
378. Mikolaj, Bydgoszcz 00:51:04 [ответить]
      Czesc!!
      Ucze sie rosyjskiego, ale nie wiem za bardzo o co chodzi!


377. Zmiy, Минск (zmiy@inbox.ru) 00:04:02 [ответить]
      > 367. Эмин.
      > > 366. Zmiy.
      > > Уф...
      > >
      > > CLTXT - ЧИСТКА И СКЛЕЙКА ТЕКСТА ПОСЛЕ FINEREADERА (ВЕР. 2.00)
      >
      > Zmiy, при исполнении программы Виндоуз выдает ошибку "cltxt.exe - обнаружена ошибка. Приложение будет закрыто. Приносим извинения за неудобства.Передайте Microsoft сведения об ошибке. Отправить отчет, НЕ ПЕРЕДАВАТЬ" Система у меня ХР. Что делать?
     
      Эмин, скачай Crypt Edit Spell Checker:
     
      http://zpdd.chat.ru/files/spellset.exe>http://zpdd.chat.ru/files/spellset.exe (1160605)
     
      установи его и все будет работать и в XP...


СООБЩЕНИЯ ЗА 07.10.2003
376. InFAiR, Уфа (infair@rusoil.net) 17:20:44 [ответить]
      Привет всем OCR-щикам и спецалистам по txt.
      Вопрос: никто из Вас не встречал программ
      лингвистического анализа текстов
      (количество слов, % ошибок,
      подсчет слов, синонимов
      составление словарей и т.п).
      Нужна программа,
      способная работать с 4-5 тыс. файлов
      общим объемом 5-6 GB в txt/dos
      Спасибо.


375. PDF-Library, Augsburg, Germany (info@imwerden.de) 13:27:36 [ответить]
      Сейчас ехал на работу и слушал по радио (немецкому) : открывается Франкфуртская международная книжная ярмарка. Главная страна в этом году: Россия. И далее интервью с русскими школьниками: Что вы читаете ? Ответ: Пушкина, Шиллера, Достоевского.
      Немецкие комментаторы ошеломлены: никто не назвал Стивена Кинга etc.


374. Леонид, Киев (mos777@ukr.net) 05:33:37 [ответить]
      Самый лучший сканер для сканирования книг, на мой взгляд, Fujitsu ScanSnap.
      Двухсторонний до 15 стр/мин., автоподатчик 50 листов, USB, 300 dpi, цветной, обратите внимание:
      поддержка форматов Минимум: A8 Максимум: A3. СКАНЕР СРАЗУ СКАНИРУЕТ ВPDF ФАЙЛ. Цена в Киеве 658$. Минус - нужно потрошить книги. Подробнее: http://www.pirit.com.ua/scanners/fujitsu/scansnap.htm>http://www.pirit.com.ua/scanners/fujitsu/scansnap.htm
      Кстати, если кто купит подобное очень, прошу написать отзыв mos777@ukr.net
      Для вычитки лучше программы Rutaplaj пока не встречал. Rutaplaj - программа перевода и
      проверки орфографии, интегрированная в WORD. Разработчик Украина, но русскоязычный текст проверяет вплоть до запятых. Может, кто осилит в итоге специальную программу-плагин, которая сможет автоматически, сканировать, распознавать,
      передавать в Word, проверять орфографию, сохранять в TXT или WORD-файл. Думаю, для грамотного программиста работа по плечу. Почему нужен txt, а не PDF? Лично я в последнее время книги не
      читаю, а слушаю с помощью программы синтезатора речи "НИКОЛАЙ". На сегодняшний день с модулями-словарями качество неплохое. По крайней мере, иногда забываюсь, что читает компьютер.
      Никакого там электронного голоса типа "Я РОБОТ". Конечно, ребенку не поставишь - ударения зачастую неправильные. Идеальным вариантом, было бы сохранять два формата, если присутствуют иллюстрации, txt и PDF. Я сканированием книг пока не занимался, но хочу начать. По этой причине прошу НАПИСАТЬ МНЕ ЛЮДЕЙ ИЗ КИЕВА И УКРАИНЫ, занимающиеся сканированием книг,
      для координации действий и обмена редкими электронными книгами в первую очередь интересуют о теме: Экономика, финансы, история, политика, психология, право,маркетинг,
      учебники ... Мои координаты mos777@ukr.net , Киев-222, а/я 226, тел.: (044) 547-24-07д Леонид


СООБЩЕНИЯ ЗА 05.10.2003
373. Andrej, Ekaterinburg (tverjakov@mail.ru) 14:39:42 [ответить]
     
      Кстати, о скорости сканирования.
     
      На моем Mustek BearPow 1200 при использовании встроенного в Файнридер TWAIN-драйвера скорость сканирования одного разворота у ФР6 примерно в 1,5 раза больше, чем у ФР5 (примерно 22 и 35 секунд соответственно) - и скорость проходки больше, и, главное, меньше пауза между страницами.
     
      Подскажите, плиз, как с этим у ФР7, увеличилась ли скорость?


372. Lexa, (lexahr@inbox.ru) 13:49:18 [ответить]
      > 364. В.Воблин.
      > Господа, кто уже поработал с седьмой версией ФайнРидера: ваше мнение? Какие на самом деле улучшения вы заметили? (если вообще).
     
      Единственное улучшение, которое я заметил - стал иногда включать одиночную цифру (например, в названии главы) в текстовый блок.
     
      > И очень интересно, есть ли разноца между сканерами по скорости прохода одной страницы при прочих равных улоовиях, замерял ли кто-нибудь этот параметр и что получилось. Я пытался говорить на эту тему с продавцами спец.магазина и ничего от них не услышал толкового на эту тему.
     
      Есть. На моём текущем (UMAX Astra 4500) и предыдущем (Acer ScanPrisa640U) цифры соответственно таковы (для ч/б или grayscale, 300dpi, размер сканируемой области 185мм/240мм): 250 разворотов в час и 110 разворотов в час.


371. Lexa, (lexahr@inbox.ru) 13:42:40 [ответить]
      > 342. textshare.
      > В пятницу купил лицензионный FineReader 7 Professional.
      > Есть предварительное впечатление, что Змей прав, и они снизили уровень проверки и пометки неуверенно распознанных слов и знаков.
      > FR, кажется, стал опасно самостоятелен в выборе вариантов: я 3-4 раза ловил его на том, что он при распознании заменил слово и даже его не пометил, как неуверенно распознанное.
      >
     
      Есть такое. Ещё он почему-то иногда не распознаёт явные переносы, т.е. переносы в словах, которые точно есть в словаре.
     
      > Устранен один маленький но неудобный баг (а может и не баг, а так,неосмотр) - изменение инструмента работы с изображением при переходе от страницы к странице. Например, если я прохожусь по всему пакету и чищу изображения от грязи, виньеток или колонтитулов, то каждый раз после переходп к изображению новой страницы приходилось заново выбирать ластик.
     
      Это было ещё в FR6. Причём, насколько я помню, в триал-версии этой возможности не было. (Или может эта возможность добавилась после установки SP2?)


СООБЩЕНИЯ ЗА 03.10.2003
370. Zmiy, Минск (zmiy@inbox.ru) 14:01:08 [ответить]
      > 368. Эмин.
      > После обработки текста FR6.0 и затем aftescan-ом переносы никогда не соединяются. Приходтся все вручную обрабатывать.
      > Например в тексте было вот так: "исполь-зовать", после обработки получается "исполь зовать". Может кто знает, как сделать так, чтобы автоматически все слова с переносами соединялись, т.е в конечном счете выглядело бы так: "использовать"?
     
      А кто сказал что должно быть "использовать"??? Вдруг в книге герой заикается и там так и написано - "исполь-зовать"? Так нельзя автоматически править!
      После правки текста AfterScan выводит результаты, чего он там направил, в таблицу. Не поленись и пройди по строчкам - проверь, что он направил... Это не так уж и долго...


369. Zmiy, Минск (zmiy@inbox.ru) 13:55:06 [ответить]
      > 367. Эмин.
      > > 366. Zmiy.
      > > Уф...
      > >
      > > CLTXT - ЧИСТКА И СКЛЕЙКА ТЕКСТА ПОСЛЕ FINEREADERА (ВЕР. 2.00)
      >
      > Zmiy, при исполнении программы Виндоуз выдает ошибку "cltxt.exe - обнаружена ошибка. Приложение будет закрыто. Приносим извинения за неудобства.Передайте Microsoft сведения об ошибке. Отправить отчет, НЕ ПЕРЕДАВАТЬ" Система у меня ХР. Что делать?
     
      А readme.txt прочитал? См. раздел "Системные требования"...
      С Office XP (Word XP) программа не будет работать! При проверке слов на дефис/перенос используется вызов спелчекера Wordа. Но работает это только с Word 97/2000, т.к. MS поменяли в Word XP функцию вызова спеллчекера... Я ищу выход из этой ситуации...


368. Эмин, Баку (azeribooks@narod.ru) 13:13:03 [ответить]
      После обработки текста FR6.0 и затем aftescan-ом переносы никогда не соединяются. Приходтся все вручную обрабатывать.
      Например в тексте было вот так: "исполь-зовать", после обработки получается "исполь зовать". Может кто знает, как сделать так, чтобы автоматически все слова с переносами соединялись, т.е в конечном счете выглядело бы так: "использовать"?


367. Эмин, Баку (azeribooks@narod.ru) 09:22:25 [ответить]
      > 366. Zmiy.
      > Уф...
      >
      > CLTXT - ЧИСТКА И СКЛЕЙКА ТЕКСТА ПОСЛЕ FINEREADERА (ВЕР. 2.00)
     
      Zmiy, при исполнении программы Виндоуз выдает ошибку "cltxt.exe - обнаружена ошибка. Приложение будет закрыто. Приносим извинения за неудобства.Передайте Microsoft сведения об ошибке. Отправить отчет, НЕ ПЕРЕДАВАТЬ" Система у меня ХР. Что делать?


366. Zmiy, Минск (zmiy@inbox.ru) 00:29:19 [ответить]
      Уф...
     
      CLTXT - ЧИСТКА И СКЛЕЙКА ТЕКСТА ПОСЛЕ FINEREADERА (ВЕР. 2.00)
     
      ОПИСАНИЕ
     
      Программа предназначена для автоматической чистки и склейки текста, форматированного пробелами и неубранными переносами слов, либо текста после распознования книги в FineReaderе.
      Выходной файл с расширением OUT представляет собой текст в кодировке DOS(ALT), в котором каждая строка - это абзац.
     
     
      ВЫПОЛНЯЕМЫЕ ФУНКЦИИ
     
      - распознование кодировок WIN и DOS(ALT);
      - преобразование в кодовую страницу DOS(ALT);
      - удаление форматирования пробелами;
      - склейка строк в один абзац (абзац = одна строка);
      - склейка страниц;
      - удаление мусора и номеров страниц;
      - коррекция слов с переносами (по русскому словарю MS Word; по текущему тексту; по запросу у пользователя);
      - выделение подстраничных сносок по символу '*' ;
      - коррекция пробелов и знаков препинания;
      - выделение глав, подглав и т.д. переводом строки.
     
     
      Скачать программу можно здесь: http://zmiy.da.ru>http://zmiy.da.ru
      Качаем, пробуем, критикуем...


СООБЩЕНИЯ ЗА 02.10.2003
365. леа, ариель (alkraftmakher@hotmail.com) 18:59:14 [ответить]
      Обратите внимание, что некоторые книги невозможно скачать, например, В.Набоков повесть "Другие берега" и несколько книг Рекса Стаута, начиная с "Убийство по правилам". Может быть найдете время исправить это досадное недоразумение, потому как возможности читать online в интернете у меня нет, возможно и у других читателей тоже. И, кстати, очень неудобно скачивать книги из вашей библиотеки, нужно ждать, пока раскроется файл, потом отправлять его в gzip, куда удобнее скачивать книги в OCR Aldebaran, а выбор там не такой большой как у вас. Пожалуйста, подумайте над тем, как можно было бы читателям с минимальными затратами времени скачивать книги. Всего доброго


364. В.Воблин, 14:31:08 [ответить]
      Господа, кто уже поработал с седьмой версией ФайнРидера: ваше мнение? Какие на самом деле улучшения вы заметили? (если вообще).
     
      И очень интересно, есть ли разноца между сканерами по скорости прохода одной страницы при прочих равных улоовиях, замерял ли кто-нибудь этот параметр и что получилось. Я пытался говорить на эту тему с продавцами спец.магазина и ничего от них не услышал толкового на эту тему.


СООБЩЕНИЯ ЗА 29.09.2003
362. Zmiy, Минск (zmiy@inbox.ru) 10:27:25 [ответить]
      > 361. kvik.
      > Помогите найти драйвера для mustek 12000sp plus (scsi) под 98 windows
     
      Вот тут что-то есть, но больно старое :
      http://www.mustek.com.tw/Download/driv_scanr/europe/12000spplus.html>http://www.mustek.com.tw/Download/driv_scanr/europe/12000spplus.html
     
      Тогда попробуй это :
      http://deck.net.ru/drivers/scanner/Mustek/ScanExpress>http://deck.net.ru/drivers/scanner/Mustek/ScanExpress%2012000SP/
     
      Если нет, то пробуй тут : (только нужно иметь сер.номер сканера)
      http://www.mustek.de/eng_/html/treiber/scanner_scanexpress_scsi.htm>http://www.mustek.de/eng_/html/treiber/scanner_scanexpress_scsi.htm
     
      Или тут, но по-русски : (тоже нужно иметь сер.номер сканера)
      http://www.mustek.ru/products/12000sep.htm>http://www.mustek.ru/products/12000sep.htm
     
      Если нет, тогда пробуй подобрать работающий драйвер на похожий сканер (например, Mustek ScanExpress 1200 III SP) тут :
      http://www.nix.ru/drivers/scanner_mustek.html>http://www.nix.ru/drivers/scanner_mustek.html


СООБЩЕНИЯ ЗА 28.09.2003
361. kvik, Архангельск (vickers@atnet.ru) 13:46:53 [ответить]
      Помогите найти драйвера для mustek 12000sp plus (scsi) под 98 windows


360. kvik, Архангельск (vickers@atnet.ru) 13:45:09 [ответить]
      > 17. Григорий.
      > > 15. Zmiy.
      > > Вопрос ко всем :
      > > Q: У кого какой сканер, его цена и скорость сканирования в час для разворота книжки обычного(самого распространенного) формата?
      >
      > Сейчас основные сканеры:
      > Mustek 12000 SP Plus (SCSI) скорость сканирования А4 (300дпи) примерно 30 сек. С учетом обратного хода - чуть больше разворота в минуту. Тк. медленный обратный ход. Зато недорого.
      > Acer 640S (SCSI) - проход - чуть быстрее, откат быстрый. Гасит лампу.
      >
      > Замечательны (из опробованных планшетников) старые Хьюлеты - 4c например. 15-20 сек сканирование 10 - обратный ход. Гасит лампу при обратном ходе - тоже плюс. Только не достать их теперь.
      >
      > Совершенно глупо использовать дорогие с высокой цветопередачей сканеры. Они перед каждый проходом греют и калибруют лампу.
      > Вывод - чем дешевле (проще) - тем лучше.
      > SCSI - быстрее чем USB. Правда, такой вывод только на основании личного опыта.
      >
      > > У меня Mustek 1200CU (USB). Цена до 70$. Скорость 200 стр. в час (100 разворотов).
      >
      > Быстро. Меняю представление о ЮСБ.
      >
      > > Я сканю и распознаю сразу, чтоб видеть ошибки распознавания и соответствующе корректировать яркость...
      >
      > Корректирую яркость только в начале сканирования и меняю только в случае, если вижу, что качество печати меняется. Распознаю пакетно. По ночам. Правда после выделения блоков - просматриваю. Особенно если стихи. Бывает такое запилит...
      >
      > > Как понимать Thick-as-a-brick "страницы плохо раскрываются"??? Уточни...
      > > Как понимать Thick-as-a-brick "И времени нет"??? --------------;-) Компьютер-то и так занят... (если он один...)


СООБЩЕНИЯ ЗА 27.09.2003
359. Sokolov, N.Novgorod (sokolov_av@pochta.ru) 11:11:38 [ответить]
      > 358. Zmiy.
      > > 356. Sokolov.
      > > > 355. Zmiy.
      > поиск работает в фр5-6-7, но только для "мягкого переноса" и "разрыва строки"...
      > а я ищу как можно найти "конец абзаца"...
      > никто не знает?
      >
      > frf не поизменяешь - в фр5-6-7 после таких изменений не открывается страница... видно там какие-то контрольные суммы...
     
      Насчет контрольных сумм не уверен. Дело в том, что каждый фрейм (абзац) пишется в отдельный блок -- сначала следует текст (в FR5-7 в Unicode, по-моему), за ним -- описание форматирования, привязка и т.д. При копании нарушается, наверное, привязка к изображению. А вот насчет поиска конца абзаца -- при сохранении форматировании пробелами весь текст в файле пишется в один фрейм (по крайней мере, в 4-ом).


358. Zmiy, Минск (zmiy@inbox.ru) 00:19:03 [ответить]
      > 356. Sokolov.
      > > 355. Zmiy.
      >
      > > Вопрос на засыпку :
      > >
      > > Как в ФР найти символ "конец абзаца"???
      > > (не путайте с символом разрыв строки!)
      > А что - в 7-ом уже есть подержка подобных замен? Или имеется в виду копание в самих frf-файлах?
     
      поиск работает в фр5-6-7, но только для "мягкого переноса" и "разрыва строки"...
      а я ищу как можно найти "конец абзаца"...
      никто не знает?
     
      frf не поизменяешь - в фр5-6-7 после таких изменений не открывается страница... видно там какие-то контрольные суммы...


СООБЩЕНИЯ ЗА 26.09.2003
357. Moris, Moscow 23:57:28 [ответить]
      Простите, но вроде как у вас не работает поисковик =( а без него я ваабще ничего найти не могу =(


Continue