Список форумов |  Добавить сообщение |  Правила |  12.09.2025, пятница, 01:05:51
СПИСОК ФОРУМОВ
11.09.2025
23:56 Главная гостевая книга библиотеки(5859)
09:07 Обо всем - мнения(3149)
06.09.2025
15:23 "Разыскивается песня", доска объявлений(5441)
02.09.2025
12:08 "Разыскиваются книжки", доска объявлений(15508)
10:11 Проблемы OCR и электронных библиотек(1973)
16.08.2025
07:39 Книжки, которые скоро будут выложены(56)
02.05.2025
21:25 О возвышенной поэзии(1593)
24.02.2025
13:09 Книжки, которые стоит прочитать(5230)
13:05 Водный и всякий туризм(87)
22.02.2025
06:11 Русские впечатления о заграничной жизни(9443)
05:34 Мнения читателей о дизайне библиотеки(1479)
Lib.Ru

Проблемы OCR и электронных библиотек
Тема форума: В этом форуме обсуждаются общие проблемы связанные с поддержкой электронных библиотек и сканированием книг.

А так же обсуждение статьи Вадима Ершова "О коллективных сайтах"

Отсортировано по [убыванию] [возрастанию]   

СООБЩЕНИЯ ЗА 30.01.2003
132. Zmiy, Минск (zmiy@inbox.ru) 12:38:44 [ответить]
      Привет All!
     
      Не будет ли любезен многоуважаемый All раскрыть тайну "Золотого ключика"?
     
      Абзацем считается несколько предложений не разделенных переводом строки. Это видно в ФР или в Ворде, если включить отображение непечатаемых символов. Если есть перевод строки - это новый абзац.
     
      Замечено, что ФР5/6 неверно распознают абзацы. Т.е. происходит либо склейка либо разделение абзацев. Самый простой пример - стихи - нет переводов строк... Другой пример - если абзац состоит из одного предложения, которое влезает в одну строку, т.е. заканчивается примерно на правой границе, то этот абзац непременно склеится со следующим. Есть еще другие варианты...
     
      Для экспериментов скачайте тестовые TIFFы, на которых проявляются такие ошибки:
      http://zpdd.chat.ru/files/test-tif.rar>http://zpdd.chat.ru/files/test-tif.rar
     
      Результаты моих исследований можно посмотреть тут:
      http://zpdd.chat.ru/files/test-txt.rar>http://zpdd.chat.ru/files/test-txt.rar
     
      Пояснения: 4-5-6 - ФР4-ФР5-ФР6
     
      *.tx1 - сохранение из ФР в ТХТ с делением на строки
     
      *.tx2 - сохранение из ФР в ТХТ без деления на строки, вот только test4.tx2 получен из test4.tx1 (на переносы не смотреть).
     
      В test5.tx2 и test6.tx2 видно если смотреть по картинкам, где идет склейка абзацев!
     
      *.tx3 - сохранение из ФР5/6 в *.rtf плюс пропуск через спец-программу. Видно, что абзацы, которые склеились в *.tx2 исправлены, но есть ложные срабатывания алгоритма - ложные абзацы...
     
     
      Так вот, наконец, вопрос:
      Как All борется с такой ситуацией?
      Какова методика исправления абзацев? (кроме как вычитки)
     
      ФР4 не предлагать!
      Это слишком просто (очень примитивно в век ФР5/6 и космических полетов).
      Я знаю, что в ФР4 есть сохранение в TXT
      с сохранением форматирования при помощи пробелов. И видел, что там с абзацами таких проблем нету...
     
      С уважением, Zmiy. --------------:-)
      http://zmiy.da.ru>http://zmiy.da.ru


СООБЩЕНИЯ ЗА 29.01.2003
131. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 05:27:40 [ответить]
      > 127. Соколов.
      > > 126. Вячеслав Сачков.
      > > > 125. Соколов.
      > Тогда давайте обсудим и примем стандарт описания для наших личных библиотек, как и предлагает Ершов? Это решит для нас ряд проблем, в частности возможность создания единого фонда, опираясь на это описание. Вся информация будет браться из него.
     
      Не понял, стандарт описания чего - личных библиотек или хранящихся в них текстов?


130. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 05:24:40 [ответить]
      > 128. Zmiy.
     
      > Сейчас в группах новостей RU.OCR и SU.BOOKS проходит обсуждение предложения В.Ершова.
     
      Как помнится, это, наверно, 50-й по счету классификатор в истории BOOK. Наверняка будут еще 100-й, 150-й и т.д. 8-) Для ВOOK в целом, каковой она себя представляет в настоящий момент, этот классификатор годится, так как текстов по филологии там, можно сказать, почти совсем нет. Нет политэкономии, истории и теории искусства. С историей дело обстоит тоже, мягко выражаясь, далеко не самым лучшим образом. С другими гуманитарными науками ненамного лучше, хотя ошибиться могу. Действительно художественная литература представлена, по сравнению с инетом, очень слабо. Ее возможно поэтому, как Слава предлагает, в принципе, полностью впихнуть в один раздел "Остальное". Но тогда останется еще логическое несоответствие с сохранением разделов "Проза" (как таковая), "Поэзия" (как таковая), "Драматургия". Взять, например, хороший однотомник Лермонтова, где проза, поэзия и драматургия в одном "флаконе" находятся. К какому из предлагаемых трех разделов такое издание относить? Или это именно единственно возможный случай для раздела "Остальное"? Многие фидошники - собиратели электронной литературы - обычно, помнится, совали такие вещи в раздел "Драма", куда помещалось буквально все посерьезнее Марининой, Чейза, Толкиена и Гарри Портера, т.е. все то, что было выше их уровня развития и потому абсолютно недоступно для их понимания. Ну, а в инете такая свалка просто не годится. Необходимо деление настоящей художественной литературы по периодам, хоть минимальное (античность, средние века, Возрождение и т.д.). И, разумеется, деление на прозу-поэзию-драматургию, я считаю, тоже ни к чему.


СООБЩЕНИЯ ЗА 28.01.2003
129. InFAiR, Уфа (infair@rusoil.net) 17:17:31 [ответить]
      > 128. Zmiy.
     
      > См. тему "А-y! Деpжатели сетевых библиотек!"
     
      Кажется у Платона, я читал,
      что восприятие жизни людьми ассоциируется у него с такой картиной:
      где-то в пещере люди прикованы лицом к стене
      и о событиях вне стен этой пещеры они судят по теням,
      отбрасываемым происходящим вне пещеры,
      причем только тем, которые проникают через узкий вход.
     
      Эта картина немного напоминает рунет,
      по части электронных библиотек, в частности,
      и обычные, бумажные - в полной мере.
     
      Попробуйте взглянуть на все со следующей точки зрения.
     
      Мысли - это камешки, мелкие, крупные, цветные - разные.
      Термины - это цемент, незначимые слова - вода.
      Пишущие книги - строители, замешивающие растворы,
      в результате чего получается кладочный раствор, штукатурка, бетон.
      Издатели отливают блоки, из которых составляют пирамиды библиотек.
     
      Чтобы добраться до необходимой информации,
      которая лежит, может на вершине пирамиды, а может в глубине ее
      надо иметь механизмы.
      Даже отыскав необходимый блок - его надо поднять, осилить интеллектуально.
      Затем проникнуть внутрь блока, чтобы отыскать ту необходимую мысль.
     
      Это все идет от физической природы бумажных библиотек,
      которые, как это становится очевидным на данном этапе,
      недалеко ушли от каменного века и глиняных, клинописных.
      Нельзя изготовить бумажную книгу в 750 тыс. стр., или размером 100х100 м.
      В электронном варианте таких ограничений нет,
      но многие привязаны к традиционной схеме -
      максимум - это электронный каталог-спецификация на пирамиду
      или гиперссылки - узкие ходы и коридоры в теле пирамиды.
     
      Мой взгляд на библиотеку следующий.
     
      Перевод в электронный вид - это разрушение пирамиды.
      Но при этом, структура сохраняется, информация не пропадает, мысли не исчезают.
      Мы даже отсканированные изображения держим,
      чтобы в любой момент можно было проверить идентичность,
      или восстановить блок (книгу) в первозданном виде.
      Не исчезли ни песок, ни вода, ни цемент.
      Компьютер позволяет мгновенно просеять все и отделить,
      не скажу ╚зерна от плевел╩, но, по крайней мере, разделить на фракции,
      и, при необходимости, отлить новый блок в новой форме.
      Но это побочный эффект.
      Основное - с применением различных методов поиска, стало возможным
      разделение информации (синтез, надеюсь еще впереди).
     
      Отсюда и заблуждение в последовательности поиска:
      найти полку (раздел) - найти книгу - найти страницу - найти фразу.
      В нашей программе вводится слово
      (или фраза, или автор, или что хотите)
      (как впрочем, и во всех поисковых программах);
      Осуществляется ╚сквозной╩, полнотекстовый в настоящем смысле поиск:
      программа ╚пролистывает╩ все 2,5 тыс. книг, естественно по индексу.
      В результатах поиска - все, и меня не интересует какая книга, кто автор и
      т.п., хотя эта информация тоже выводится.
     
      Для существующих текстовых (txt) электронных библиотек
      создать такую программу плевое дело:
      надо разбить тексты на блоки,
      на каждом поставить штамп изготовителя (автор, название книги)
      и время изготовления (стр. ил


128. Zmiy, Минск (zmiy@inbox.ru) 10:31:20 [ответить]
     
      Сейчас в группах новостей RU.OCR и SU.BOOKS проходит обсуждение предложения В.Ершова.
      См. тему "А-y! Деpжатели сетевых библиотек!"
      Там Слава Алексеев предлагает на суд свой вариант "поискового классификатора для электронных библиотек"...
      Вход, например, тут http://www.fido-online.com/>http://www.fido-online.com/


127. Соколов, 08:43:42 [ответить]
      > 126. Вячеслав Сачков.
      > > 125. Соколов.
      > > По моему мнению, сначала следовало бы решить вопрос о стандартизации описания текста произведений, а уж после начинать разговор о едином фонде. Только тогда единый фонд имеет смысл.
      >
      > Но стандарт ОПИСАНИЯ электронного издания (паспортички), мне кажется, действительно нужен. Пока в порядке эксперимента используются соответствующие формы, жизнь должна показать, что годится, что нет. Ведь стандарт - это юридический документ, а право только законодательно закрепляет то, что уже и так сложилось на практике.
     
      Тогда давайте обсудим и примем стандарт описания для наших личных библиотек, как и предлагает Ершов? Это решит для нас ряд проблем, в частности возможность создания единого фонда, опираясь на это описание. Вся информация будет браться из него.


126. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:47:35 [ответить]
      > 125. Соколов.
      > По моему мнению, сначала следовало бы решить вопрос о стандартизации описания текста произведений, а уж после начинать разговор о едином фонде. Только тогда единый фонд имеет смысл.
     
      Госстандарт электронного текста давным-давно принят. Спорить можно о том, что (какие параметры) стоило стандартизировать, а с какими поспешили. Но лично я проблемы здесь не вижу. Для одних источников, например, принципиально важно сохранение оригинальной пагинации, для других достаточно указания (и то, не строго обязательно) одних только общих выходных данных, причем даже не оригинального бумажного, а электронного текста, - например, в случае книжки Бориса Штерна о Чехове, написанной якобы У.С.Моэмом. Вопрос, может быть, где-то больше этический, чем технический, юридический и пр. Но стандарт ОПИСАНИЯ электронного издания (паспортички), мне кажется, действительно нужен. Пока в порядке эксперимента используются соответствующие формы, жизнь должна показать, что годится, что нет. Ведь стандарт - это юридический документ, а право только законодательно закрепляет то, что уже и так сложилось на практике.


СООБЩЕНИЯ ЗА 27.01.2003
125. Соколов, 09:57:38 [ответить]
      Я тут прочитал споры насчет PDF и прочего. И хочу заметить следующее: в действительно грамотной правильной библиотеке файлы должны храниться в универсальном формате. Наиболее грамотно с этой точки зрения можно описать структуру произведения с помощью языка XML или SGML. Недостатком их является необходимость стандартизации описания.
      Все прочие форматы в действительности должны рассматриваться (и будут рассматриваться в будущем) как авторские/читательские публикации. Это относится как к текстовым файлам, как к сверстанной в HTML-формате книге, как к форматам текстовых процессоров, как и форматам всевозможных EBook (в том числе и PDF), так и графическим форматам представления (репринт).
      Так что все споры насчет формата бессмысленны. Мы все занимаемся, по сути дела, публикацией произведений. И каждый имеет право делать это в том формате, который ему нравится, который он считает лучшим. И претензии, предъявляемые нам по поводу авторских прав, основаны как раз на этом.
      В.Ершов, предложив объединение библиотек, не учитывает как раз того, что все мы не является держателями библиотек. Мы рапространяем и поддерживаем авторские личные коллекции, до какого бы размера не разрослась эта коллекция.
      По моему мнению, сначала следовало бы решить вопрос о стандартизации описания текста произведений, а уж после начинать разговор о едином фонде. Только тогда единый фонд имеет смысл.


124. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:43:13 [ответить]
      > 118. Максим Мошков.
      > > 117. Вячеслав Сачков.
      > > Формулы/диаграммы/таблицы/схемы.
      >
      > > отсутствующие в наборе символов ворда, тогда вопрос есть. Но в общем случае это очень редко бывает.
      >
      > Возьми школьные учебники по алгебре, физике и тригонометрии. И _все_ университетские учебники (за исключением истории КПСС). И подумай, что от них останется после распознавания и ворда.
     
      Согласен, должен поправиться. Я имел в виду набор ОСНОВНЫХ символов ворда. С ними таблицы довольно корректно снимаются, если бывает нужна правка, то сравнительно небольшая. А если дополнительные символы, или, много того хуже, вовсе отсутствующие, то тут все, что угодно, может быть. Это правильно.


СООБЩЕНИЯ ЗА 26.01.2003
123. PDF-библиотека, Augsburg (info@imwerden.de) 21:53:08 [ответить]
      > 122. Максим Мошков.
      > > 119. PDF-библиотека.
      > > Моя идея - сделать конечный продукт. Понимаю, что многим создателям своих библиотек моя идея не по душе
      >
      > Да нет, дело не в том, по душе/не по душе.
      > Просто большая часть ваших усилий уходит на собственно верстку и украшательство книжки. По сути же в нее при этом не добавляется ни одного бита информации по сравнению с банальной хтмлной или вордовой версией. Ваши пдф-ы по сути своей остаются чисто-текстовыми.
      > С тем, на что вы тратите 70% своего времени, прекрасно справляется автомат, дравер принтера. Именно это мне печально, а не что-либо еще.
     
      Я согласен и не согласен с вами одновременно. Во-первых, не 70%, 70% занимает вычитка текста. А не согласен я с мнением, что главное - информация. В этом смысле, djvu - прекрасен. Для меня большая разница, читаю я Пушкина в издании "Классиков и современников" или же в издании Академии наук. То, что клеёная книга разваливается после первого же открывания книги... Я всегда старался, по-возможности, выбирать старые издания. Даже в Германии я купил Гессе - гдр'овское издание, но сшитое, нежели фрг'вское, но клеёное. Потому, я стараюсь в интернете реализовать некоторым образом те же принципы.


122. Максим Мошков, 14:35:54 [ответить]
      > 119. PDF-библиотека.
      > Моя идея - сделать конечный продукт. Понимаю, что многим создателям своих библиотек моя идея не по душе
     
      Да нет, дело не в том, по душе/не по душе.
      Просто большая часть ваших усилий уходит на собственно верстку и украшательство книжки. По сути же в нее при этом не добавляется ни одного бита информации по сравнению с банальной хтмлной или вордовой версией. Ваши пдф-ы по сути своей остаются чисто-текстовыми.
      С тем, на что вы тратите 70% своего времени, прекрасно справляется автомат, дравер принтера. Именно это мне печально, а не что-либо еще.


121. PDF-библиотека, Augsburg (info@imwerden.de) 13:52:43 [ответить]
      djvu За и против.
     
      "За". Размеры маленькие. Вычитка не нужна. Не пропадает колорит печатного издания. Делается по сути фотографическое воспроизведение.
     
      Читатель получает книгу. Для книг 17-19 веков - это очень хороший формат!!!
     
      "Против". Книга в 500 страниц становится набором из 500 файлов (потеря или недокачка одного файла ведет к...). Локальный ПОИСК отсутствует. Поисковые машины тоже ничего не находят.
     
      Вообще, зачем нужен Достоевский в интернете??? А затем, что если вы вспормнили какую-то фразу, слово, имя, то поискать и посмотреть - где оно было Достоевским употреблено...
     
      Итак, jedem das sein. То есть каждому своё...
     
      PS Кстати, немецкие тексты у Мошкова в любимом txt потеряли все свои прелести...


120. Damirjan, Когалым (damirjan@mail.ru) 13:49:51 [ответить]
      > 118. Максим Мошков.
      > > 117. Вячеслав Сачков.
      > > Формулы/диаграммы/таблицы/схемы.
      >
      > > отсутствующие в наборе символов ворда, тогда вопрос есть. Но в общем случае это очень редко бывает.
      >
      > Возьми школьные учебники по алгебре, физике и тригонометрии. И _все_ университетские учебники (за исключением истории КПСС). И подумай, что от них останется после распознавания и ворда.
     
      Просто на порядок больше работы, а так в общем-то проблем больших нет. Я как раз занимаюсь OCR технической периодики.
      "Тяжелые" формулы - как рисунок, таблицы - тоже без проблем. так что FieneReader-а вполне хватает.
      Если есть желание - гляньте на www.geolib.narod.ru - там есть пример моей работы.


119. PDF-библиотека, Augsburg (info@imwerden.de) 13:44:23 [ответить]
      > 98. Zmiy.
      > > 97. PDF-библиотека.
      > >
      > Ну, то что сейчас появляется у В.Ершова - это одно, а вот то что раньше было у В.Е. нету...
      > Стоит ли конвертить в PDF, если его, кроме как в Acrobat Reader, просто так никуда не всунешь...
     
      Немного расскажу о моей технологии, чтобы было понятнее. Дело в том, что я делаю не pdf, a pmd, то есть PageMakerDokument.
      Такой была моя технология:
      отсканированный текст я открываю в Word, затем копирую его в PageMaker, после этого ведется вёрстка текста. Выбор шрифта, параметров абзаца, разбивка текста по страницам (чтобы не было висячих строк), создание Содержания, примечаний, комментариев, проверка иноязычных текстов... После этого я книгу РАСПЕЧАТЫВАЮ и вычитываю. К сожалению это не всегда реально, но в большинстве случаев я распечатываю текст. Только в распечатанном тексте я вижу все, или почти все ошибки. Потом, исправив ошибки, я конвертирую файл в pdf.
      Если обрабатывать текст в Word, а затем его переносить в PageMaker, то появлябтся ошибки форматирования и/или ошибки в иноязычных текстах (проблемы шрифта).
      Последнее время я делаю большую часть работы в Word, а затем переношу результат в PageMaker. Это добавляет мне работы.
      Если делать doc, то его надо zipировать, иначе файл получается довольно большой. При zipировании пропадает возможность поиска по СОДЕРЖАНИЮ ФАЙЛА. Довольно много людей находят сейчас мою страницу по отдельной строчке Рильке или Гёльдерлина на немецком, правда, языке. Но всё, что в pdf - распознается Goggle, пока, к сожалению на русском это не работает. А всовывать никуда ничего не надо. Если нужна цитата - пожалуйста - копировать и вставлять. Если найдена ошибка в моем файле - сообщать по email.
      Моя идея - сделать конечный продукт. Понимаю, что многим создателям своих библиотек моя идея не по душе, но читателям нравится...


118. Максим Мошков, 11:59:00 [ответить]
      > 117. Вячеслав Сачков.
      > Формулы/диаграммы/таблицы/схемы.
     
      > отсутствующие в наборе символов ворда, тогда вопрос есть. Но в общем случае это очень редко бывает.
     
      Возьми школьные учебники по алгебре, физике и тригонометрии. И _все_ университетские учебники (за исключением истории КПСС). И подумай, что от них останется после распознавания и ворда.


117. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:22:34 [ответить]
      > 114. Максим Мошков.
      > > 113. Вячеслав Сачков.
      > > которые усиленно бумажные книги дигитализируют традиционным путем.
      >
      > Я слабо себе представляю, что это такое - традиционный путь.
      > Скан + текстовый OCR? Ну так это имеет смысл только для белетристики, тут текст "гладкий".
     
      Юзер (в широком понимании этого слова) туп, делает по-тупому. Файнридер - Save as.. и все дела. Что тут непонятного?
     
      >
      > А любая техническая литература и большинство учебников - этим путем не пролезет. Формулы/диаграммы/таблицы/схемы...
      > О них и идет разговор. В каком формате готовить, в каком хранить, как представлять пользователю.
     
      Ворд - html в подавляющем большинстве случаев легко схватывают. Если там язык редкий типа иврита или знаки, отсутствующие в наборе символов ворда, тогда вопрос есть. Но в общем случае это очень редко бывает.
     
      >
      > А "гладкий" текст - с ним все ясно и без этого. Да. Традиционный путь, и никаких гвоздей.
     
      Дык.


116. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:12:27 [ответить]
      > 115. InFAiR.
      > Думаю в следующей версии Fine Reader будет читать и djvu.
     
      Не будет.


СООБЩЕНИЯ ЗА 25.01.2003
115. InFAiR, Уфа (infair@rusoil.net) 13:56:22 [ответить]
      > 111. Эмин.
     
      > Возможно ли опять переформатировать из dejavu в tif?
      > А если потом нужно будет распознать эти файлы?
      > Кажется Fine Reader не воспринимает dejavu?
     
      Возможно.
      Мы храним и tif.
      С совершенствованием Fine Reader-а мы перераспознаем материал.
      Думаю в следующей версии Fine Reader будет читать и djvu.


114. Максим Мошков, 13:39:06 [ответить]
      > 113. Вячеслав Сачков.
      > которые усиленно бумажные книги дигитализируют традиционным путем.
     
      Я слабо себе представляю, что это такое - традиционный путь.
      Скан + текстовый OCR? Ну так это имеет смысл только для белетристики, тут текст "гладкий".
     
      А любая техническая литература и большинство учебников - этим путем не пролезет. Формулы/диаграммы/таблицы/схемы...
      О них и идет разговор. В каком формате готовить, в каком хранить, как представлять пользователю.
     
      А "гладкий" текст - с ним все ясно и без этого. Да. Традиционный путь, и никаких гвоздей.


113. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 02:30:13 [ответить]
      > 110. Максим Мошков.
      > > Если по предлагаемой технологии взять обрабатывать фонд "ленинки", на это уйдет все равно более 500 лет. Веком раньше, веком позже - великая разница...
      >
      > Если по предлагаемой технологии установить не 2 сканера, а 200, то весь фонд ленинки будет сосканирован за 10 лет.
      > (И при этом - уничтожены все оригиналы ;^)
     
      Допустим, эта технология самая лутчшая. Но буквально во всех ведомственных библиотеках сейчас сканерщиков заводят, которые усиленно бумажные книги дигитализируют традиционным путем. Очень даже шустро дело идет. Вообще уйма книг переснимается, причем, бывает, одно и то же разные ведомства дублируют по несколько раз. Теперь еще ленинка к этому дурдому подключится, и все замечательно будет...


СООБЩЕНИЯ ЗА 24.01.2003
112. Максим Мошков, 17:54:18 [ответить]
      > 111. Эмин.
      > Возможно ли опять переформатировать из dejavu в tif?
     
      Без этой возможности Dejavu никому бы не был нужен.


111. Эмин, Баку (azeribooks@narod.ru) 17:01:36 [ответить]
      > 110. Максим Мошков.
      > Книги кодируются в dejavu - 15-30 кб на страницу.
     
      А если потом нужно будет распознать эти файлы? Кажется Fine Reader не воспринимает dejavu? Возможно ли опять переформатировать из dejavu в tif?


110. Максим Мошков, 11:52:16 [ответить]
      > 109. Вячеслав Сачков.
      > > Книги представляются и читаются в графическом виде.
      > Вы не обратили внимание на ту деталь, что оригинал, с которого в принципе могло делаться считывание, притом уничтожается.
     
      Книги представляются в графическом виде. 300 dpi вполне достаточно, чтобы при чтении ничего не потерять.
     
      > Кроме того, проблема 100-километровые тифы туда-сюда таскать.
     
      Книги кодируются в dejavu - 15-30 кб на страницу.
     
      > Но если это, к примеру, словарь, опечатки в котором могут привести к существенному искажению содержания технической документации и далее к серьезной техногенной катастрофе? Ошибки должны быть исключены на все 100%.
     
      Книги представляются в графическом виде. 300 dpi.
     
      > Если по предлагаемой технологии взять обрабатывать фонд "ленинки", на это уйдет все равно более 500 лет. Веком раньше, веком позже - великая разница...
     
      Если по предлагаемой технологии установить не 2 сканера, а 200, то весь фонд ленинки будет сосканирован за 10 лет.
      (И при этом - уничтожены все оригиналы ;^)


109. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 03:22:52 [ответить]
      > 107. Максим Мошков.
      > > 106. Вячеслав Сачков.
      > > Халтура.
      >
      > Книги представляются и читаются в графическом виде.
      > Их не зачем вычитывать.
     
      Вы не обратили внимание на ту деталь, что оригинал, с которого в принципе могло делаться считывание, притом уничтожается. Т.е. если вдруг распознавать/вычитывать понадобится, то это может оказаться невозможным. Кроме того, проблема 100-километровые тифы туда-сюда таскать. Еще более серьезная проблема заключается в следующем. В локальном проекте такая технология, как и традиционная может принципиально применяться за отсутствием лучшей. Но для глобального применения она не годится. Если в литературных текстах будут допущены опечатки, ничего особенно страшного не произойдет, читатель может это понять и пережить без инфаркта. Но если это, к примеру, словарь, опечатки в котором могут привести к существенному искажению содержания технической документации и далее к серьезной техногенной катастрофе? Ошибки должны быть исключены на все 100%. Спешка необходима при ловле блох и когда находишься в гостях у чужой жены, это понятно. А в данной ситуации она недостаточно оправдана. Если по предлагаемой технологии взять обрабатывать фонд "ленинки", на это уйдет все равно более 500 лет. Веком раньше, веком позже - великая разница...


СООБЩЕНИЯ ЗА 23.01.2003
108. Ихтик, Уфа (iht57@mail.ru) 13:36:53 [ответить]
      Делюсь имеющейся у меня информацией с господами держателями библиотек и их сотрудниками.
      По нижеследующим адресам вы можете узнать веб-адреса самих библиотек. Если у вас есть что прибавить к списку - пжалста напишите
     
      Приёмные любых электронных текстов:
      orel@rsl.ru, moshkow@systud.msk.su, books@myweb.ru, rw@vinbazar.com, kazak2@rambler.ru, forsas@mail.ru, bestbooks@pisem.net, biblio@i-u.ru, webmaster@referats.com, library@till.ru, library@till.ru, info@bigmir.net, admin@bestlibrary.ru, Adm@booksite.ru, anonimous@au.ru, lemail@shaw.ca, chrushka@hotmail.com, lohness@klondike.ru, vgershov@pochtamt.ru, kalaus_l@mail.ru, Lib_Pavel@km.ru
     
      приём исключительно философских текстов:
      lebedev@philosophy.ru, wagner@ecoclub.nsu.ru, philosophy@allru.net, science@philosophy.nsc.ru, webmaster@mcf.msk.ru, library@log.philos.msu.ru, wagner@ecoclub.nsu.ru, yanko_slava@yahoo.com
     
      Приём правовой (юридической) литературы:
      tarraskad@mail.ru, tarasei@mail.ru, study@mirprava.ru, kazref@narod.ru, webmaster@referats.com, sigura@soros.albertina.ru, sad@jurfak.spb.ru, interlaw@dax.ru, lawyerclub@mail.ru, LawyerClub@permonline.ru, vlachova@online.ru, info@mirprava.ru, sovetnikov@ultranet.ru, ranger@online.sinor.ru
     
      Любая учебная лит-ра:
      biblio@i-u.ru, auditorium@auditorium.ru
     
      библиотека литературы сумеречного настроения (http://www.literature.gothic.ru/>http://www.literature.gothic.ru/)
      birdy@aha.ru
     
     
      Только русские тексты русских авторов:
      litvinov@snezhinsk.ru


107. Максим Мошков, 12:58:20 [ответить]
      > 106. Вячеслав Сачков.
      > Халтура.
     
      Книги представляются и читаются в графическом виде.
      Их не зачем вычитывать.


106. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 02:23:50 [ответить]
      > 105. InFAiR.
      > > А книги не вычитываются? Все програмно происходит? Интересно сколько ошибок на разворот? Или их вообще нет :)))
      >
      > Книги не вычитываются.
     
      Это типа: "Казнить нельзя помиловать"? Халтура.


СООБЩЕНИЯ ЗА 21.01.2003
105. InFAiR, Уфа (infair@rusoil.net) 12:43:43 [ответить]
      > А книги не вычитываются? Все програмно происходит? Интересно сколько ошибок на разворот? Или их вообще нет :)))
     
      Книги не вычитываются.
      Почти вся обработка производится программно.
      Некоторые брошюры и глазами прочитать трудно.
      В таких изданиях максимальная ошибка 70,5%.
      Большинство книг удовлетворительного качества,
      в них для текстовой части ошибки составляют до 0,002%.
      Есть книги до 900 стр. без единой ошибки, но это исключение.
      В среднем (на 1 тыс. книг) ошибка - 0,0025%.
      Это, конечно больше, чем норма РГБ (0,0001%) -
      по стандарту допускается 1 ошибка на 10 тыс. слов,
      но на качество поиска это почти не влияет:
      в среднем (на 100 книг) - 99,99% для обычного поиска;
      122% для вероятностного (fuzzy) поиска,
      за счет снижения релевантности на 20-25%.


104. ЯVR, 08:18:42 [ответить]
      > 103. Максим Мошков.
      > > 102. ЯVR.
      > > А книги не вычитываются? Все програмно происходит? Интересно сколько ошибок на разворот? Или их вообще нет :)))
      >
      > Они их в графическом виде хранят, "as is".
      > А распознают автоматом - чтоб было что индексеру-поисковику скормить. Для полнотекстового поиска. А читают - в графическом режиме.
      >
      > Правда, книжки приходится резать. Но с другой стороны - а что их жалеть.
     
      В графическом... ясно... а то я думал что за скорости космические :)))


103. Максим Мошков, 01:58:18 [ответить]
      > 102. ЯVR.
      > А книги не вычитываются? Все програмно происходит? Интересно сколько ошибок на разворот? Или их вообще нет :)))
     
      Они их в графическом виде хранят, "as is".
      А распознают автоматом - чтоб было что индексеру-поисковику скормить. Для полнотекстового поиска. А читают - в графическом режиме.
     
      Правда, книжки приходится резать. Но с другой стороны - а что их жалеть.


СООБЩЕНИЯ ЗА 20.01.2003
102. ЯVR, 20:12:07 [ответить]
      > 101. Абызгильдин А.Ю..
     
      > > Сколько стоит сканирующий комплекс, вместе с софтом?
      > > Сколько человек работают в технологической цепочке?
      > > Какой об'ем в dejavu занимает в среднем одна 300-страничная книжка?
      > > Я читал где-то, что dejavu жмет одну страницу в 15-30Кб. Это правда?
      >
      > у нас 2 сканера по 3 тыс.$ каждый.
      > ПО входит в комплект поставки.
      > Работает обычно 1 человек.
      > 1 книга - около 5-6 МВ.
      > В djvu стр. 15-20 КВ - правда.
     
      А книги не вычитываются? Все програмно происходит? Интересно сколько ошибок на разворот? Или их вообще нет :)))


101. Абызгильдин А.Ю., Уфа (infair@rusoil.net) 18:11:40 [ответить]
     
      > Сколько стоит сканирующий комплекс, вместе с софтом?
      > Сколько человек работают в технологической цепочке?
      > Какой об'ем в dejavu занимает в среднем одна 300-страничная книжка?
      > Я читал где-то, что dejavu жмет одну страницу в 15-30Кб. Это правда?
     
      у нас 2 сканера по 3 тыс.$ каждый.
      ПО входит в комплект поставки.
      Работает обычно 1 человек.
      1 книга - около 5-6 МВ.
      В djvu стр. 15-20 КВ - правда.


100. Максим Мошков, 13:27:01 [ответить]
      > 96. Ответ тов. N.
      > производительность - 960 книг.
      > Качество - стандартное - 300 dpi, больше и не нужно.
      > 30 мин./книга - на кодирование в djvu и распознавание в txt,
     
      Вопросы от любопытного:
     
      Сколько стоит сканирующий комплекс, вместе с софтом?
      Сколько человек работают в технологической цепочке?
      Какой об'ем в dejavu занимает в среднем одна 300-страничная книжка?
      Я читал где-то, что dejavu жмет одну страницу в 15-30Кб. Это правда?


99. Максим Мошков, 13:13:15 [ответить]
      > 97. PDF-библиотека.
      > Надеюсь, что у Вадима такой проблемы нет.
      > Тем более у Максима :)))))
     
      Я тоже на это надеюсь. С 1.5T месячного трафика такие проблемы - довольно болезненны.
     
      > Возможно, что аудио в формате WAV тоже будут больше скачивать, чем mp3???
     
      А угадайте с одного раза.


98. Zmiy, Минск (zmiy@inbox.ru) 11:24:19 [ответить]
      > 97. PDF-библиотека.
      >
      > Мои тексты, как и Ваши, уважаемый Змий, выкладываются в doc в библиотеке Вадима Ершова, мне хватает моего хаоса файлов :)). И не интересно, сколько у меня скачивают, до тех пор, пока мне не надо будет доплачивать. Не знаю, как в России, но в Германии: если у меня будут скачивать больше чем ..Гб, то мне, за каждый последующий Мв придется платить. Надеюсь, что у Вадима такой проблемы нет. Тем более у Максима :)))))
      > Возможно, что аудио в формате WAV тоже будут больше скачивать, чем mp3???
     
      Ну, то что сейчас появляется у В.Ершова - это одно, а вот то что раньше было у В.Е. нету...
      Стоит ли конвертить в PDF, если его, кроме как в Acrobat Reader, просто так никуда не всунешь...


СООБЩЕНИЯ ЗА 19.01.2003
97. PDF-библиотека, Augsburg, Germany (info@imwerden.de) 22:21:25 [ответить]
      > 95. Zmiy.
      > > PDF-библиотека - www.imwerden.de .
      > А вот для эксперимента не можешь выкладывать тексты не только в PDF, но и скажем в DOC ??? И поcмотреть по статистике, что больше будут скачивать!.. Сомневаюсь, что победит PDF...
     
      Мои тексты, как и Ваши, уважаемый Змий, выкладываются в doc в библиотеке Вадима Ершова, мне хватает моего хаоса файлов :)). И не интересно, сколько у меня скачивают, до тех пор, пока мне не надо будет доплачивать. Не знаю, как в России, но в Германии: если у меня будут скачивать больше чем ..Гб, то мне, за каждый последующий Мв придется платить. Надеюсь, что у Вадима такой проблемы нет. Тем более у Максима :)))))
      Возможно, что аудио в формате WAV тоже будут больше скачивать, чем mp3???


СООБЩЕНИЯ ЗА 18.01.2003
96. Ответ тов. N, Уфа (infair@rusoil.net) 14:49:12 [ответить]
      ОК. Продолжим.
      Мы не понимаем друг друга, и это нормально,
      т.к. Вы смотрите на проблему с одной стороны, а я с другой
      (дело тут не в том, что Вы "гуманитарий", а я "технарь").
     
      Позвольте, я поясню свой взгляд на информацию, так как я это понимаю,
      с точки зрения химика-технолога по переработке нефти, каковым и являюсь.
     
      В технологической цепочке любого производства
      для получения из сырья продукта необходимо
      сырье найти - переработать - продать продукт.
     
      По части переработки у нас проблем нет:
      При скорости сканирования 30 стр./мин,
      исходя из 9600 минут в месяце и 300 стр. в книге, производительность - 960
      книг.
      Качество - стандартное - 300 dpi, больше и не нужно.
      30 мин./книга - на кодирование в djvu и распознавание в txt,
      но в компьютерах у нас недостатка нет - около 30 компьютеров хватает,
      чтобы 1000 книг переработать за неделю-другую.
      Почему Вы решили, что мы сохраняем в doc или, тем паче в html ?
      В гиперссылках необходимости нет,
      и в перспективе мы такой вопрос не рассматриваем, т.к. он у нас позади.
      Во-первых, все книги (по моей специальности) у меня под рукой
      в электронном виде; поисковая программа выводит их мне все.
      Во-вторых, реферат со всеми выписками и ссылками составляется
      автоматически даже не в секунды, а в доли секунды.
     
      Проблема (по части гуманитарной литературы) - в первом и последнем звене:
      Сырье найти и продукт продать.
      Кстати, не далее, как вчера я наблюдал такую картину.
      Из подвала нашего университета вывезли в макулатуру грузовик,
      в т.ч. Ленин, Сталин, и почти все, что я привел в списке,
      переведенной в электронный вид литературы.
      Директор библиотеки меня успокоила,
      что экземпляры для разрезания и сканирования остались.
     
      Так что в сырье, оказывается, тоже особой проблемы нет.
      Остается продажа продукта, без которой не найти средств,
      для развития гуманитарных библиотек - целенаправленного,
      а не усилиями энтузиастов-одиночек.
     
      Мои расчеты здесь расходятся с Вашими, т.к. я иду по восходящей - от
      себестоимости.
      Допустим, минимально, себестоимость перевода книги в 300 стр. - 100 руб.
      Это цена демпинговая, т.к. предложения дают цену от 0,5 до 6 руб. за стр.
      Тысяча книг, а это довольно солидная библиотека, соответственно, 100 тыс. рублей.
      Сумма, поверьте, смешная для такого объема работы.
      Естественно, таких денег у гуманитариев нет, так скиньтесь!
      50 организаций могут купить за пару тысяч библиотеку в тысячу книг?
      При этом цена 1 книги в библиотеке 2 рубля!
     
      Конечно, такие расчеты встречаются с нашей "суровой" действительностью.
      По России десятки тысяч библиотек, тысячи университетов и институтов,
      сотни "объединений" и десятки фондов, финансирующих "электронные
      библиотеки",
      которые занимаются копированием и сбором "ссылок и гиперссылок".
      Например, в интернете я насчитал 26 электронных библиотек,
      приводящих ссылку на ELSEVIER и т.п.
      А кто и когда займется организацией наших электронных библиотек?
      Если не Вы - гуманитарными или Я - техническими?
     
      Абызгильдин А.Ю.


СООБЩЕНИЯ ЗА 17.01.2003
95. Zmiy, Минск (zmiy@inbox.ru) 16:18:41 [ответить]
      >
      > PDF-библиотека - www.imwerden.de .
      >
     
      А вот для эксперимента не можешь выкладывать тексты не только в PDF, но и скажем в DOC ???
      И поcмотреть по статистике, что больше будут скачивать!..
      Сомневаюсь, что победит PDF...


СООБЩЕНИЯ ЗА 14.01.2003
93. Сергей Сотников, Минск 20:04:36 [ответить]
      > 91. Вячеслав Сачков.
      > > 86. Эмин.
      > > > 84. Вячеслав Сачков.
      > > > > 81. Павел.
      > > У меня все обычно проходит нормально, но размер файла в .htm получается прибл. на 30-40% больше исходного файла...
      > Я на сидюке у друга видел такую прогу, он обещал мне этот диск дать. Сам он ее пробовал и хвалил. Когда даст, посмотрю, отвечу по существу.
     
      Попробуй ClearTXT (http://www.gribuser.ru/freeware/cleartxt/index.shtml>http://www.gribuser.ru/freeware/cleartxt/index.shtml)
      Мощная программа. Вот описание из хелпа:
     
      -----------------------------------------------------
     
      Программа преобразует текстовые файлы в HTML. Параграфы, заголовки, эпиграфы и прочие элементы документа выявляются и сохраняются в виде форматирования HTML. Так же в программу встроен ╚Reader╩ со всеми необходимыми функциями.
     
      Программа способна распознать практически любой текст, начиная от созданного в ╚лексиконе╩ и заканчивая псевдо-html из библиотеки Мошкова (с опорой на теги и вместо абзацев).
     
      Широко понятная аналогия ╚автоформат╩ в MS Word. Разница (огромная) в качестве распознавания и возможностях управления процессом.
     
      Если Вы хоть раз сталкивались с задачей переформатирования текстовых файлов, Вы уже знаете, насколько это непросто. Эта программа оправдает ваши самые смелые ожидания и сделает этот процесс если не элементарным, то максимально производительным и удобным как для End-Usera, так и для пользователя с особыми предпочтениями.
     
      Reader позволяет делать заметки, закладки, форматировать весь документ под ваши предпочтения (например, сделать зеленый текст на черном фоне с шрифтом Verdana 14 пунктов) и многое другое. Все изменения (например, заметки) сохраняются и доступны в любом Web Browser-е.
     
      Программа включает все операции, необходимые при работе с e-Book. Большинство электронных книг на русском существуют в виде текстовых файлов, с помощью этой программы Вы можете подготовить электронную книгу к чтению, настроить ее внешний вид в соответствии с вашими предпочтениями и комфортно прочитать ее.
     
      -----------------------------------------------------


92. Эмин, Баку (azeribooks@narod.ru) 08:50:47 [ответить]
      > 90. Максим Мошков.
      > > 88. Эмин.
      > > выдает ошибку на этом участке:
      > > ChangeFileOpenDirectory "C:\WINDOWS\TEMP\"
      > > ActiveDocument.SaveAs FileName:="C:\BBS\moshkow.txt",
      >
      > Kaк насчет - создать директорию c:\BBS ?
     
     
      И директорию создал, все равно не работает, пишет Compile Error: Sintax Error. Может у меня Windows2000 стоит - поэтому макрос не работает.


91. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:50:21 [ответить]
      > 86. Эмин.
      > > 84. Вячеслав Сачков.
      > > > 81. Павел.
      > У меня все обычно проходит нормально, но размер файла в .htm получается прибл. на 30-40% больше исходного файла Word, например если в Ворде файл "весил" 1600 Кб, то при сохранении его в .htm он уже "весит" 2200 Кб. Есть ли какие либо спец. программы позволяющие корректно переводить тексты в .html?
      Я на сидюке у друга видел такую прогу, он обещал мне этот диск дать. Сам он ее пробовал и хвалил. Когда даст, посмотрю, отвечу по существу.


СООБЩЕНИЯ ЗА 13.01.2003
90. Максим Мошков, 20:47:12 [ответить]
      > 88. Эмин.
      > выдает ошибку на этом участке:
      > ChangeFileOpenDirectory "C:\WINDOWS\TEMP\"
      > ActiveDocument.SaveAs FileName:="C:\BBS\moshkow.txt",
     
      Kaк насчет - создать директорию c:\BBS ?
     
      > Zmiy,
      > Я ТАКИЕ БИБЛИОТЕКИ НИКОМУ НЕ МОГУ РЕКОМЕНДОВАТЬ...
     
      Змий, не нервничай. Лучше уж так, чем вообще никак. Должен же бестлайбрари покрывать свои расходы - сканирование книг, и особенно хостинг - обходится ему в серьезные деньги.


89. Zmiy, Минск (zmiy@inbox.ru) 17:33:55 [ответить]
      А ТАКИХ ДЕБИЛОВ КАК НА http://www.bestlibrary.ru>http://www.bestlibrary.ru ЕЩЕ НАДО ПОИСКАТЬ !!!
      ТЕПЕРЬ У НИХ НЕЛЬЗЯ КАЧАТЬ ФАЙЛ ЧЕРЕЗ ПРОГРАММЫ С ДОКАЧКОЙ... ДАЖЕ "СОХРАНИТЬ КАК..." НЕ РАБОТАЕТ - НУЖНО ЖАТЬ НА ССЫЛКУ... ВО ДОЖИЛИ...
      Я ТАКИЕ БИБЛИОТЕКИ НИКОМУ НЕ МОГУ РЕКОМЕНДОВАТЬ...


88. Эмин, Баку (azeribooks@narod.ru) 16:44:38 [ответить]
      > 87. Максим Мошков.
      > > 86. Эмин.
      >
      > > У меня все обычно проходит нормально, но размер файла в .htm получается прибл. на 30-40% больше исходного файла Word, например если в Ворде файл "весил" 1600 Кб, то при сохранении его в .htm он уже "весит" 2200 Кб. Есть ли какие либо спец. программы позволяющие корректно переводить тексты в .html?
      >
      > Если сохранять просто в txt, размер файла будет порядка 400Кб
      >
      > Примерно 10% вордовых файлов содержат значимую хтмл-разметку - для их конвертации можно воспользоваться макросом, переводящим стили "bold", "italic", "underline", "subscribe" в хтмл-теги, с последующим сохранением в txt
      >
      >
      > http://www.lib.ru/COMPULIB/wordmacros.txt>http://www.lib.ru/COMPULIB/wordmacros.txt
     
     
      Максим, я попытался записать Ваш макрос в Ворд2000, но он выдает ошибку на этом участке:
      ChangeFileOpenDirectory "C:\WINDOWS\TEMP\"
      ActiveDocument.SaveAs FileName:="C:\BBS\moshkow.txt", FileFormat:=
      _
      wdFormatText, LockComments:=False, Password:="",
      AddToRecentFiles:=True, _
      WritePassword:="", ReadOnlyRecommended:=False,
      EmbedTrueTypeFonts:=False, _
      SaveNativePictureFormat:=False, SaveFormsData:=False,
      SaveAsAOCELetter:= _
      False
      ActiveDocument.Close
      End Sub
     
      Я не очень то силен в этих делах, поэтому прошу обьяснить, что я делаю не так. Может он записан у Вас для Ворд97 и поэтому у меня ничего не получется.


87. Максим Мошков, 14:13:52 [ответить]
      > 86. Эмин.
     
      > У меня все обычно проходит нормально, но размер файла в .htm получается прибл. на 30-40% больше исходного файла Word, например если в Ворде файл "весил" 1600 Кб, то при сохранении его в .htm он уже "весит" 2200 Кб. Есть ли какие либо спец. программы позволяющие корректно переводить тексты в .html?
     
      Если сохранять просто в txt, размер файла будет порядка 400Кб
     
      Примерно 10% вордовых файлов содержат значимую хтмл-разметку - для их конвертации можно воспользоваться макросом, переводящим стили "bold", "italic", "underline", "subscribe" в хтмл-теги, с последующим сохранением в txt
     
     
      http://www.lib.ru/COMPULIB/wordmacros.txt>http://www.lib.ru/COMPULIB/wordmacros.txt


86. Эмин, Баку (azeribooks@narod.ru) 12:09:34 [ответить]
      > 84. Вячеслав Сачков.
      > > 81. Павел.
      > > Проблема такая: в Word 97 начинаю сохранять файлы в *html. Какие-то сохраняются нормально, какие-то выдают недопустимую ошибку. В чем проблема?
      >
      > Не понял, зачем такие извращения. Насколько представляю, это бывает оправданно лишь тогда, когда не получается сохранить файл в онлайне интэксплорером. Но тут, похоже, какой-то другой случай. А если тот, тот сам ворд тут не особо причем. Он делает все, что в его силах...
     
      Вячеслав, у меня похожий вопрос. После сканирования и распознавания текста я обычно сохранию его в Word. Потом вычитка и также сохраняю файл из Word-а в .Htm
      У меня все обычно проходит нормально, но размер файла в .htm получается прибл. на 30-40% больше исходного файла Word, например если в Ворде файл "весил" 1600 Кб, то при сохранении его в .htm он уже "весит" 2200 Кб. Есть ли какие либо спец. программы позволяющие корректно переводить тексты в .html?


85. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 04:37:13 [ответить]
      Резюме по обращению В.Ершова
      1. Обязательно нужна двойная страховка. ОДНА lib.ru проекта не вытянет. При ожидаемых оборотах бакап фигня. Нужно, как минимум, еще одно хорошее зеркало, бакапящееся в некоторой противофазе.
      2. Обязательно нужны паспортички по типу заведенных Перли (РНСБ aka OREL).


СООБЩЕНИЯ ЗА 10.01.2003
84. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 05:05:56 [ответить]
      > 81. Павел.
      > Проблема такая: в Word 97 начинаю сохранять файлы в *html. Какие-то сохраняются нормально, какие-то выдают недопустимую ошибку. В чем проблема?
     
      Не понял, зачем такие извращения. Насколько представляю, это бывает оправданно лишь тогда, когда не получается сохранить файл в онлайне интэксплорером. Но тут, похоже, какой-то другой случай. А если тот, тот сам ворд тут не особо причем. Он делает все, что в его силах...


СООБЩЕНИЯ ЗА 09.01.2003
83. Anonymous, 22:53:03 [ответить]
      > 82. Иван.
      > С некоторых пор страдаю навязчивой идеей скачать папку ПРОЗА. Целиком. Эксперимент начал со Стругатских. Первый этап прошел безболезненно - /CpioGzip.cpz и на винчестере обнаружился файл CpioGzip.cpz. Затем я, согластно прилагающейся инструкции, скопировал себе cpio.exe и gzip.exe. Запустил их: сперва gzip.exe -d CpioGzip.cpz cpiogzip.cp (в этот момент место файла CpioGzip.cpz занял CpioGzip.cp), потом cpio.exe -idmv cpiogzip.cp. В ответ высветилось недвусмысленное CPIO: Unrecognizable archive. Люди знающие, подскажите, пожалуйста, как в этой ситуации поступить?
     
      Попробуйте cpio.exe -idmv < cpiogzip.cp


82. Иван, Новосибирск (castle@gorodok.net) 19:14:46 [ответить]
      С некоторых пор страдаю навязчивой идеей скачать папку ПРОЗА. Целиком. Эксперимент начал со Стругатских. Первый этап прошел безболезненно - /CpioGzip.cpz и на винчестере обнаружился файл CpioGzip.cpz. Затем я, согластно прилагающейся инструкции, скопировал себе cpio.exe и gzip.exe. Запустил их: сперва gzip.exe -d CpioGzip.cpz cpiogzip.cp (в этот момент место файла CpioGzip.cpz занял CpioGzip.cp), потом cpio.exe -idmv cpiogzip.cp. В ответ высветилось недвусмысленное CPIO: Unrecognizable archive. Люди знающие, подскажите, пожалуйста, как в этой ситуации поступить?


81. Павел, (Lib_Pavel@km.ru) 17:09:49 [ответить]
      Проблема такая: в Word 97 начинаю сохранять файлы в *html. Какие-то сохраняются нормально, какие-то выдают недопустимую ошибку. В чем проблема?


80. lanky, Ufa 08:51:45 [ответить]
      п╞ п╫п╣ я п╬п╡я п╣п╪ п©п╬п╫я п╩ я п╩я я я пёп╧ я п╣п╨я я п╡
      http://lib.ru/URIKOVA/etika.txt:>http://lib.ru/URIKOVA/etika.txt:
     
      ->п п╟п╢п╫п╬я я я п©я пёп╣п╪ п╫п╟я п╨п╬я пёп╨п╬п╡<-, я п╟п╥п╩пёя п╫я п╣ п╫п╟я пёя п╟п╫пёя пёп╩пё п╨п╬п╫я п╣п╫я я п╟я пёпё. п╜я п╬ п╢п╬п╩п╤п╫п╬ п╠я я я п╪я я п╩п╣п╫пёп╣ п╬п╠ п╬п╠я п╣п╪ п╠п╩п╟пЁп╣, п©п╬п╪п╬я я , я п╣я п©пёп╪п╬я я я пё п╩я п╠п╬п╡я
     
      п╒п╬ п╩пё я п╟п╪п╟ п╨п╫пёпЁп╟ п╫п╟п©пёя п╟п╫п╟ п╨п╬я я п╡п╬, я п╬ п╩пё я п╟я п©п╬п╥п╫п╟п╫п╬ я я п╣п╫п╬п╡п╬


СООБЩЕНИЯ ЗА 08.01.2003
79. bmn, 08:43:05 [ответить]
      > я имел в виду "Эйнштейн. Как я вижу мир"
      Значит отправлять Мошкову - moshkow@systud.msk.su
     
      > > А вообще-то вопрос не в тот форум задан.
      >
      > А как интерпретировать "OCR"?
      Optical Character Recognition :))
     
      > А как интерпретировать "ить"?
     
      Понятия не имею


СООБЩЕНИЯ ЗА 05.01.2003
78. [марат], н.челны (maratustra@yandex.ru) 12:26:08 [ответить]
      > 77. bmn.
      > > 75. [марат].
      > > простите,алексей...но вопрос модератору - каким образом я могу "подвесить" на либ перевод произведения (соответственно либ.ру сского)
      >
      > Что значит "подвесить"? Если имеется в виду Ваш перевод известного писателя то отправлять Мошкову, если неизвестного, то в "Самиздат"
     
      я имел в виду "Эйнштейн. Как я вижу мир"
     
      > А вообще-то вопрос не в тот форум задан.
     
      А как интерпретировать "OCR"?
      А как интерпретировать "ить"?


77. bmn, 08:58:11 [ответить]
      > 75. [марат].
      > простите,алексей...но вопрос модератору - каким образом я могу "подвесить" на либ перевод произведения (соответственно либ.ру сского)
     
      Что значит "подвесить"? Если имеется в виду Ваш перевод известного писателя то отправлять Мошкову, если неизвестного, то в "Самиздат"
     
      А вообще-то вопрос не в тот форум задан.


Continue