Рано или поздно, мы расплачиваемся за склонность к собирательству… Каждый из нас хранит что-то и собирает бережно… Коллекция растет и следует расплата – как это все каталогизировать. Я про электронный контент. И именно про ТЕКСТ.
Ищу программу которая могла бы удобно и легко управляться с домашней библиотекой документов, электронных книг, итд… Естественно с удобным добавлением, управлением, поиском, конвертацией и чтением.
Входные данные:
Есть куча книг в разных форматах (TXT, TXT в ZIP-ах, CHM, PDF, DJVU, HTML…) раскиданные по папкам но не систематизированные, ибо получены скопом из разных мест (всякие «библиотеки в кармане», lib.ru, итд… ).
Также есть или будет:
Комп, ноут, КПК, ebook reader как устройства чтения, а также любимые программы для чтения (ToM Bookreader, Haali Reader, FoxitPDF…)
Хочется:
Программу которая смогла бы просканировать весь текстовый хлам и расфасовала структурно по папкам в файловой системе для создания полноценной локальной бибилиотеки на носителе (DVD, BLUERAY, HDD, RAID…) для возможного переноса, и/или для того чтобы можно было этой библиотекой с кем-то поделится.
Также хочется одновременное создание базы данных хранимых книг, с описанием, авторами, аннотациями… с возможностью поиска.
Удобный пользовательский интерфейс (было бы замечательно чтобы оно выглядело как PICASA Гуглевская но для текста) для работы с базой, с возможностью вызова внешних программ для чтения, конвертации, отсылки на почту, внешний носитель, внешнее устройство… С возможностью рейтинка, пометок, аннотаций…
18 Comments
Есть же программеры на фирме и в городе!
Обеспечь работой, а потом продавать можно будет! 😉
При грамотной рекламе можно будет найти много клиентов и реально заработать 🙂
Хе, искал такое пару лет назад. Ничего лучше google destop и ему подобных не нарыл.
Юра, конечно отжег =) Насколько я знаю таких программ нет, поскольку очень, составить алгоритм для классификаций, поиска и сортировки. У каждого человека свои требования к структурировани данных. Тут только один выход, либо писать один СУПЕР-алгоритм, либо кучу мелких. Сложно вообще написать хотябы один фундаментальный чтобы он работал в приемлемое время. Хотя, конечно, наверное в нэте есть проги с упрощённой эвристикой, но они будут соответственно работать... Это же не аудио фаил где можно сравнить с шаблоном долю композиции, чтобы узнать стиль, или же прочитать из тэгов... Удачи в поиске ) Сам буду следить за развитием темы )
XSearch 🙂 не пробовал?
К Алексею:
сильно умного алгоритма не требуется — нужен текстовый поиск понимающий РАЗНЫЕ ФОРМАТЫ. С последним засада. Этакий стандартный full text seaerch engine, с плагинами для парсинга djvu и прочих.
// to hedgehog
Это первое что пришло на ум и мне 🙂
// to Xo
Я конечно не параноик, но прога для локального поиска которую надо резать на фаирволе чтобы не лезла в инет я как-то опасаюсь ставить...
хотя она дествительно альтернатива.
Кстати djvu таки проблема... чтобы в нем что-то искать надо сначала чем-то типа finereader-a распознать...
IMHO ужасный формат 🙁 ни нормальных ридеров, ни удобства... PDF мне более симпатичен.
С поддержкой djvu сложно.
Я организовал парсинг при помощи DTSearch v7
Плюсы — имеет dcom фейс, что позволяет свободно написать свою программу на Delphi (к примеру) или CBuilder, с индексированиемдокументов, просмотром и т.д, что и было сделанно.
Но явно под требования XS она (моя прога)не дотягивает...
Господа, насколько я понял — тут отписались программеры. Так вот, если вы считаете что это полезный и нужный продукт, может сделаем? со своей стороны, могу заняться разработкой дизайна интерфейса, можем сообща составить ТЗ...
ТЗ? Вот для примера похожий продукт:
Ищет во всех мыслимых форматах включая ящики ЗеМыш-а и логи аськи.
Стоит соответсвенно.
Угу, только вот вопрос: у нас есть программисты-фундаменталисты Давайте посмотрим что тут нужно:
1. Составить алгоритм быстрого поиска по файловой системе.
2. Необходим малый алгоритм для неполного анализа файлов (чтобы вообще понять текст это или не текст)
3. Необходим алгоритм для лексикографичесого анализа.
4. Алгоритм для сравнивания результатов анализа со словарем (это может быть простенький анализатор регулярных выражений типа POSIX, — но он медленно работает)
5. Сам словарь.
--------------
Итого:
Вопрос скорей в фичах — сможет ли команда написать продукт лучше или дешевле чем SearchInform. Если нет, то проще один раз его купить и не париться.
To Alexei: Как раз по этим вопросам сегодня вечером Яндекс проводит семинар /в Москве/
1.поиск по файловой системе — вообще не проблема.
2. сладирование куда-то — аналогично
3. конвертированиеиз формата в формат можно организовать за счет вызова внешних конверторов
4. другое дело в распознавании тематики текста и отнесении его в определенную категорию. было бы не плохо организовать эти функции тоже за счет подключаемых модулей.
я что-то пропустил?
Дык алгоритмических проблем в задаче нет, трудности в реализации (предусмотреть миллион возможных случаев вида "а что будет если во время индексации я вытащу стик из компьютера) и стоимости — сомневаюсь что найдётся много людей готовых платить больше 50 долларов за искалку по винчестеру.
может не забиваться на мелочи?
или начать с общего случая, а далее наворачивать обработку исключений?
имхо, наибольшая проблема как раз в анализе того, к какой категории отнести тот или иной текст.
Сперва всё же ответить на вопрос Зачем.
6000 рублей это немало, но намного дешевле чем разработка самому.
а между тем в мои загребущие руки попали архивы 2007-го года lib.ru, fenzin.org, lib.aldebaran.ru, и fictionbook.ru 🙂
Ншел библиотекаря... весьма интересная прога, но я с ней так и не разобрался за 10 минут 🙂 буду ковыряться.