ocrodjvu = OCRopus (tesseract) + DJVU ocrodjvu - це невеличка програма, що використовує OCRopus для розпізнавання файлів DJVU, що не мають текстової інформації (лише зображення). За допомогою ocrodjvu можна або створити новий DJVU-файл (причому доступні як bundled, так і single-page варіанти), або додати текст до існуючого файлу. У операційній системі Debian (версія testing) є мовні пакети (German, English, French, Spanish, Vietnamese, Brasilian Portuguese, Dutch, Italian) для розпізнавання текстів. В заголовку згадується розпізнавання текстів українською мовою. Наразі проект tesseract-ocr не пропонує готових мовних пакетів для українських текстів, але всі необхідні інструменти (та зразки на інших мовах) доступні - тобто створення пакету для українських текстів має бути відносно простим. Із відомих мені безкоштовних розпізнавалок можу ще згадати cuneiform. Хоча новини на сайті датовані серпнем минулого 2008 року, проте остання версія була випущена 2 місяці тому - тобто проект ще живий. Основний розробник - Юрій Зайцев. Версія 0.7 заявляє підтримку наступних мов: eng ger fra rus swe spa ita rus eng ukr srp hrv pol dan por dut cze rum hun bul slo lav lit est tur. Update: cuneiform не має власного графічного інтерфейсу - для цього можна використати YAGF. Якщо Вам відомі інші безкоштовні розпізнавалки українських текстів - прошу коментувати (необхідна реєстрація або OpenID). Також цікавить досвід практичного використання як cuneiform, так і tesseract[OCRopus] - який з них надійніший/кращий? Якщо cuneiform вже має підтримку української мови - то чи є сенс створювати мовний пакет для tesseract?
|
|||