понедельник, 1 февраля 2010 г.

OCR в Linux

Ещё пару лет назад, тему данного поста можно было раскрытьодним предложением: "Приложений OCR в Linux нет".

В интернетах уже давно встречаются сообщения о существовании Finereader Engine for Linux, однако юзабельного Finereader'а нет. Также говорят некоторые люди запускали FR под wine. Лично у меня это не вышло. В итоге у меня он сидит под виртуальной машиной с ХР.

Однако дело всё же сдвинулось с мёртвой точки.
Явление №1 "Cognitive Technologies открыла код OCR Cuneiform" Лицензия BSD.
Явление №2 Программист Андрей Боровский написал для Cuneiform GUI, под названием YAGF. Вот такой:


Установка YAGF в Arc Linux делается, как обычно, в одну комманду: yaourt -S yagf, что мною и было проделано. После того как я его погонял немного, пришёл к следующему итогу:
Умеет:
  • Таки распознаёт русский текст, и неплохо.
  • Можно выделить область распознавания.
  • Распознаёт текст со сложным форматированием (колонки, картинки) в правильной последовательности.
Не умеет:
  • Распознавать скриншоты. Только сканированный текст, с разрешением около 300 dpi (если честно, сканировать с меньшим разрешением я не пробовал).
  • Сохранять форматирование: таблицы/колонки превращаются в plain text.
  • Выделять несколько блоков для распознавания. Можно задать только один блок. Вариант: тут распознаём, тут нет, а тут опять распознаём, отсутствует.
  • Экспорт в форматы отличные от html/txt.
  • Распознавание pdf/djvu.
  • И много чего ещё.
Вывод такой: конечно сравнивать это с Finereader, всё равно что сравнивать paint с Adobe Photoshop. Потому Finereader я сносить покамест не буду. Но всё равно можно порадоваться, что для простых задач у нас пооявился OCR инструмент не требующий бубна.

P.S. Сайт разработчика: http://symmetrica.net/

Комментариев нет:

Отправить комментарий