Soft

23.05.2012 Автор: Роман Поликарпов Версия для печати

OCR-сервисы онлайн

Для того чтобы отредактировать информацию, полученную со сканера, необходимо применить технологию, которая получила название OCR, что в расшифровке и в переводе на русский означает «оптическое распознавание символов». Мы задались вопросом, а существуют ли надежные и качественные OCR-системы, доступные онлайн?


На сегодняшний день техника шагнула достаточно далеко, и для получения фотокопии изображения уже не нужно искать сканер, достаточно просто достать телефон с фотокамерой и «щелкнуть» нужные страницы изображения. А уж если есть под рукой мало-мальски приличная «фотомыльница», то получить изображение нужной четкости и разрешения и вовсе не составляет труда. К слову, это стало настолько очевидно, что многие библиотеки, видимо, не желая терять заработок на услуге ксерокопирования, стали запрещать использование любой фототехники в читальном зале. Так что, прогресс налицо.

В области же оптического распознавания текста, к сожалению, никаких революций за последние пять лет не случилось, хотя определенные изменения все-таки произошли. Например, ощутимо сдвинулся баланс от настольных систем распознавания к применению веб-сервисов. Нельзя сказать, что OCR-рынок ушел в онлайн, но изменение самой концепции использования компьютера, распространение мобильной техники, Интернета, «облачных» сервисов — все это диктует ситуации, когда пользователь оказывается перед фактом, что стационарного компьютера под рукой нет.

Но в случае крайней необходимости можно сфотографировать и попытаться «скормить» фотоснимок одному из OCR-онлайн-сервисов. Вероятнее всего, со временем такой путь будет становиться все популярнее, и поэтому мы решили отправиться на исследование онлайн-просторов в поисках хорошего сервиса распознавания отсканированного текста.

Мы не ставили перед собой задачу найти непременно бесплатный сервис, предполагая, что таких может просто не быть. Однако некоммерческие ресурсы данного типа все-таки нашлись. Имеются также условно бесплатные, в которых можно распознать несколько страниц «на пробу». В любом случае сервис должен поддерживать русский язык и не требовать никакой установки на компьютер: иногда это просто невозможно на служебных машинах.

Для пробы мы приготовили несколько материалов, с которых OCR-сервисам предстояло «вытянуть» текст. Первый файл был получен путем сканирования на недорогом домашнем планшетном сканере с большим разрешением и настройками «по умолчанию». Второй кадр был в виде страницы из PDF-файла с разрешением, близким к экранному. Третий, уже посложнее, был снят с помощью фотоаппарата со штатива и максимально хорошим освещением. И наконец, четвертый файл был снят смартфоном среднего уровня с камерой 3 Мпикс, с применением встроенной вспышки.

Качество последнего файла плохим как по разрешению, четкости, так и по геометрии изображения, зато ближе всего к полевым условиям. Снимки были сделаны с обычных страниц книги, с делового отчета и содержали кроме текста еще и несложную таблицу. Именно с таким, вполне реалистичным набором данных предстояло разобраться испытуемым.

 

«Документы Google»

Первым на старт вышел Google со своими документами (docs.google.com). Не все знают, что помимо совместной работы над материалом сервис позволяет распознать документ, загруженный в виде изображения или PDF. Никаких особенных действий предпринимать не нужно, все получается автоматически. Однако размер файла ограничен 2 Мбайт, так что полноценный скан страницы книги отправить не удалось. Уменьшив размер, мы смогли «вытащить» редактируемый текст.

«Документы Google» легко распознали разворот страницы и справились с текстом. Качество работы можно оценить не выше, чем 4 балла из 5, потому что ни одного абзаца без ошибки не случилось. Однако это все же на порядок быстрее и легче, чем набирать текст с чистого листа.

Со сложными исходными файлами дело пошло хуже: качество распознавания упало до «тройки» по пятибалльной шкале и не вышло распознавание сложного форматирования и таблиц. Тем не менее удовлетворительный результат был зафиксирован, и ресурс вполне стоит взять на вооружение как действенный способ получить текст из PDF или картинки.

 

FineReader Online

Переходим к явному фавориту нашего тестирования. Компания Abbyy уже пару лет предлагает воспользоваться всей мощью своего OCR-механизма через веб-сервис (finereader.abbyyonline.com). Отличия от настольной версии, конечно, имеются. Прежде всего — в количестве поддерживаемых языков («всего» 49 против почти 200 в профессиональной версии FineReader), а также в отсутствии каких-либо дополнительных возможностей по обработке текста после распознавания.

Входным форматом может быть практически любой популярный графический формат или PDF без пароля, а выходным — DOC, XLS, ODT, TXT и PDF. Загружать можно документы размером до 30 Мбайт.

Как и ожидалось, сервис продемонстрировал отличную работу и очень хорошее качество распознавания на всех исходных изображениях. Даже на самой плохой картинке, снятой мобильным телефоном, FineReader Online узнал и направление текста (самостоятельно повернул картинку), и форматирование абзацев, и даже таблицу! Фактически даже при самом плохом «исходнике» исправить пришлось всего несколько ошибок.

За использование чудо-сервиса, однако, придется заплатить. Возможность сканирования покупается постранично, и за 100 стр. надо будет выложить 7 долл. Однако качество того стоит — чистые 5 из 5!

 

OCRonline

На очереди у нас иностранный сервис и проверка того, как он справляется с русским языком. OCRonline (www.ocronline.com) работает с 14 самыми популярными европейскими языками. Услуга предоставляется не бесплатно, но при регистрации начисляется пять бесплатных «пробных» страниц и, кроме того, каждый понедельник ваш баланс пополняется бесплатно до тех самых пяти страниц. Дополнительные пакеты можно купить по цене от 8 долл. за 100 стр. и дешевле, если заказывать оптом.

Сам процесс распознавания мало чем примечателен. На выходе в вашем распоряжении будет текст в формате DOC, TXT, PDF или RTF. А вот результаты получились любопытные. Качественные изображения с фотоаппарата и со сканера с высоким разрешением были распознаны идеально, фактически без единой ошибки. Твердая пятерка! С картинкой низкого качества также справились на ура, даже таблица никуда не пропала! Но помарок было предостаточно, так что отличным такое распознавание назвать нельзя. Но 4 из 5 — это очень хороший показатель. Обязательно стоит взять этот ресурс на заметку для срочных задач.

 

Online OCR

Следующий веб-инструмент распознавания текста расположился в русскоязычной доменной зоне по адресу www.onlineocr.ru. Он также не бесплатный, и для получения выходного материала в одном из шести популярных форматов нужно купить «кредиты», за которые и осуществляется распознавание текста. В деморежиме получится увидеть только первую пару абзацев текста и то лишь в виде текста без форматирования. Исходный файл может быть размером до 20 Мбайт.

Пробы показали, что этот сервис очень чувствителен к качеству оригинала. Изображение со сканера в полном разрешении позволило получить очень хороший текст, практически без ошибок. А вот работа со сложным исходником не удалась. Качество текста оставляет желать лучшего, и исправлять опечатки в нем может быть сложнее, чем напечатать текст самому.

 

Free OCR

Многообещающее слово free в названии сервиса заставила нас обратить внимание на адрес www.free-ocr.com, в котором обитает следующий претендент на звание лучшего онлайн-механизма OCR.

Скажем сразу, победы не получилось. Не обращаем внимания на нарочито простой дизайн сайта, ведь мы не за этим сюда пришли. Максимальный размер загружаемого файла всего 2 Мбайт — маловато. Пусть поддерживаются основные форматы (но в PDF распознается только первая страница) и языков вполне впечатляющий набор, но в качестве выходного формата только текст без форматирования. Кроме того, для загрузки каждого файла нужно вводить буквы с CAPTCHA.

Качество результата не на высоте, к сожалению. Текст даже с качественного изображения получился малопригодным к использованию — уж очень много ошибок. А фотография с мобильного телефона и вовсе распозналась как набор непонятных малочитаемых символов. Зато бесплатно. Вероятно, для простых текстов этот сайт можно применять, но рекомендовать его язык не поворачивается.

 

Scanоnline

Еще один русскоязычный OCR-сайт вы найдете по адресу www.scanonline.ru. Стартовые условия выглядят заманчиво — файл до 20 Мбайт, поддерживаются все популярные форматы изображений для распознавания, результаты работы будут высланы на указанный адрес электронной почты в виде текста, HTML или RTF. Ресурс владеет шестью языками.

Доступен бесплатный лимит на 5 Мбайт загружаемых изображений в день. Если нужно больше, то можно открыть доступ на сутки с помощью платной SMS по заявленной цене около 20 руб.

Качество распознавания хорошего исходного изображения можно оценить в 4 балла. Ошибок немного, скорость и качество распознавания на достойном уровне. А вот выявление текста на фотографии с телефона оказалось для данного ресурса непосильной задачей. Фактически полученный набор символов был малопригоден к дальнейшей работе. Таким образом, при его использовании нужно учитывать, что этот условно бесплатный сервис очень чувствителен к качеству изображения.

 

New OCR

Ресурс New OCR (www.newocr.com) обещает совершенно бесплатное применение OCR-технологии к нашим отсканированным документам. И надо сказать, с неплохим функционалом — по своим возможностям данный сервис действительно неплох. Судите сами: 58 языков, два разных OCR-алгоритма на выбор, безлимитные загрузки без необходимости регистрации и бесплатно (!), все популярные форматы, в том числе многостраничные документы, и даже загрузки заархивированных файлов.

Для исходных изображений доступен целый букет сервисных функций. Во-первых, можно выбрать область распознаваемого текста, повернуть картинку, повысить контрастность и распознать текст колонками.

Распознанный текст можно скачать во всех популярных текстовых форматах, включая ODT, отправить для публикации в «Документы Google» или, например, отправить напрямую в переводчик Google.

А что же с качеством непосредственно OCR? С качественными исходными материалами new OCR справился хорошо. Ошибок минимум, и лишь некоторая неразбериха с форматированием заставляет поставить минус к заслуженной пятерке. Можно попробовать улучшить результат, выбирая между двумя механизмами распознавания.

А вот с некачественным исходным материалом разобраться этому сервису не удалось. По существу, ничего полезного из картинки с низким разрешением и недостаточной четкостью извлечь ему не удалось. Несмотря на это, ресурс нам понравился, и рекомендуем занести его в закладки.

 

Sciweavers: i2OCR

Для полноты картины приведем еще один сайт. Ничего сверхвыдающегося он не обещает, зато бесплатен и имеет красивый интерфейс, в чем вы сможете убедиться сами, заглянув на www.sciweavers.org/free-online-ocr. Поддерживается 33 языка и все популярные графические форматы для исходного файла. Качество распознавания не назовешь выдающимся, но на хорошей фотографии текст определяется с минимумом ошибок и почти не требует корректировки. С плохими изображениями беда, и от получающегося набора символов никакого толка. Зато бесплатно — это раз, и сопровождается целой охапкой других полезных сервисов по решению каждодневных задач конвертирования цифровых данных — это два.

 

Оценка по «чтению»

После ознакомлениями со всеми этими системами можно сделать некоторые выводы. Во-первых, — и это хорошая новость! — онлайн-сервисы по распознаванию текста есть, и они неплохо работают. Многие даже бесплатны, что, признаемся, стало приятным сюрпризом.

Во-вторых, снова подтвердился тезис, что в распознавании текста полдела — это качество снимка. Большинство OCR провалили тест на обработку изображения, сделанного мобильным телефоном. При этом материалы со сканера или качественный фотоснимок были обработаны неплохо. Значит, в «полевых» условиях необходимо обеспечить максимум света и разрешения при съемке, что обычно все-таки недоступно смартфонам даже выше среднего уровня.

Некоторые сервисы тем не менее справились и с «трудными» случаями, так что именно их мы уверенно ставим в лидеры обзора. Прежде всего это FineReader Оnline. Из бесплатных же онлайн-распознавателей лучше других себя показал New OCR. Поэтому именно этим двум сервисам мы присудили значок «Hard'n'Soft рекомендует».

 

Распознать и перевести!

В современном открытом мире часто бывает, что необходимо срочно понять, о чем идет речь на листе бумаги или в PDF-документе. Проблема в том, что он может быть на иностранном языке. Значит, в пару к OCR-ресурсу нужно найти онлайн-переводчик.

Рассмотренный нами в обзоре бесплатный сайт New OCR сразу после распознавания предлагает передать документ в Google Translate (translate.google.com). Это один из самых известных онлайн-переводчиков, который оперирует десятками языковых пар, при этом обладает простым интерфейсом и не содержит строгих ограничений на длину переводимого текста, так что отсканированный документ удастся прочитать сразу.

От автоматического перевода чудес в части совершенства ждать не приходится, тем не менее качество перевода Google Translate считается хорошим, и обычно именно этот сайт используют в первую очередь.

Альтернативное решение — это онлайн-сервис www.trans-late.ru отечественной компании ПРОМТ. Но здесь установлен лимит в 3 тыс. символов для единовременного перевода. Так что разворот книги пришлось переводить в два приема.

Используя эти или другие сервисы онлайн-переводов после оптического распознавания, проблема восприятия содержания материала на незнакомом языке должна просто сойти на нет. Еще бы объединить все самые лучшие достижения, да в одном интерфейсе, да бесплатно...


Назад в раздел

Текст сообщения*
Защита от автоматических сообщений

Читайте также