Безкоштовні засоби для розпізнавання тексту
Багато із нас майже щодня щось роздруковує. Але інколи потрібний і зворотній процес — отримання «електронного» тексту з паперових носіїв. Що в таких випадках робити? Передруковувати відскановані сторінки з текстом справа невдячна і якщо бути відвертим — досить дурна. Особливо в наш час, коли комп’ютери здатні виконувати надскладні операції з обчислень, порівнянь та навіть передбачень. Так розмірковував я, розпочинаючи пошук безкоштовного програмного забезпечення для «вилущування» тексту із зображень.
І в принципі я не помилився. Хоча таких інструментів не багато, але вони є, а деякі з них навіть дуже непогані. Є навіть онлайн-сервіси, які хоч і не дозволяють досхочу побавитись з налаштуваннями, проте дозволяють швидко (без встановлення ПЗ) завантажити відскановані тексти та отримати цифрові документи.
Цю категорію програмного забезпечення позначають абревіатурою OCR (Optical Character Recognition) та використовують для конвертації відсканованих книг та документів в цифровий текст, який можна редагувати у звичних текстових процесорах. Після тестування десятка таких безкоштовних програм і онлайн-сервісів я обрав по два найкращих (на мою думку) представника.
Програми
Серед найбільш якісних безкоштовних «стаціонарних» OCR-програм в першу чергу можна відмітити CuneiForm. Це програма для оптичного розпізнавання, редагування (виправлення) та збереження в популярних форматах тексту відсканованого з паперових носіїв.
У отриманих за допомогою CuneiForm текстових документах зберігається структура документа та його форматування. Також ця програма розпізнає таблиці різного ступеня складності, різноманітні шрифти, роздруківки з принтерів, тексти друкарської машинки і т. п. Для підвищення якості розпізнавання в програмі використовується перевірка результату роботи за допомогою словників, які можна доповнювати.
Інша достатньо якісна OCR-програма — gImageReader. Хоча взагалі-то це не програма, а лише користувацький інтерфейс для рушія Tesseract, який потрібно звантажити і встановити до встановлення gImageReader. Рушій Tesseract використовує словники та засоби перевірки орфографії від OpenOffice, які також потрібно встановлювати окремо.
Таким чином встановлення та налаштування gImageReader перетворюється якщо не на складну, то у всякому випадку на обтяжливу процедуру. Як для мене, це не дозволяє рекомендувати її широкому колу користувачів. Але можливості програми досить широкі і той, хто пройде всі етапи встановлення отримає добрий інструмент.
Онлайн-сервіси
NewOCR.com підтримує конвертацію зображень із форматів JPEG, PNG, GIF, BMP, TIFF, PDF, DjVu. Є можливість розпізнавання тексту, що складається з кількох колонок; обертання, нормалізації контрасту та видалення тіней з початкового зображення; звантаження результату в різних форматах, копіювання та посилання на редагування і переклад тексту в сервісах Google.
Другий онлайн-сервіс — i2OCR працює з форматами TIF, JPEG, PNG, BMP, GIF, PBM, PGM і PPM. Цей сервіс не володіє скількома зручними інструментами, як попередній, але його результати досить якісні, а інтерфейс простий і зручний, тому i2OCR може бути використаний в якості «резервного» засобу.
P. S.
Я розпочав цей огляд з наміром знайти засіб перевести в електронний вигляд перефотографований багатосторінковий документ. Нажаль жодна з безкоштовних програм і онлайн-сервісів не змогли коректно обробити ці фото. В кращому випадку розпізнавався лише маленький фрагмент тексту на сторінці. Обробка «нелінійного» тексту виявилась занадто складним завданням. Звичайно — в цьому є і моя вина (потрібно було перефотографовувати більш акуратно), але доводилось уже працювати з тим що було.
Після марних пошуків безкоштовного рішення довелось звертатися до комерційного. А саме (це не реклама :) — до онлайн-сервісу FineReader Online. Конвертація 45 фотографій сторінок документу в текст коштувала мені $5. Не скажу, що все розпізналося ідеально, але підправити два-три речення на сторінку не так важко, як передруковувати все заново.