Технология оптического распознавания, или OCR (от англ. Optical Character Recognition), позволяет преобразовывать различные типы документов (например, бумажные документы, PDF-файлы или фотографии текстов, полученные при помощи цифровой камеры) в редактируемый вид с возможностью полнотекстового поиска. Это может быть книга, газета, журнал, факс - любой документ, который надо перенести в компьютер в электронном виде.
Допустим, вам необходимо оцифровать журнальную статью или договор. У вас два пути: либо несколько часов перепечатывать текст на компьютере и затем править ошибки, либо за несколько минут отсканировать его (или сфотографировать цифровой камерой) и обработать специальной программой для оптического распознавания символов.
Принцип работы OCR-систем:
OCR-системы очень просты в совем использовании. Достаточно выполнить всего 3 действия:
Если у вас под рукой нет сканера, то вам придет на помощь цифровой фотоаппарат или мобильный телефон с фотокамерой:
Все довольно просто! Вы экономите ваше время и силы на перепечатывание текста!
Программа ABBYY FineReader позволяет анализировать и распознавать документы.
1. Сначала ABBYY FineReader анализирует структуру документа. Программа делит страницы на элементы: блоки текста, таблицы, картинки и т.п. Строки разбиваются на слова, а слова – на отдельные буквы.
2. После этого программа сравнивает найденные символы с шаблонными изображениями букв и цифр. Программа выдвигает множество гипотез относительно каждого из символов. Основываясь на этих гипотезах, программа рассматривает различные варианты разделения строк на слова и слов на символы. Проанализировав гигантское число возможных гипотез, программа принимает окончательное решение и выдает пользователю распознанный текст. Кроме того, в программу ABBYY FineReader встроены словари для 36 языков. Это позволяет проводить дополнительный анализ на уровне слов. Словари обеспечивают еще более точный анализ и распознавание и облегчают дальнейшую проверку распознанного текста.
В основе ABBYY FinerReader лежат три принципа: целостность, целенаправленность и адаптивность. В соответствии с принципом целостности, объект всегда рассматривается как единое целое, состоящее из множества взаимосвязанных частей. Принцип целенаправленности предполагает, что любая интерпретация полученных данных всегда осуществляется с какой-то целью. А принцип адаптивности означает, что программа должна обладать способностью самообучаться.
Дополнительная информация для тех, кто использует цифровой фотоаппарат для получения текстов изображений: