Всего за 9.95 руб. Купить полную версию
После того, как работа дифференциального классификатора завершена, мы можем сказать, что непосредственно само распознавание закончено. У нас остается окончательный список гипотез, подлежащий проверке.
Окончательная верификация результата распознавания осуществляется системой контекста. Система контекстной проверки позволяет резко улучшить качество распознавания текстов плохого качества за счет того, что при наличии некоторого количества распознанных букв из слова компьютер может «догадаться», что это за слово, используя словарь. В FineReader удалось без больших потерь в скорости увеличить число рассматриваемых гипотез при анализе контекста, что, в свою очередь, также в лучшую сторону сказывается на точности распознавания текстов очень низкого качества.
В FineReader анализ документа проводится как до, так и после непосредственно распознавания, что позволяет гораздо лучше сохранять внешний вид документа при его экспорте в другие приложения из FineReader. В результате использования совмещенной процедуры значительно улучшилось выделение таблиц и отделение текста от графики. Фактически, основная задача разработчиков FineReader — сделать так, чтобы пользователь получил на выходе документ, полностью совпадающий как по содержанию, так и по внешнему оформлению с документом, который он недавно положил в сканер.
На сегодняшний день система FineReader демонстрирует непревзойденную точность распознавания и высокое качество анализа документа и сохранения его оформления. От версии к версии она совершенствуется, используются новые алгоритмы, появляются новые возможности. Но принципы Целостности, Целенаправленности и Адаптивности остаются неизменными, так как именно эти принципы позволяют машине приблизится к логике мышления, свойственной человеку, и в дальнейшем решать, возможно, гораздо более сложные задачи, чем задача распознавания.
Глава 21.
Омнифонтовая OCR-система
Программа FineReader является так называемой омнифонтовой системой оптического распознавания текстов. Подобные системы дают возможность распознавать печатные тексты, набранные шрифтами с различными гарнитурами.
Основные возможности
Программа FineReader:
• Дает возможность ввести документ в компьютер посредством нажатия всего на одну кнопку.
• Имеется возможность экспортировать распознанный текст в текстовый редактор или электронную таблицу, а также сохранить его в формате PDF или HTML.
• Имеется возможность сохранять цвета распознанного текста в форматах RTF, PDF и HTML.
• Встроенная технология «адаптивного распознавания»: Необычайно высокая точность распознанных текстов и малая чувствительность к дефектам печати.
• Распознанные страницы представляются миниатюрными изображениями.
• Имеется возможность сканировать разворот книги и распознавать ее каждую страницу по отдельности, при этом, изображение, содержащее сдвоенные страницы, сохраняется в две различные страницы пакета.
• Встроенный алгоритм автоматического поиска блоков (участков изображения, выделенных в рамку) распознаваемого текста: Анализ отсканированного материала и его распознавание происходит одновременно.
• Программа «видит» изображения в распознаваемом макете.
• 176 языков распознавания.
• Распознавание языков программирования (Basic, Cobol, Fortran, Java, C++, Pascal).
• Распознавание подстрочных символов и вертикального текста.
• Поддержка кодировки Unicode при сохранении распознанного текста в форматах RTF, DOC, XLS, HTML, TXT и CSV.
Форматы текстовых файлов, которые поддерживает программа
FineReader может экспортировать распознанный материал в одном из следующих форматов:
• Microsoft Word Document (*.DOC).
• Rich Text Format (*.RTF).
• Adobe Acrobat Format (*.PDF)
• HTML.
• Comma Separated Values File (*.CSV).
• Простой текст (*.TXT).
• Microsoft Excel Speadsheet (*.XLS).
• DBF.