Наиболее распространённая система для распознавания текстов с бумаги – FineReader. Этот продукт российской компании ABBYY известен по всему миру.
К сожалению, FineReader стоит ощутимых денег. С другой стороны, базовая версия ABBYY FineReader прилагается ко многим сканерам.
Мы опишем основные действия при распознавании страницы текста с помощью FineReader. Чтобы подробнее изучить применение этой программы, прочтите документацию к ней.
Запустите FineReader (выбрав пункт ABBYY FineReader в меню Пуск > Программы).
Щёлкните по иконке Scan. Появится окно управления сканированием.
Вид этого окна зависит от модели сканера. В нём важно установить следующие пункты:
– Режим цветности – “градации серого” (grayscale). Цветное изображение не нужно для распознавания текста, и может помешать ему.
– Разрешение (resolution). Оно измеряется в точках на дюйм (dots per inch, dpi). Для распознавания хорошо напечатанного, крупного текста достаточно 300 dpi. В более сложных случаях лучше установить 600 dpi. (Чем больше разрешение, тем медленнее будет работать сканер.)
Также вы можете выделить часть страницы, которую нужно сканировать. Для этого нажмите кнопку Prescan – сканер покажет изображение страницы; теперь при помощи мыши можно указать границы области для сканирования.
Обычно, однако, страницу сканируют целиком. Для этого Prescan запускать не требуется.
Чтобы произвести сканирование, нажмите Scan. Сканер считает страницу, и изображение появится в FineReader.
Теперь следует выбрать язык, на котором написан текст. Система должна знать, какие читать буквы – русские или английские. Язык выбирается в “выпадающем” меню.
Запустите процесс распознавания текста. Для этого нажмите на иконку Read.
Во время процесса система показывает, какая часть текста уже “прочитана”.
Когда процесс завершится, система покажет вам прочитанный текст. При необходимости его можно отредактировать.
Наконец, считанный текст нужно сохранить. Для этого нажмите на иконку Save.
Выбрав пункт Save to File (сохранить в файл), укажите имя и тип файла.
Нажмите кнопку “Сохранить”. Теперь считанный текст сохранён в файле.