Перевод данных в электронный вид

Сканирование и распознавание данных

Имиджинг

На этапе имиджинга выполняются три задачи: сканирование, обработка изображения на станции сканирования и контроль качества

Выравнивание страниц может производиться аппаратно или программно

Обработка изображений

Улучшение изображения включает программное выравнивание, конвертирование с улучшением качества, удаление шумовых и фоновых элементов, улучшение качества передачи текста и т.д.

Исходный текст

Text

Отсканированная копия

Отсканированная копия, прошедшая обработку специальной программой

Задачи распознавания при вводе документов

  • Получение электронного изображения

  • Распознавание сплошного текста

  • Восстановление формата документа

Технологии OCR/ICR

В качестве основных алгоритмов выделяют multifont (шрифтовые) и omnifont (шрифтонезависимые) алгоритмы

Multifont

Растровое изображение накладывается на шаблон, и соответственно наиболее подходящим шаблоном считается тот, у которого наименьшее количество точек отличается от исследуемого изображения

Omnifont

Алгоритмы идентифицируют символ по правилам его написания. В этом случае эталон, с которым производится сравнение, содержит в себе информацию о правилах написания символа.

Алгоритм может содержать комбинацию шрифтового и шрифтонезависимого подхода

Subtitle

Существуют подходы, при которых экспертная система, встроенная внутрь ядра распознавания, сама выбирает оптимальный для данного текста алгоритм.

Альтернативой традиционному шаблонному методу распознавания стало распознавание на основе принципов целостности, целенаправленности и адаптивности, так называемая IPA-технология, на которой основана система распознавания компании ABBYY — FineReader.

Отдельной задачей является распознавание рукопечатных символов, заключающееся в необходимости распознать символ, несмотря на особенности почерка человека.

 

 

Презентация подготовлена по материалам сайта compress.ru

Перевод данных в электронный вид

By matkunova

Перевод данных в электронный вид

  • 580