Категории:

Дом Здоровье Зоология Информатика Искусство Искусство Компьютеры Кулинария Маркетинг Математика Медицина Менеджмент Образование Педагогика Питомцы Программирование Производство Промышленность Психология Разное Религия Социология Спорт Статистика Транспорт Физика Философия Финансы Химия Хобби Экология Экономика Электроника

Описание символа с использованием дескрипторов формы

Для алгоритма распознавания рукопечатных символов выбрана область фиксированного размера 8×8, где определяется следующий из набора примитивов (см. рисунок9) дескриптор.

Рис. 9. Дескрипторы формы: а) концевая, б) примыкание 1ст, в) примыкание 2ст, г) изгиб вверх, д) изгиб вниз,

е) изгиб влево, ж) изгиб вправо, з) вертикальная прямая и) горизонтальная прямая,

к) наклон слева направо, л) наклон справа налево.

Данный набор дескрипторов объединены в следующие семейства:

- К – семейство концевых;

- СПИ – семейство прямых и изгибов;

- ППС – примыкание первой степени;

- ПВС – примыкание второй степени.

Определение структур посредством выделения дескрипторов формы предполагает выполнение следующих шагов: поиск положения концевых, который сводится к однозначному определению пересечения примитива с блоком; определение примыкания и изгибов, которые предназначены для установления точного места соединения либо перегиба в символе; фильтрация внутри окрестных ПВС для устранения избыточности; удаление смежных СПИ, ППС и ПВС, которые не несут смысловой нагрузки на весь процесс распознавания.

Для каждого семейства дескрипторов формы определены цифровые обозначения. Это в конечном итоге позволяет определить количество в каждой пространственной области двумерного массива дескрипторов. По каждому набору примитивов формируется вектор-дескрипторов, который используется при сравнении со структурой эталонных вектор-дескрипторов. Определение дескрипторов в разных областях достигается путем условного разбиения относительно символа на три горизонтальные области: верхняя; центральная; нижняя.

Результаты исследований алгоритма

Для проведения экспериментов предлагаемый алгоритм распознавания рукопечатных символов реализован на языке С++. Разработка и тестирование системы проводилась на компьютере AMD Athloln 3.2 ГГц, 1024 МБ ОЗУ.Эксперименты проводились для распознавания букв русского языка, используя базу данных из 1600 символов, порядка 50 символов для каждой буквы. При этом использовались четыре различных базы данных эталонных символов. На рис. 10-13 в качестве примера показаны результаты исследований для первой базы данных эталонных символов.

Рис. 10Пример эталонных символов

Рис.11Некоторые правильно распознанные символы

Следует отметить, что часть рукопечатных символов распознаны как неправильные. На рисунке 12 символ «Я» был распознан как «А», «В» как «О», «X»как «А», «А» как «Д», «Щ» как «Ш», «З» как «Э», «У» как «Ч».Если дескрипторы отличаются от эталонных, то символ считается нераспознанным. По символам, представленным на рис.13, наблюдалось значительное отклонение по дескрипторам семейства СПИ, поэтому они не были распознаны.

Рис. 12 Неправильно распознанные символы Рис.13 Нераспознанные символы

Данные по нераспознанным и неправильно распознанным рукопечатным символам, усредненные для четырех различных баз данных эталонных символов, представлены на рис. 14.

Рис.14. Процент неправильно распознанных и нераспознанных символов

По результатам исследований установлено также, что для повышения эффективности работы алгоритма необходимо, чтобы размер символом был более восьмидесяти процентов от области ячейки, концевые находились в своих областях (верхней, центральной или нижней), пропорции символа не нарушались.

Заключение

Разработка новых программных продуктов для оптического ввода документов в настоящее время является актуальной задачей, решение которой требует разработки новых, более эффективных алгоритмов распознавания рукопечатных и рукописных символов в связи со специфическими требованиями по быстродействию, надежности распознавания и другими требованиями, которыми характеризуется каждая конкретная задача разработки проблемно-ориентированной системы автоматического ввода в компьютер бумажной документации.

Проведенный анализ существующих методов показал, что одним из эффективных методов распознавания является метод, использующий структурно-признаковый анализ. На базе данного метода разработан алгоритм распознавания рукопечатных символов, основными этапами которого являются фильтрация полутонового изображения, адаптивная бинаризация заданных областей, фильтрация бинарного изображения, сегментация слов, сегментация символов, скелетизация символов, описание символа с использованием дескрипторов формы, получение вектора дескрипторов и сравнение его с базой. Разработан набор признаков и их геометрическое взаимодействие между собой, по которым происходит сравнение текущего символа с эталонными. Проведены экспериментальные исследования и установлено, что созданный алгоритм позволяет распознавать символы с достаточно высокой точностью, достигаемой 96 процентов для букв русского алфавита..

Символы у которых дескрипторы семейства К, ППС и ПВС имеют несколько схожих эталонов разных групп символов имеют процент ошибочного распознавания. К таким символам относятся «Н», «З», «Э», «А», «Д», «Я». Максимальный процент распознавания у тех символов, которые имеют группу эталонов на один символ. Примером таких символов являются «Ж», «Р», «И», «Ю», «М», «Ч».

Литература

1. Системы оптического распознавания документов[Электронный ресурс]/ Прохоров А. Режим доступа – http://www.compress.ru/article.aspx?id=11745&iid=458 – Дата доступа: 19.04.10.

2. Дробков, А.В., Семенов, А.Б. (2009) Исследование одного метода распознавания рукопечатных символов. Вестник ТвГУ. Серия: Прикладная математика (15). Стр. 15-26

3. Реализация алгоритма распознавания графических образов. [Электронный ресурс]/ Ю. Кисляков. Режим доступа – http://www.citforum.ru. – Дата доступа: 03.02.06

4. Распознавание скелетных образов. [Электронный ресурс]/ Н.В. Котович, О.А. Славин. Режим доступа – http://www.octavi.narod.ru. – Дата доступа: 01.04.03

5. Эффективный алгоритм предобработки изображений для структурных методов распознавания рукописных символов. [Электронный ресурс]/Р.В. Поцепаев, И.Б. Петров. Режим доступа – http://www.zhurnal.ape.relarn.ru. – Дата доступа: 01.01.03

6. О.К. Нусратов, П.Ш. Гейдаров Метод распознавания рукопечатных символов и текстов. [Электронный ресурс]/ Режим доступа – www.science.az/cyber/pci2006/5/!5r01-nusratov.doc. – Дата доступа: 06.03.10

7. Патент Российской Федерации 2309456, МПК G06K9/36 , опубл. 27.10.2007

8. Патент Российской Федерации 2295154, МПК G06K9/68, опубл. 10.03.2007

9. Цифровая обработка изображений/Р. Гонсалес, Р. Вудс. – Москва: Техносфера, 2005. – 1072с

10. Бинаризация черно-белых изображений: состояние и перспективы развития [Электронный ресурс]/ А. Федоров. Режим доступа – http://www.philippovich.ru/Library/Books/ITS/wwwbook/ist4b/its4/fyodorov.htm. – Дата доступа: 01.04.03

11. Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие. Режим доступа – http://window.edu.ru. – Дата доступа: 27.08.09.

12. Структурный анализ цифровых контуров изображений как последовательностей отрезков прямых и дуг кривых/ В.В. Вишневский, В.Г. Калмыков. Режим доступа – http://www.iai.dn.ua. – Дата доступа: 05.09.09.

1 23

Последнее изменение этой страницы: 2016-07-22

lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда...