Трехмерные системы технического зрения. Какие дополнительные возможности они имеют по сравнению с двумерными системами.

По существу, трехмерные системы технического зрения позволяют разрешать все конфликты, которые появляются в двумерных системах, когда объекты, например, накладываются друг на друга, или один объект находится сверху другого. Трехмерные системы также позволяют работать с топографической информацией, например, когда компьютер генерирует геофизические карты по наблюдениям со спутника.

Трехмерная обработка изображения занимает важнейшее место в теории ИИ, потому что существуют проблемы, которые должны быть преодолены.

На самом деле системе технического зрения достаточно одной камеры для многих приложений, требующих трехмерной информации. Чтобы понять почему, закройте один глаз на мгновение и посмотрите вокруг. Вы можете также легко распознавать объекты вокруг Вас! Причина этого проста для объяснения, но трудна для выполнения на компьютере. Человек может видеть и одним глазом, потому что наша система зрения получает намного больше информации, чем только границы объектов. Она имеет информацию относительно цвета, оттенков, яркости и расстояния. Мы все получаем трехмерное представление мира, используя один глаз, еще и потому, что человек может полагаться на другую информацию (по крайней мере, частично) чтобы восполнить потерю бинокулярного видения. Далее предполагаем, что в системе используется только одна камера.

Трехмерная система более сложная, чем двумерная. Трехмерное изображение содержат намного больше информации. В высоко-контрастном двоичном изображении, компьютер может сохранять каждый пиксель в одном бите, потому что он является или черным или белым. (Пиксель - одна дискретная отметка видео изображения, точка экрана). Однако, чтобы получить трехмерное восприятие, требуется информация о яркости каждого пикселя. Пусть различается 256 оттенков серого цвета, тогда каждый пиксель требует 1 байт для хранения. Это в восемь раз больше, чем нужно для хранения черно-белого высоко-контрастного изображения. А для программы требуется существенно больше времени, чтобы проанализировать трехмерное изображение, в отличие от изображения в высоко-контрастном режиме.

Более важная проблема возникает при попытке заставить компьютер использовать всю информацию, которую содержит изображение. Когда человек смотрит, он не задумывается о том, как именно он видит. Наши глаза незначительно отличаются от телевизионной камеры. Следовательно, мозг должен произвести значительное количество работы, чтобы интерпретировать все изображения, которые мы видим каждый день. ЗадачаИИ состоит в том, чтобы воссоздать в компьютере способ, которым человек обрабатывает изображения.

Распознавание образов как область искусственного интеллекта. Охарактеризуйте общие проблемы распознавания.

Одна из самых сложных проблем, с которыми приходится сталкиваться при попытке создать систему технического зрения - это распознавание накладывающихся друг на друга объектов. Трудность не в том, что компьютер не может сообщить, что один объект находится перед другим; здесь тени и различия в оттенках дают достаточные сведения. Главная трудность состоит в программировании компьютера распознавать отдельные объекты, видя их только частично. Например, если заложить в компьютер, что треугольник имеет три стороны и три вершины, и если компьютер видит треугольник, одна вершина которого затенена другим объектом (или, возможно, часть его находится за полем зрения камеры), то как компьютер узнает, что это треугольник, когда третья вершина отсутствует?

Существует много подходов к решению этой проблемы, но наиболее интересное решение и самое близкое к тому, как это делает человек, называется управляемой галлюцинацией. В этом методе компьютер, опираясь на начальную информацию и постулаты, проверяет, видит ли он треугольник, для чего используются некоторые средства, например, типа вычисление того, пересекутся ли две линии где- нибудь в затененной области. Это сложный процесс для реализации, так как это программирование находчивости.

Другая трудная задача, возникает при программировании компьютера, распознающего классы объектов, то есть распознавания того, что эта яблоня есть дерево, или того, что это конкретное здание есть дом. Гораздо проще заставить компьютер распознать какой-то отдельный объект как объект, чем распознать объект как экземпляр класса. Причина этого в том, что отдельным объектам можно приписывать строгий набор параметров и ограничений, которым должно соответствовать изображение, но при распознавании объекта как экземпляра класса необходимо хранить описание класса совершенно общее и позволяющее охватывать все небольшие различия между экземплярами данного класса.

Оптические обманы

Многие оптические обманы, которые вводят в заблуждение людей, абсолютно не воздействуют на компьютерный анализ того же самого изображения. Например, линии А и В на рисунке 7 одной и той же длины, но, А кажется более длинной. Однако, компьютер не сделал бы эту ошибку. Но, верна и противоположная ситуация: компьютер может быть введен в заблуждение изображениями, которые люди могут правитьно интерпретировать. Например, если смотреть на длинную прямую дорогу, то кажется, что она сужается и исчезает, превратившись в точку: то есть объект выглядит тем меньше, чем дальше он находится. Мы привыкли к этому- эффекту* и мало об этом думаем. Однако, в несовершенных системах технического зрения, компьютер, вероятно, будет думать, что отдаленные объекты просто маленькие.

Таким образом, для компьютера и человека наборы оптических обманов различны. Более того, многие свойства, которые мы считаем само собой разумеющимися, должны явно программироваться для того, чтобы компьютер смог правильно интерпретировать изображение.

1 2 3 456

Последнее изменение этой страницы: 2016-08-11

lectmania.ru. Все права принадлежат авторам данных материалов. В случае нарушения авторского права напишите нам сюда...