Кафедра АППиЭ

КОНФЕРЕНЦИИ => Дни науки АмГУ 2021 Секция Автоматика, управление и моделирование => Тема начата: Артём Сборнов от Среда, апреля 14, 2021, 02:21:14

Название: Машинное зрение.
Отправлено: Артём Сборнов от Среда, апреля 14, 2021, 02:21:14
Тема: Машинное зрение.
Исполнитель: Сборнов Артём Андреевич, студент гр. 941
Руководитель СКБ "Промышленная робототехника и автоматизация" Русинов Владислав Леонидович


Машинное зрение -- это научное направление в области искусственного интеллекта, в частности робототехники, и связанные с ним технологии получения изображений объектов реального мира, их обработки и использования полученных данных для решения разного рода прикладных задач без участия (полного или частичного) человека.

(https://c.radikal.ru/c24/2104/3c/20baabaf590f.jpg) (https://radikal.ru)

Исторические прорывы в машинном зрении:

1955 год - Оливер Селфридж. Статья «Глаза и уши компьютера».
1958 год - Фрэнк Розенблатт. Компьютерная реализация персептрона.
1960-е годы - первые системы обработки изображений.
1970-е годы - Лавренсе Робертс. Концепция машинного построения трёхмерных образов объектов.
1979 год - Ганс-Хельмут Нагель. Теория анализа динамических сцен.
1990-е годы - Первые беспилотные системы управления автотранспортом.
2003 год - Корпоративные системы распознавания лиц.

Компоненты системы машинного зрения:

- Одна или несколько цифровых или аналоговых камер (черно-белые или цветные) с подходящей оптикой для получения изображений
- Программное обеспечение для изготовления изображений для обработки. Для аналоговых камер это оцифровщик изображений
- Процессор (современный ПК c многоядерным процессором или встроенный процессор, например -- ЦСП)
- Программное обеспечение машинного зрения, которое предоставляет инструменты для разработки отдельных приложений программного обеспечения.
- Оборудование ввода-вывода или каналы связи для доклада о полученных результатах
- Умная камера: одно устройство, которое включает в себя все вышеперечисленные пункты.
- Очень специализированные источники света (светодиоды, люминесцентные и галогенные лампы и т. д.)
- Специфичные приложения программного обеспечения для обработки изображений и обнаружения соответствующих свойств.
- Датчик для синхронизации частей обнаружения (часто оптический или магнитный датчик) для захвата и обработки изображений.
- Приводы определенной формы используемые для сортировки или отбрасывания бракованных деталей.
- Машинное зрение сосредотачивается на применении, в основном промышленном, например, автономные роботы и системы визуальной проверки и измерений. Это значит, что технологии датчиков изображения и теории управления связаны с обработкой видеоданных для управления роботом и обработка полученных данных в реальном времени осуществляется программно или аппаратно.

Обработка изображений и анализ изображений в основном сосредоточены на работе с 2D изображениями, т.е. как преобразовать одно изображение в другое. Например, попиксельные операции увеличения контрастности, операции по выделению краёв, устранению шумов или геометрические преобразования, такие как вращение изображения. Данные операции предполагают, что обработка/анализ изображения действуют независимо от содержания самих изображений.

Компьютерное зрение сосредотачивается на обработке трехмерных сцен, спроектированных на одно или несколько изображений. Например, восстановлением структуры или другой информации о 3D сцене по одному или нескольким изображениям. Компьютерное зрение часто зависит от более или менее сложных допущений относительно того, что представлено на изображениях.

Также существует область названная визуализация, которая первоначально была связана с процессом создания изображений, но иногда имела дело с обработкой и анализом. Например, рентгенография работает с анализом видеоданных медицинского применения.

Наконец, распознавание образов является областью, которая использует различные методы для получения информации из видеоданных, в основном, основанные на статистическом подходе. Значительная часть этой области посвящена практическому применению этих методов.

Таким образом, можно сделать вывод, что понятие «машинное зрение» на сегодняшний день включает в себя: компьютерное зрение, распознавание зрительных образов, анализ и обработка изображений и т.д.

Задачи машинного зрения:

- Распознавание
- Идентификация
- Обнаружение
- Распознавание текста
- Восстановление 3D формы по 2D изображениям
- Оценка движения
- Восстановление сцены
- Восстановление изображений
- Выделение на изображениях структур определенного вида, сегментация изображений
- Анализ оптического потока

Распознавание:

(https://b.radikal.ru/b34/2104/a7/c1ec51a0684c.jpg) (https://radikal.ru)

Классическая задача в компьютерном зрении, обработке изображений и машинном зрении это определение содержат ли видеоданные некоторый характерный объект, особенность или активность.

Эта задача может быть достоверно и легко решена человеком, но до сих пор не решена удовлетворительно в компьютерном зрении в общем случае: случайные объекты в случайных ситуациях.

Один или несколько предварительно заданных или изученных объектов или классов объектов могут быть распознаны (обычно вместе с их двухмерным положением на изображении или трехмерным положением в сцене).

Идентификация:

(https://b.radikal.ru/b01/2104/ea/44b5e06c2e9a.jpg) (https://radikal.ru)

Распознается индивидуальный экземпляр объекта принадлежащего к какому-либо классу.
Примеры: идентификация определённого человеческого лица или отпечатка пальцев или автомобиля.

Обнаружение:

(https://d.radikal.ru/d03/2104/73/e148f3098e56.jpg) (https://radikal.ru)

Видеоданные проверяются на наличие определенного условия.

Обнаружение, основанное на относительно простых и быстрых вычислениях иногда используется для нахождения небольших участков в анализируемом изображении, которые затем анализируются с помощью приемов, более требовательных к ресурсам, для получения правильной интерпретации.

Распознавание текста:

(https://c.radikal.ru/c28/2104/84/b91ad7e0c7eet.jpg) (https://radikal.ru/big/741m2kxvbv7bt)

Поиск изображений по содержанию: нахождение всех изображений в большом наборе изображений, которые имеют определенное различными путями содержание.

Оценка положения: определение положения или ориентации определенного объекта относительно камеры.

Оптическое распознавание знаков: распознавание символов на изображениях печатного или рукописного текста (обычно для перевода в текстовый формат, наиболее удобный для редактирования или индексации. Например, ASCII).

(https://c.radikal.ru/c05/2104/a8/b0598d30a721.png) (https://radikal.ru)

Восстановление 3D формы по 2D изображениям осуществляется с помощью стереореконструкции карты глубины, реконструкции поля нормалей и карты глубины по закраске полутонового изображения, реконструкции карты глубины по текстуре и определения формы по перемещению

Пример восстановления 3D формы по 2D изображению:

(https://c.radikal.ru/c13/2104/be/6cec58c917cat.jpg) (https://radikal.ru/big/tbh3l2u4jaz44)

Оценка движения:

Несколько задач, связанных с оценкой движения, в которых последовательность изображений (видеоданные) обрабатываются для нахождения оценки скорости каждой точки изображения или 3D сцены. Примерами таких задач являются: определение трехмерного движения камеры, слежение, то есть следование за перемещениями объекта (например, машин или людей)

Восстановление сцены:

Даны два или больше изображения сцены, или видеоданные. Восстановление сцены имеет задачей воссоздать трехмерную модель сцены. В простейшем случае, моделью может быть набор точек трехмерного пространства. Более сложные методы воспроизводят полную трехмерную модель.

Восстановление изображений:

(https://b.radikal.ru/b32/2104/c2/4faee1646b15.jpg) (https://radikal.ru)

Задача восстановления изображений это удаление шума (шум датчика, размытость движущегося объекта и т.д.).

Наиболее простым подходом к решению этой задачи являются различные типы фильтров, таких как фильтры нижних или средних частот.

Более высокий уровень удаления шумов достигается в ходе первоначального анализа видеоданных на наличие различных структур, таких как линии или границы, а затем управления процессом фильтрации на основе этих данных.

Восстановление изображений:

Анализ оптического потока (нахождения перемещения пикселей между двумя изображениями).
Несколько задач, связанных с оценкой движения, в которых последовательность изображений (видеоданные) обрабатываются для нахождения оценки скорости каждой точки изображения или 3D сцены.

Примерами таких задач являются: определение трехмерного движения камеры, слежение, т.е. следование за перемещениями объекта (например, машин или людей).

Методы обработки изображений:

- Счетчик пикселей
- Бинаризация
- Сегментация
- Чтение штрих-кодов
- Оптическое распознавание символов
- Измерение
- Обнаружение краев
- Сопоставление шаблонов

Счетчик пикселей:

Подсчитывает количество светлых или темных пикселей.
С помощью счетчика пикселей пользователь может выделить на экране прямоугольную область в интересующем месте, например там, где он ожидает увидеть лица проходящих людей. Камера в ответ немедленно даст сведения о количестве пикселей, представленных сторонами прямоугольника.

Счетчик пикселей дает возможность быстро проверить, соответствует ли смонтированная камера нормативным требованиям или требованиям заказчика относительно пиксельного разрешения, например, для лиц людей, входящих в двери, которые контролируются камерой, или в целях распознавания номерных знаков.

Бинаризация:

(https://c.radikal.ru/c27/2104/56/406bc61ff758.png) (https://radikal.ru)

Преобразует изображение в серых тонах в бинарное (белые и черные пиксели).
Значения каждого пикселя условно кодируются, как «0» и «1». Значение «0» условно называют задним планом или фоном а «1» -- передним планом.

Часто при хранении цифровых бинарных изображений применяется битовая карта, где используют один бит информации для представления одного пикселя.

Также, особенно на ранних этапах развития техники, двумя возможными цветами были чёрный и белый, что не является обязательным.

Сегментация:

Используется для поиска и (или) подсчета деталей.

Цель сегментации заключается в упрощении и/или изменении представления изображения, чтобы его было проще и легче анализировать.

Сегментация изображений обычно используется для того, чтобы выделить объекты и границы (линии, кривые, и т. д.) на изображениях. Более точно, сегментация изображений -- это процесс присвоения таких меток каждому пикселю изображения, что пиксели с одинаковыми метками имеют общие визуальные характеристики.

Результатом сегментации изображения является множество сегментов, которые вместе покрывают всё изображение, или множество контуров, выделенных из изображения. Все пиксели в сегменте похожи по некоторой характеристике или вычисленному свойству, например, по цвету, яркости или текстуре. Соседние сегменты значительно отличаются по этой характеристике.

Чтение штрих-кодов:

(https://c.radikal.ru/c35/2104/db/ff535e22dc40.jpg) (https://radikal.ru)

Штрих-код -- графическая информация, наносимая на поверхность, маркировку или упаковку изделий, представляющая возможность считывания её техническими средствами -- последовательность чёрных и белых полос либо других геометрических фигур.
В машинном зрении штрих-коды используют для декодирования 1D и 2D кодов, разработанных для считывания или сканирования машинами.

Оптическое распознавание символов:

Оптическое распознавание символов: автоматизированное чтение текста, например, серийных номеров.

Распознавание используется для конвертации книг и документов в электронный вид, для автоматизации систем учёта в бизнесе или для публикации текста на веб-странице.

Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слов или фраз, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тексту электронный перевод, форматирование или преобразование в речь.