Компьютерное и машинное зрение – понятия схожие, но между ними есть очень ощутимые различия. Компьютерным называют технологию из области искусственного интеллекта, позволяющую обнаруживать объекты, классифицировать их, отслеживать. Оснащенные компьютерным зрением машины способны на видеоаналитику, на распознание, на описание и на качественную обработку результатов.
Машинным же зрением называют использование компьютерного в разных направлениях производства для решения разнообразных промзадач.
Особенности компьютерного зрения
Computer Vision или CV – уникальная способность компьютера не просто «видеть», но также из всего увиденного получать информацию, извлекая необходимые картинки, штрих-коды, лица и даже эмоции на них.
Система состоит из специализированного ПО, а также видео- или фотокамеры.
Научить «видеть» компьютер возможно при помощи технологий специализированных способов машинного обучения. Осуществляется сбор массы данных, а уже после выделяются комбинации и признаки для идентификации объектов в дальнейшем.
Применение такое решение нашло в следующих областях:
- безопасности и видеонаблюдения (около 32%);
- медицины (примерно 14%);
- торговли (9-10%).
Современный бизнес также эффективно использует компьютерное зрение в своей деятельности.
С его помощью распознаются лица посетителей, сокращается до минимума продолжительность времени на обслуживание клиентов, осуществляются разнообразные индивидуальные услуги, значительно усиливаются человеческие возможности. Технология делает «видимым» то, что человек просто может упустить или не заметить. Актуальнее всего это в промышленности для обнаружения брака и в медицине при просмотре анализов, снимков рентгена и пр.
Проблемы компьютерного зрения
Набор данных стали активно использовать, но откуда вообще взялись изображения, кем они были размечены, каких меток или изображений не хватает, каким образом эта проблема отражается на результате, никто изначально не задумался.
Лишь спустя годы в датасете были обнаружены некорректные метки и масса предвзятости.
В книге К.Кроуфорда «Атлас ИИ» отмечено наличие категорий вредных и даже оскорбительных, дискриминирующих по расе, возрасту, физвозможностям. Эта предвзятость полностью и по сей день не исключена, но работа ведется. Датасет критикуют за нарушение права приватности. Люди на использованных снимках не давали согласия на разметку фото, на демонстрацию его.
Предвзятость – ключевая проблема для ИИ, но в использующих КЗ приложениях ее влияние увидеть особенно просто.
Так, например, технология, которая эффективно распознает лица, не может идентифицировать людей с темной кожей, но, тем не менее, применяется во многих магазинах США. Когда же и полиция стала применять эту технологию, начались протесты, приведшие к изменениям в законодательства некоторых штатов и городов.
В целом, правила для КЗ и ИИ являются ощутимой проблемой. На данный момент вообще непонятно, на что ориентироваться компаниям и исследователям, что будет в случае следования и других стран мира за правилами ЕС.
С техническими проблемами КЗ также сталкивается. В первую очередь, отметим:
- Ограниченные возможности оборудования (датчиков и камер).
- Сложность масштабирования систем КС.
- Необходимость организовать огромную вычислительную мощность.
История КЗ показала и доказала, что хорошие репрезентативные данные, этично и беспристрастно собранные найти сложно, а разметить еще сложнее.
Сложности распространения
Основными трудностями в плане распространения компьютерного зрения разработчики называют сложности быстродействия и проблему системной стабильности. Конечно, очень важны внешние факторы КЗ (движение, освещение объекта) и внутренние (система сбора данных).
Все данные передаются камерами на сервер, где при помощи спец ПО осуществляется распознавание и обработка. Но важно, чтобы был стабильный доступ к качественному интернету. Без этого условия выполнение задачи усложнено.
Для обработки в СТЗ данных нужны вычислители типа ЭВМ. При выполнении практических задач требуются для описания и хранения инструментальные приспособления. К сожалению, на сегодняшний день качественного аппарата, который мог бы служить опорой для модели объектных данных, не существует. Поэтому для каждого отдельного задания нужно создавать новый язык описания мира в целом и объектов в частности.
Машинное видение – довольно заманчивая перспектива для многих типов человеческой деятельности, но мест реальной возможности внедрить СТЗ невероятно мало. Почему? К машинному видению стремятся желающие оснастить технологические процессы или уже работающие механизмы дополнительными возможностями. В результате получается сформировать систему с СТЗ в качестве основной части, на которую выделяется до 30% затрат от общей стоимости проекта.
Типы машинного видения и вычислительных мощностей
Все аппаратные средства для машинного видения можно поделить на
- уже широко применяемые в телевидении и ориентированные на зрителя (стоимость от нескольких сотен до нескольких тысяч долларов);
- специализированные. которые ориентированы на тех использование (стоимость до десятков тысяч долларов).
В плане вычислительных мощностей ситуация похожа. Здесь выделяют:
- традиционные ЭВМ с обычными операционками (стоят сотни долларов);
- специальное обеспечение и видеопроцессоры (намного дороже стоят и использовать можно, лишь обладая особенными навыками).
Для продвижения машинного видения выбирается максимально доступное направление, заключающееся в разработке и усовершенствовании базы алгоритмов с дальнейшей реализацией.
Тренды компьютерного зрения
Основные или ключевые тренды CV были обозначены на OpenTalks AI (конференция, посвященная вопросам искусственного интеллекта).
Нейросети в генеративно-состязательных моделях выходят на первый план. К примеру, директор по исследованию искусственного интеллекта Facebook Ян Лекун назвал GAN самой интересной за последние 10 лет идеей в плане машинного обучения. Смысл в том, входные данные генерируются, их подлинность оценивается, по определенным признакам осуществляется классификация по определенным категориям.
Именно GAN разрабатывают неотличимые от настоящей живописи или фото изображения, движущиеся нейроаватары, таймплампсы и пр.
В ближайшем будущем специальные алгоритмы будут анимировать фото.
Основные компоненты КЗ следующие:
- оптика и иногда подсветка объекта;
- сенсорная матрица для проецирования изображений;
- системы, обрабатывающие полученное с матрицы изображение.
Если свет контролируемый, лучше подсветить часть инспектируемого объекта, чтобы необходимые характеристики лучше замечались камерой.
Оптика проецирует изображение на матрицу, там оно преобразуется в цифровой образ и отправляется для анализа в процессор.
Системы CV желательно не применять при искусственном освещении. В ситуациях, когда обычного света недостаточно, лучше брать камеру, оснащенную подсветкой. Только так возможно четко высветить детали материала и его фактуру. В сложных условиях (туман и пр.) подсветка поможет избежать бликов, создать изображение с качественным набором пикселей. Их плотность имеет огромное значение для работы компьютерного зрения.
Типы компьютерного зрения
Есть три ключевых типа КЗ:
- 1D или одномерное. Цифровой сигнал анализирует изображение, сканируя его полинейно, а не целиком. Это важно при обнаружении дефектов в результатах непрерывных производственных процессов (производство рулонного изделия, например).
- 2D или двумерное, анализирующие по высоте и ширине изображение..
- 3D или объемное, используемое для анализа объектов, их положения или формы в пространстве.
Также стоит отметить систему «рыбий глаз» (fisheye) и многокамерный вариант.
Решение задач КЗ: главные подходы
Ключевым в решении задач КЗ являются:
- Контурный анализ.
- Шаблонный поиск.
- Поиск по ключевым точкам.
- Поиск по характерным чертам.
- Сопоставление данных.
- Алгоритмы генетики.
Генетические алгоритмы применяют для распознавания лиц.
Контурный анализ максимально упрощает вычислительные алгоритмы, анализируя не изображение предмета/объекта, а лишь его контур. Но при этом важно, чтобы контур был выделен максимально четко, чтобы не было помех.
Шаблонный поиск самый простои и популярный. Он определяет простое соответствие, пошагово сканируя исходную картинку шаблоном.
Сравнение по ХЧ подходит в случаях, когда по в этом плане с шаблоном больше соответствия, чем с целым образом.
На базе областей соответствие определяется корреляционными или основанными на алгоритме комбинированного нахождения ХЧ (характерных черт) с основным изображением. Иногда установить соответствие нет возможности, тогда используют собственные значение и пространство, содержащие необходимую для сравнения в разной контрастности и освещенности объектов.
Компьютерное зрение позволяет осуществлять корреляцию картинок (Image Correlation Matching). Для этого измеряют между шаблоном и изображением метрику подобия. Это расширяет диапазон возможностей качественного контроля. Автовизуальная инспекция выявления дефектов при помощи КЗ намного лучше ручной проверки. И не только в плане точности. Также важно отметить выгоду в в скорости и стоимости.
Системы Deep learning (глубокого обучения)
В задачах, когда комбинация отдельных пикселей, частот, слов и букв полезна, а сами по себе эти базовые компоненты значения и смысла не несут, системы Deep learning способны к извлечению комбинаций без участия человека.
Нейросети, которые состоят из более чем 1-2 слоев и называются глубокими (deep neural network), к извлечению входного ХЧ неспособны, алгоритмы их несовершенны.
На изображении пример CV системы. Задачей было сегментировать сцену по горизонтальному, вертикальному и «небо» направлениям.
От исходника пиксельные данные с откорректированными цветами идут на нейросеть ГО, здесь происходит обработка изображения, определяется принадлежность пикселей порельефно.
А на этом примере показано, как распознаются написанные вручную цифры при применении нейросети в один уровень.
Внешаблонное компьютерное зрение
Для обрабатывания в КЗ изображений используются ХЧ наборы точек, линий и границ объектов. К последовательному движению относятся иные примеры ХЧ.
Распознавание и детектирование не только устанавливают наличие нужного предмета на изображении, но и определяют его расположение.
Еще одним примером использования внешаблонного метода распознавания считается фотограмметрия, которая создает модели в 3Д из разных картинок, сделанных с одного объекта. Метод уже давно применяется в геодезии, в картографии, а мощность компьютеров сделала его более популярным и востребованным даже в киноиндустрии и отрасли создания компьютерных игр.
Для обнаружения дефектов в изделиях и материалах используется внешаблонная система CV дефектоскопия. Она распознает, классифицирует объекты на изображениях, относящихся к общей категории, локализует их, сегментирует и детектирует.
Если необходимо точно определить оттенок, цветовое CV незаменимо. Оно применяется в играх, меддиагностике, инспекции медпрепаратов, сенсорике, биометрии, инспекции наклеек/этикеток и пр.
Совмещает данные разных источников для максимально полезной и точной информации, для повышения ее ценности, для улучшения работы использующего ее приложения Data Fusion.
Заказать разработку компьютерного зрения аутсорсинг можно у наших специалистов. заполняйте форму заявки или связывайтесь с нами по указанным контактным данным. Подберем оптимальный вариант, рассчитаем подходящую стоимость, сделаем все на аутсорсинге, если так будет удобнее. Ждем вас!