О компьютерном зрении, о его возможностях и преимуществах много говорится и пишется. Приступить к практике мешают опасения, что что-то не получится, что не хватит способностей, не хватит возможностей и пр.

Этот материал поможет преодолеть сомнения и быстрее приступить к освоению КОМПЬЮТЕРНОГО ЗРЕНИЯ.

Сделать для этого достаточно 8 основных шагов. Но прежде чем перейти к их перечислению, рассмотрим кратко задачи технологий создания искусственных систем, получающих из изображений необходимую информацию, а также этапы освоения компьютерного зрения.

Задачи компьютерного зрения

Прежде чем начинать изучать особенности, шаги, этапы и прочие вопросы относительно этой широкой отрасли, нужно четко понять, зачем нужно компьютерное зрение, какие задачи из имеющихся оно дает возможность решать в данный момент, чего позволит добиться в перспективе.

При помощи этой инновационной технологии возможно осуществлять:

  1. Сегментацию разнообразных изображений.
  2. Детектирование различного рода объектов.
  3. Классификацию и генерацию изображений.
  4. Распознавание и отслеживание символов, лиц, движущихся объектов и пр..

Сегментация разнообразных изображений при помощи компьютерного зрения

Среди практических применений сегментирования изображений можно отметить:

  • компьютерную хирургию, диагностику патологий (в т.ч. и опухолей), планирование схемы лечения;
  • анализ спутниковых снимков и выделение на них объектов/предметов;
  • определение лиц людей и даже отпечатков пальцев;
  • управление дорожным движением (в т.ч. своевременное обнаружение знаков и стоп-сигналов);
  • при передаче различных изображений проведение параллелей между потоками информации.

Детектирование различного рода объектов

Под детектированием понимается задача выделения на изображении нескольких объектов по координатам рамок-ограничителей. Отметим, что число объектов на изображении, в отличие от локализированной классификации, заранее неизвестно.

computer vision

Классификация и генерация изображений

Полученные изображения группируются по разным категориям, либо какое-то определенное изображение сегментируется на несколько фрагментов, а они уже классифицируются по образам для проведения дальнейшего изучения/исследования.

Если приложение простое, достаточно одного метода, если более сложное, то необходимо опираться на несколько для скорейшего достижения поставленных задач.

Отслеживание и распознание объектов в движении, символов, лиц и пр.

Возможности современного компьютерного зрения позволяют распознавать и отслеживать не только неподвижные объекты, а и объекты, пребывающие в движении. Это применяется в системах охраны и контроля, помогает повысить уровень безопасности и надежности по максимуму.

Основные области применения Computer Vision

Методы и приложения компьютерного зрения нашли применение в таких областях:

  1. Игры и приложения мультимедиа (например, модель игрока в Quake3, создаваемая автоматически).
  2. Основанный на голосовых командах, на мимике, на жестах пользователя интерфейс human-centered computing, для которого не нужны мышь и клавиатура.
  3. Автоанализ медизображений и данных (рентген, УЗИ, томография).
  4. Системы охраны (определение номеров авто, лиц людей, изображения объектов, находящихся в движении и пр.).
  5. Автораспознавание печатного и рукописного текстов.
  6. Сжатие видео с учетом его содержания.
  7. Электроника, машиностроение, контроль качества, промышленные работы и многое другое.

Где применяется компьютерное зрение

Компьютеры уже давно перестали быть индивидуальной замкнутой системой. Они способны активно взаимодействовать с миром. К примеру, «видеть» разнообразные объекты, определять их, отличая друг от друга. Примерами computer vision могуть быть и маски в FaceApp (например, популярные сейчас с эффектом старения), и трансляция на экраны изображений, передаваемых дронами, и фиксация ПДД автонарушителей.

В промышленности, спорте, ритейле и даже разработке автопилота также именно компьютерное зрение эффективно используется.

Как взаимодействует с миром

Благодаря компьютерному зрению (Computer vision) у машин есть возможность научиться понимать иные объекты, взаимодействовать с ними.

В целом, все решаемые computer vision задачи делятся на сложные и простые. К простым (еще называют «низкоуровневое» зрение) можно отнести обозначение класса изображенного объекта. Для выполнения этой задачи устройство получает с камеры информацию в графическом виде, а потом декодирует пиксели изображения при помощи подобных OpenCV библиотек. Это дает возможность осуществить сегментацию фото, определить границу лица или объекта. Для примера взгляните на фото ниже. С ним проведена именно такая сегментация.

Если нужно, к примеру, идентифицировать человека с фото, это уже более серьезная задача. Распознание осуществляется за счет анализа миллионов изображений, за счет сопоставления их с объектом.

Роботы в промышленности и автопилоты

На производстве также широко применяется компьютерное зрение, только в инженерии называется оно машинным. Известно, что еще в 1980г. machine vision самостоятельно осуществила производство микросхем. Человек в этом процессе участия не принимал.

На заводах, предприятиях или частных фирмах такие инновации полезны на любом этапе. К примеру, при работе с сырьем, в момент сборки камеры позволяют получить изображение, а ПО (программное обеспечение компьютера) всю ситуацию анализирует. Предположим, речь о проверке качества сборки автоконтейнеров…. Компьютерное зрение способствует отбору брака, контролирует расположение даже микродеталей.

Для любого автопилота компьютерное зрение является основой основ. К примеру, всем известный Тесла. Такой тип запрограммировать сложнее, чем создать робота для промышленного производства. В условиях открытого пространства намного больше параметров, предсказать которые невозможно. Известно, что автопилот Тесла ведут 48 автономных нейросетей, которые отработали во время обучения по 70 000 часов в графике. Они способны реагировать на разные сценарии, выдавая на каждый по тысяче прогнозов.

Однако, все предсказать нереально. Человек не может показать машине то, что не знает сам. Директор Тесла А. Карпатый, который создавал программы для автопилота презентуя свое творение предлагал представить грузовик, который везет за собой грузовик, который везет за собой грузовик….При этом он делал ударение на том, что предсказать любую ситуацию невозможно.

Но исследования не прекратились. Все маршруты владельцев Тесла записаны и загружены в спецбазу. Данные из нее анализируются и применяются для дальнейшей разработки, для повышения ее эффективности. О чем это говорит? О том, что компьютерное зрение не изучено досконально, не изучено до конца. Технологии развиваются и еще очень долго будут развиваться. Поэтому использовать какой-то готовый вариант программы для себя, для своего бизнеса просто нереально. Чтобы она работала и давала хороший результат, нужно заказывать разработку индивидуальной программы у профессионалов, которые, по мере необходимости, будут ее в дальнейшем корректировать и адаптировать.

Примеры использования компьютерного зрения в простых бытовых задачах

Невероятные возможности открывает компьютерное зрение. Но понять их людям, которые далеки от этой отрасли, довольно сложно. Приведем примеры использования компьютерного зрения в повседневной жизни и в быту.

Допустим, приложение StyleSnap от Amazon. Выпущено оно было в 2019 году. Второе название «шазам для одежды». Суть работы заключается в том, что пользователь грузит фото понравившихся нарядов, а приложение отбирает в магазине похожие на пример вещи, сортирует их.

Или приложение для супермаркетов Amazon Go, в которых не работаю кассиры. Для входа внутрь покупатель сканирует код QR. Уже возле прилавков он выбирает товары, а приложение, которое назвали Just walk out, определяет по камерам видеонаблюдения, что именно взял посетитель, и формирует ему счет.

В спорте также есть примеры применения компьютерного зрения. В 2020 году, весной, миру был представлен стартап компании по охране здоровья Exer. Смысл в анализе движений человека. Осуществляется он инновационной технологией AI. Искуственный интеллект, оценив позу человека, создает карту движения. После этого по ней оценивается каждая из основных точек тела человека (24 всего). Результаты используются производителями оборудования MSK и Chronic Care, улучшая производимое оборудование в разы.

Еще один пример — приложение Exer. Это онлайн тренер, осуществляющий наблюдение за занятием в режиме реального времени. Приложение до запуска обработало не просто тысячи, а десятки тысяч фото с изображенными на них тренирующимися людьми. Задача Эксер — обеспечить эффективные занятия спортом людям, которые не могут посещать спортзал из-за любого типа ограничений (разработка производилась в период изоляции из-за Ковид-19). 

В программе онлайн-тренировки предусмотрены:

  • выбор уровня сложности;
  • установка параметров веса, роста и пр;
  • выбор типа занятия;
  • медицинские показания/противопоказания и пр.

От классической тренировки онлайн-вариант особо не отличается. Просто составляется сразу на курс. Тренер расписывает упражнения, устанавливает длительность каждого занятия, частоту и интенсивность.

Про восьмь шагов для освоения компьютерного зрения читайте в нашем следующем материале.