С возникновением углубленного обучения “компьютерное зрение” перешло на свежую ступень развития. На замену автономным значениям точек и урезанному числу сделанных вручную признаков пришли способы сделать механическое разбирание компонентов изображения более элементарным и ясным — это привело к замене парадигмы в данной области. Вчера в обычных нам вещах из сфер производства и торговли применяется большое количество наиболее современных приложений для компьютерного зрения.
Последний прорыв в области углубленного обучения в компьютерном зрении привнес большие изменения в нашу ежедневную жизнь. Вы могли даже не увидеть, как в каких-либо вещах применяется компьютерное зрение.
Главная идея компьютерного зрения стартует с весьма простой задачи — определить, что изображено на иллюстрации. Оказывается, данную цель очень трудно решить, впрочем мы, люди, без проблем управляемся с ней.
В цифровом формате изображения показаны в качестве 3D-матрицы из значений точек (ширины, высоты и цветных телеканалов RGB). Получать информацию из данной 3D-матрицы не очень просто.
С возникновением машинного обучения проблемы компьютерного зрения решались сравнительно удачно. В первую очередь, в этом помогали сделанные вручную признаки и традиционные методы машинного обучения, такие как способ основных векторов (SVM). Сделанные вручную признаки — это характеристики фотографий, извлекаемые при помощи большого количества прочих алгоритмов.
Типический пример — поиск контуров и углов. Простой способ прерывистого сенсора ищет области сильного изменения интенсивности изображения, другими словами огромную разницу в значениях примыкающих точек. Несколько подобных вот элементарных и пара более трудных признаков выдавались при помощи композиции алгоритмов и дальше давались способу контролируемого машинного обучения.
Такой подход работает, но итоги не особенно удивляют. В первую очередь, чтобы создать признаки самостоятельно, надо будет приложить много сил, заявлю больше — это требует солидного уровня настоящих познаний. Кроме того признаки сильно отличаются от варианта к случаю. Например, то, что предназначено для диагностики переломов на рентгеновских фотографиях, вполне может не подойти для узнавания имени на почтовой посылке.
Чтобы просить процесс создания признаков, нам предоставляется возможность представить изображение в табличной фигуре, другими словами когда каждый пиксель реорганизуется в симптом. Но итог плохой: не остается никакой информации, которую может применять нейросеть/способ МО — отсюда плохая мощность.
Из сказанного выше стоит отметить значительный момент: извлечение признаков из изображения — неминуемая, а непросто реализуемая потребность.
Разберем несколько образцов, чтобы понять, почему задачи, допускающие применение компьютерного зрения, трудно решить. Для простоты давайте допустим, что наша двоичная цель — отыскать на иллюстрации кошку.
Посмотрите на 2 изображения ниже: если опираться на значениях точек, эти изображения имеют абсолютно различное представление в цифровом формате. Так как в пикселе сообщается лишь его цвет, смысловое значение начального представления сомнительно.
Кроме того довольно часто окрас кошки соединяется с фоном. Взгляните на изображения ниже: применение классических признаков выяснилось бы напрасным. Так что, сделанные вручную признаки тут менее результативны.
Кроме того кошку можно заснять в огромном количестве абсолютно разных поз, и это еще более усложняет процесс. Дальше показано всего несколько вероятных вариантов.
При перенесении этих проблем на более совместные ситуации (например, на поиск большого количества субъектов на изображении) неприятность растет показательно.
Логично, что табличное представление точек, самостоятельное создание признаков для поиска точных характеристик или сочетание 2-ух этих раскладов — не самые лучшие способы решать задачи, сопряженные с компьютерным зрением.
Имеется ли самое лучшее решение? Как продемонстрировал опыт, сделанные вручную признаки пускай и требуют очень много сил, а все-таки отчасти готовы решать стоящие перед ними задачи. Но данный процесс вышел бы очень дорогим, а для решения любой автономной задачи требовались бы широкие настоящие познания.
Что если синхронизировать извлечение признаков? К великой радости, такое вероятно, и это наконец подводит нас к нашей основной теме — сверточным нейронным сетям. СНС предлагают современные способы решения задач компьютерного зрения с применением многогранного, масштабируемого, самодостаточного подхода, который можно использовать к различным настоящим зонам без потребности знать о них что-нибудь. Больше не требуется создавать признаки самим, так как нейросеть сама обучается получать необходимые признаки при необходимом обучении и размере данных.
О углубленных сверточных нейронных сетях в первый раз начали говорить в собственных публикациях Хинтон, Крижевский и Суцкевер. Тогда такие сети использовались, чтобы достичь высокой мощности в работе по систематизации проекта ImageNet. Это исследование сделало переворот в области компьютерного зрения. Больше про ai можно найти на сайте smittmediagroup.ru.
Общая архитектура СНС представлена ниже. Определенные детали пока могут сдаваться смутными, а погодите немного — вскоре мы детально рассмотрим каждый элемент. Элемент извлечения (дантист) признаков в данной архитектуре — это композиция свертки и пулинга. Возможно, вы увидели, что данный элемент повторяется — такое можно заметить в большинстве современных архитектур.
Эти экстракторы извлекают сначала низкоуровневые признаки (к примеру, контуры и линии), после этого среднеуровневые (формы и композиции из нескольких низкоуровневых признаков) и, наконец, высокоуровневые признаки (ухо/нос/глаза в образце с определением кошки). В середине эти слои уплощаются и вяжутся с выходным слоем функцией-активатором (как и в нейронных сетях непосредственного распространения).

Январь 22nd, 2025
raven000
Опубликовано в рубрике