9 лучших моделей оценки позы 2022 года

Что такое оценка позы?

«Оценка позы?»… Термин «поза» может означать разные вещи для разных людей, но мы не обсуждаем Arnold Classics, Олимпию или театральные представления. Итак, что же такое оценка позы? Итак, давайте углубимся и изучим тему.

Оценка позы привлекла огромное внимание в области компьютерного зрения. Растущий интерес вызывает возможность использования методов компьютерного зрения для идентификации и отслеживания движения человека или объекта в режиме реального времени, что предлагает много полезного в различных отраслях. В постоянно развивающуюся эпоху передовых технологий оценка позы может стать эффективным инструментом в спортивной биомеханике, анимации, играх, робототехнике, медицинской реабилитации и наблюдении.

По сути, оценка позы предсказывает различные позы на основе частей тела человека и положения суставов на изображении или видео. Например, мы можем автоматически определять положение суставов, рук, бедер и позвоночника при выполнении приседаний. Прямо сейчас некоторые из нас могут задаться вопросом, насколько это полезно? Однако рассмотрим пример спортсмена, реабилитирующегося после травмы или проходящего силовую тренировку; оценка позы может помочь спортивным аналитикам проанализировать жизненно важные моменты от исходного положения до конечного положения приседания. В результате эти аналитики могут исправить позы и помочь предотвратить тренировочные травмы (рис. 1).

Основы оценки позы

Оценка позы для обнаружения человеческих фигур или объектов на изображениях и видео. Однако мы должны знать, что существуют разные категории оценки позы.

При работе с людьми анализ поз выполняется путем определения различных суставов тела. Например, это можно определить по положению чьего-то локтя или по положению коленного сустава. Эта форма определения позы подпадает под категорию оценки позы человека. Модели оценки позы предоставляются на входе в хорошо обработанных изображениях или видео. Модель предлагает вывод о различных ключевых точках на основе информации во входном изображении. Как правило, ключевые точки снабжены идентификатором и оценкой достоверности, определяющей вероятность того, что ключевая точка существует в определенной позиции данного ввода. Теперь, если мы вспомним предыдущее изображение спортсмена, выполняющего присед, мы можем присвоить различные идентификаторы, такие как:

Напротив, в отличие от людей, оценка позы может выполняться для объектов, которые в основном жесткие; следовательно, они попадают в категорию оценки жесткой позы.

2D и 3D аспекты оценки позы

Оценка позы может быть выполнена двумя способами, а именно 2D и 3D. Возможно, некоторые из нас связывают эти понятия 2D и 3D со сферой анимации. Однако двумерные аспекты оценки позы связаны с предсказанием ключевых точек изображений на основе значений пикселей. Таким образом, большинство методов оценки позы человека в 2D реализуют методы извлечения признаков, чтобы предоставить соответствующие ключевые точки человеческого тела.

Точно так же трехмерная оценка позы связана с предсказанием пространственного положения конкретного человека или объекта на основе изображений и видео. С появлением глубокого обучения эти модели значительно улучшили свою производительность, но работать с ними стало сложнее, поскольку наборы данных должны содержать соответствующую трехмерную структурную информацию о человеческом теле, включая фон и условия освещения. Кроме того, существуют новые подходы для оценки одной и нескольких поз, связанные с обнаружением одного человека или объекта или отслеживанием нескольких людей и объектов соответственно.

Модели оценки позы

Разные исследователи предлагали разные позы, модели оценки. Прежде чем мы углубимся, важно понять, что модели оценки позы человека в основном бывают трех типов:

а) кинематическая,
б) плоские и
в) объемный.

Кинематические модели можно использовать для оценки позы как в 2D, так и в 3D. По сути, эта модель фокусируется на различных положениях суставов и конечностей, чтобы предоставить структурную информацию о человеческом теле. Поэтому такие модели эффективно выявляют различные отношения между частями человеческого тела. Однако кинематические модели имеют несколько ограничений при представлении информации о текстуре или форме. Далее мы обсудим плоскую модель, которая делает упор на двухмерную оценку позы. В идеале части человеческого тела изображаются прямоугольниками, чтобы обеспечить приблизительный контур тела. Наконец, объемная модель оценки позы фокусируется на трехмерной оценке позы. Это сквозные модели глубокого обучения, обученные с помощью сложных наборов данных, содержащих данные сканирования всего тела с высоким разрешением, для получения сетки человеческого тела различных форм и поз.

Хотя невозможно охватить широкий спектр моделей, мы обсудим некоторые из наиболее надежных и надежных моделей, предложенных с помощью различных методов в последние годы.

Давайте проверим некоторые из популярных оценок позы, которые будут использоваться в 2022 году.

1. Открытая поза

OpenPose — первая модель пост-оценки в реальном времени, разработанная в Университете Карнеги-Меллона. Модель в основном фокусируется на обнаружении ключевых точек человеческого тела, таких как руки, лица и ноги нескольких людей, в сценарии в реальном времени. Как правило, изображение обрабатывается с помощью сверточной нейронной сети (CNN) для создания карт характеристик конкретного ввода. Кроме того, карта признаков обрабатывается на разных этапах конвейера CNN для получения карты достоверности и поля сходства.

Для получения дополнительной информации вы можете найти дополнительную информацию в их репозитории GitHub.

2. Мувенет

MoveNet разработан исследовательской компанией Google с использованием TensorFlow.js. Исследователи утверждают, что эта модель является сверхбыстрой и высокоточной, способной обнаруживать 17 критических ключевых точек человеческого тела. Однако у модели есть две версии, а именно Lightning, предназначенные для приложений с низкими требованиями к задержке. С другой стороны, версия Thunder предназначена для приложений, ориентированных на достижение более высокой точности. Кроме того, обе модели способны обнаруживать в режиме реального времени и доказали свою эффективность для обнаружения приложений для фитнеса, спорта или здравоохранения в реальном времени.

3. Посенет

PoseNet — еще одна популярная модель определения позы. Эта модель может определять позы в режиме реального времени и эффективно работает для обнаружения людей в одной и нескольких позах. PoseNet — это модель глубокого обучения, которая использует TensorFlow для обнаружения различных частей тела и предоставляет исчерпывающую информацию о скелете путем объединения других ключевых точек. Более того, PoseNet предоставляет 17 ключевых точек для различных частей тела от глаз до лодыжек. Оценка достоверности генерируется, чтобы определить, насколько точно модель распознала конкретную ключевую точку на изображении, чтобы определить точность модели. Вся информация о тестах и настройке доступна через GitHub.

4. Поза постоянного тока

DCPose расшифровывается как Deep Dual Consecutive Network, разработанная для определения позы человека на нескольких кадрах. Платформа использует методы глубокого обучения для преодоления критических проблем при многокадровой оценке позы человека, таких как размытие движения, расфокусированное видео и окклюзии, возникающие из-за зависимости от каждого видеокадра. Кроме того, между этими видеокадрами предусмотрены различные временные привязки для облегчения точного обнаружения ключевых точек. Кроме того, временное слияние действует как кодировщик, обеспечивающий более широкую область поиска, в то время как модуль слияния остатков отвечает за вычисление остатков в разных направлениях. (Гитхаб)

5. Плотная поза

DensePose — это средство оценки позы человека, целью которого является сопоставление различных человеческих пикселей из изображения RGB с трехмерной поверхностью человеческого тела. Эта модель может быть реализована для оценки потребностей в одной и нескольких позах. DensePose использует наземную истину в виде крупномасштабного набора данных, содержащего аннотированную информацию от изображения к поверхности. Кроме того, предлагается рекуррентная нейронная сеть (RCNN), которая способна регрессировать различные УФ-координаты, связанные с частями тела, для каждого человека со скоростью несколько кадров в секунду. (Гитхаб)

6. Высшее HRNet

HigherHRNet — это популярная восходящая модель оценки позы, предложенная для решения некоторых проблем в прогнозировании правильных поз для более низких людей из-за различий в масштабировании. Пирамиды признаков являются неотъемлемыми компонентами, которые позволяют предлагаемому методу учиться на основе представлений с учетом масштаба, которые помогают оценить точные ключевые точки для определения изменений в оценке позы для более низкого человека. Пирамиды признаков в основном состоят из выходных данных карты признаков, сгенерированных моделью HRNet, в том числе выходных данных с высоким разрешением, полученных с помощью транспонированной свертки. Кроме того, авторы обнаружили, что модель превзошла некоторые из существующих восходящих методов на 2,5% AP для людей среднего размера. Кроме того, модель также эффективно работает при оценке поз в многолюдной сцене. (Гитхаб)

7. Легкая OpenPose

Облегченный OpenPose — это оптимизированная версия подхода OpenPose, которая фокусируется на логических выводах в реальном времени без значительного снижения аспектов точности модели. Модель может определять позы каждого человека на изображении по разным ключевым точкам. Авторы утверждают, что модель достигла 40% AP для одномасштабного вывода без какой-либо последующей обработки. (Гитхаб)

8. Альфапоза

AlphaPose — это захватывающее предложение для оценки позы. Независимо от того, пытаетесь ли вы обнаружить несколько человек на торговой улице, флешмоб или уличных артистов, теперь это возможно с помощью этой модели. Кроме того, оценщик AlphaPose является первым предложением с открытым исходным кодом для достижения более 70 mAP и 80 mAP в наборе данных COCO и наборе данных MPII соответственно. В идеале модель может сопоставлять позы человека в разных кадрах и в значительной степени способна хорошо работать в качестве онлайн-трекера поз. (Гитхаб)

9. Транспонировать

TransPose — это модель оценки позы, которая реализует подход к извлечению признаков на основе CNN, кодировщик преобразователя и возможности прогнозирования. Модель имеет встроенные функции, такие как преобразователь, который может собирать информацию из дальних пространственных отношений между различными ключевыми точками. Окончательный вывод предоставляет важную информацию о прогнозируемом местоположении ключевых точек и различных зависимостях, на которые они полагаются. Кроме того, модель показала отличные результаты 75,8 AP на наборе данных COCO и добилась превосходной производительности с соответствующими передачами в тесте MPII. Гитхаб

Заключение

Определение позы — это постоянно развивающаяся область исследований в области компьютерного зрения. От предоставления реальных приложений до приложений, работающих на серверах в облаке, оценка позы получила огромное распространение в отрасли. На самом деле, продвинутые модели оценки позы быстрее и меньше, чтобы быть эффективными на мобильных устройствах, что дает широкие возможности.

Эти модели могут быть эффективными для спортивных аналитиков в режиме реального времени и даже надежными для медицинской реабилитации, персональных тренеров и реалистичных игр. Хотя были разработаны различные приложения, каждая новая модель направлена на улучшение некоторых ограничений предыдущих моделей. Тем не менее, благодаря глубокому обучению и многочисленным технологиям с открытым исходным кодом в наличии различные предложения, которые могут изменить способ оценки позы человека в будущем. Таким образом, открываются захватывающие перспективы, позволяющие эффективно внедрять современные приложения для обнаружения поз в разных отраслях.

Еще несколько лет назад очень немногие из нас знали о возможностях компьютерного зрения, потому что создание моделей ИИ было сложным. Что касается индустрии искусственного интеллекта сейчас, мы наблюдаем революцию в области искусственного интеллекта с огромными возможностями, и на рынке появляется гораздо больше вакансий. Так что, пожалуй, правильно будет сказать, что лучшее время для инвестиций в карьеру в ИИ — сейчас, когда отрасль стремительно растет.

Итак, как соискатели повышают свою квалификацию? Мы знаем, что существует несколько онлайн-курсов, но выбор из такого количества может показаться запутанным. Итак, вы в восторге от компьютерного зрения и его возможностей оценки позы? Хотите быть среди лучших экспертов по компьютерному зрению? Если вы читаете это, возможно, вы ищете то, что мы предлагаем? Так почему бы не использовать самые полные курсы для передачи знаний от одного энтузиаста другому? Ознакомьтесь с нашими курсами по компьютерному зрению и многочисленными практическими проектами, чтобы повысить свои навыки.

Имея за плечами несколько лет опыта, вы можете быть уверены, что овладеете навыками компьютерного зрения, независимо от того, являетесь ли вы новичком или продвинутым учеником. У нас есть широкий спектр курсов, охватывающих самые современные модели для решения различных востребованных в отрасли задач, таких как определение полосы движения, расчет скорости автомобиля, измерение размера объекта, автоматическое распознавание номерных знаков и многое другое. Теперь вы можете зарегистрироваться и пройти путь к тому, чтобы стать профессиональным инженером по компьютерному зрению. Мы вас прикрыли.