На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Мы соседи по планете

4 257 подписчиков

Свежие комментарии

  • Ингерман Ланская
    Спаивание населения совдепии - это была Гос.программа оккупационного режима. Чем больше пьют, тем тупее населения и б...Как советская вла...
  • дмитрий чагин
    -Да и собачка выросла тоже.Выросли вместе: с...
  • дмитрий чагин
    -Посмотрите, как вырос этот щенок!Выросли вместе: с...

SberDevices собрала большой датасет для распознавания жестов

Kapitanov Alexander et al. / arXiv.org, 2022

Компания SberDevices представила большой датасет для обучения алгоритмов обнаружения и распознавания жестов. В нем содержится более полумиллиона кадров, на которых есть 18 видов жестов. Статья о сборе датасета опубликована на arXiv.org, а сам датасет доступен в SberCloud.

Жесты — это один из альтернативных способов управления компьютером и гаджетами наряду с голосовыми командами. Он позволяет управлять устройствами дистанционно и без звука, что может быть удобным, например, во время видеозвонков. К примеру, Zoom умеет распознавать, что один из собеседников поднял руку или показывает большой палец. Для обучения алгоритмов распознавания жестов, как и для обучения другим задачам, требуются большие датасеты.

Александр Капитанов (Alexander Kapitanov), Андрей Махлярчук (Andrew Makhlyarchuk) и Карина Кванчиани (Karina Kvanchiani) из SberDevices собрали один из крупнейших датасетов для этой задачи, он получил название HaGRID (HAnd Gesture Recognition Image Dataset). Он состоит из почти 553 тысяч кадров в разрешении 1920 на 1080 пикселей. На них запечатлены 34730 людей в разных сценах, которые используют один из 18 жестов. Авторы заявляют, что это крупнейший датасет по количеству примеров, а кроме того, он значительно превосходит аналоги по разрешению кадров, которое обычно составляет сотни пикселей по каждой стороне. При этом в нескольких датасетах, к примеру, EgoGesture и Jester (который авторы не упоминают в статье), содержатся миллионы кадров, в отличие от полумиллиона в HaGRID.

Сравнение HaGRID с аналогичными датасетами

Kapitanov Alexander et al. / arXiv.org, 2022

Поделиться

Датасет состоит из кадров с размеченными границами областей с руками, причем отмечена рука, которой делается жест. Также в разметке указано то, какой жест показывает человек. Данные для датасета собирали с помощью краудсорсинговых платформ «Яндекс.Толока» и ABC Elementary.

Пример размеченного кадра из датасета

Kapitanov Alexander et al. / arXiv.org, 2022

Поделиться

Компания опубликовала в своем облаке как сам датасет, так и обученные на нем модели для обнаружения и распознавания жестов.

Распознавать жесты можно не только по кадрам с камеры, но и по другим данным. К примеру, Apple Watch умеет делать это с помощью акселерометра, гироскопа и датчика пульса, также есть работы, в которых жесты распознавали с помощью микрофона и пьезоэлементов.

Григорий Копиев

Adblock test (Why?)

 

 

Ссылка на первоисточник

Картина дня

наверх