Мы соседи по планете

4 060 подписчиков

Свежие комментарии

  • Михаил Бутов
    Всё перечисленное иностранцы могли попробовать только в Москве. Но кому они это рассказывали в Союзе? Не во всех горо...О советском морож...
  • Михаил Бутов
    Исследования костей из захоронений Ивана Грозного и его детей Фёдора и Ивана проводили патологоанатомы. Ни Герасимов,...Отчего умер Иван ...
  • Юрий Ded
    А статья то о чём ? Что автор хотел сказать ? Что в СССР была только = Красная Москва = ? Я например помню и = шипр =...Чем душились в СС...

SberDevices собрала большой датасет для распознавания жестов

SberDevices собрала большой датасет для распознавания жестов

SberDevices собрала большой датасет для распознавания жестов

SberDevices собрала большой датасет для распознавания жестов

Kapitanov Alexander et al. / arXiv.org, 2022

Компания SberDevices представила большой датасет для обучения алгоритмов обнаружения и распознавания жестов. В нем содержится более полумиллиона кадров, на которых есть 18 видов жестов. Статья о сборе датасета опубликована на arXiv.org, а сам датасет доступен в SberCloud.

Жесты — это один из альтернативных способов управления компьютером и гаджетами наряду с голосовыми командами. Он позволяет управлять устройствами дистанционно и без звука, что может быть удобным, например, во время видеозвонков. К примеру, Zoom умеет распознавать, что один из собеседников поднял руку или показывает большой палец. Для обучения алгоритмов распознавания жестов, как и для обучения другим задачам, требуются большие датасеты.

Александр Капитанов (Alexander Kapitanov), Андрей Махлярчук (Andrew Makhlyarchuk) и Карина Кванчиани (Karina Kvanchiani) из SberDevices собрали один из крупнейших датасетов для этой задачи, он получил название HaGRID (HAnd Gesture Recognition Image Dataset). Он состоит из почти 553 тысяч кадров в разрешении 1920 на 1080 пикселей. На них запечатлены 34730 людей в разных сценах, которые используют один из 18 жестов. Авторы заявляют, что это крупнейший датасет по количеству примеров, а кроме того, он значительно превосходит аналоги по разрешению кадров, которое обычно составляет сотни пикселей по каждой стороне. При этом в нескольких датасетах, к примеру, EgoGesture и Jester (который авторы не упоминают в статье), содержатся миллионы кадров, в отличие от полумиллиона в HaGRID.

SberDevices собрала большой датасет для распознавания жестов

Сравнение HaGRID с аналогичными датасетами

Kapitanov Alexander et al. / arXiv.org, 2022

Поделиться

Датасет состоит из кадров с размеченными границами областей с руками, причем отмечена рука, которой делается жест. Также в разметке указано то, какой жест показывает человек. Данные для датасета собирали с помощью краудсорсинговых платформ «Яндекс.Толока» и ABC Elementary.

SberDevices собрала большой датасет для распознавания жестов

Пример размеченного кадра из датасета

Kapitanov Alexander et al. / arXiv.org, 2022

Поделиться

Компания опубликовала в своем облаке как сам датасет, так и обученные на нем модели для обнаружения и распознавания жестов.

Распознавать жесты можно не только по кадрам с камеры, но и по другим данным. К примеру, Apple Watch умеет делать это с помощью акселерометра, гироскопа и датчика пульса, также есть работы, в которых жесты распознавали с помощью микрофона и пьезоэлементов.

Григорий Копиев

Adblock test (Why?)

 

 

Ссылка на первоисточник

Картина дня

наверх