г. Ростов-на-Дону, ул.Таганрогская 118/2
7(928)226-40-61

 

 

 

 

Машинное зрение и нейросети для коррекции движений в спортивных танцах.

Поскольку технологии компьютерного зрения быстро развиваются, коррекция неправильных движений с помощью распознавания образов может не только корректировать движения и хореографию танцоров, способствуя эффективности тренировок, но и иметь большое значение для анализа танцевальных техник, ускоряя прогресс в развитии спортивных танцев.

В реальном процессе физического воспитания, из-за сложности и разнообразия движений спортивного танца, существует очевидная разница между уровнем знаний, восприятия материала учащимися и их двигательными способностями. У некоторых учащихся больше неправильных движений, а поэтому они медленнее осваивают правильные движения. В связи с этим вопрос о том, как эффективно исправить неправильные движения, стал серьёзной проблемой в этой области.

 


На тренировках по хореографии неправильные движения снижают качество исполнения, что для динамичного спортивного танца может привести даже к травмам. Существующие методы коррекции имеют свои ограничения: ручная - требует много времени и субъективна, в то время, как обычный видеоанализ не даёт обратной связи в режиме реального времени. Сложность танцевальных движений ещё больше усложняет обучение. Но, благодаря развитию новых технологий, был предложен метод, решающий эти проблемы. Он обеспечивает все заинтересованные стороны немедленной объективной обратной связью, направленной на снижение риска травм и повышение эффективности обучения. Коррекция движений в спортивном танце относится к области распознавания и классификации движений человека.

Сейчас разработано уже несколько эффективных способов для применения в данной сфере. Некоторые используют обратное синтетическое изображение для отслеживания линейных характерных точек и аппроксимации положения камеры, в сочетании с сопоставлением, чтобы получить точки с меньшей степенью совпадения в качестве основы для коррекции ошибок перемещения. Другие основываются на ручном извлечении различных признаков для частей человеческого тела, чтобы получить особенности танцевальных движений, и использовать метод опорных векторов для классификации движений. Недавно был предложен метод трёхмерной локализации точек суставов, основанный на стереовидении, в котором для определения координат точек суставов танцора используется теория сетей «Песочных часов» для сложного анализа человеческой позы. В этом подходе трёхмерные координаты точек суставов человеческого тела определяются с помощью системы машинного зрения. Эта методика служит для сегментации изображения на несколько небольших блоков, извлечения признаков человеческой цели (методом исключения фона), получения трёхмерного изображения контура человека, решения смежных разностных кадров методом Лапласа, извлечения признаков векторов ключевых кадров, установки порога сходства и взятия изображений со сходством, превышающим пороговые значения, в качестве результата распознавания.

 

 

Глубокое обучение привлекло внимание многих учёных благодаря своей эффективной работе и отличной способности к пространственному обучению. Для решения задачи коррекции танцевальных движений была создана свёрточная нейронная сеть, которая может изучать ключевые особенности человеческого тела, как на низком, так и на высоком уровнях. Она значительно превосходит традиционные двумерные методы оценки пластики человеческого тела в динамике. Нелокальная сетевая структура для изображений, не ограничивается локальными пространственными особенностями, поэтому модель способна различать локальную и нелокальную глобальную информацию о действии танцоров.

К сожалению, пока существующие методы коррекции танцевальных движений имеют низкую точность распознавания из-за низкого качества изображения и недостаточного выделения ключевых признаков, что влияет на эффект коррекции. Самым эффективным способом показала себя методика, основанная на стереоскопического машинного зрения и глубокого обучения. Она характеризуется многими преимуществами и работает по следующей схеме:

1. Сначала создаётся модель бинокулярного стереоизображения с предварительной обработкой полученных результатов. Затем рассчитываются значения пикселей для контуров изображений танцевальных движений, определяются контуры человеческого тела танцоров с помощью пороговой сегментации. Удаляется фон окружающей среды, шумы освещения и другие фоновые изображения, устраняются помехи посредством использования гауссовой модели, чтобы обеспечить высокое качество необработанных изображений для распознавания ошибочных движений.

2. Классификация видео с помощью 3D свёрточной нейронной сети (CNN - Convolutional Neural Network) используется для выделения пространственно-временных признаков и объединения предварительно обработанных изображений танцевальных движений. Это необходимо для получения более чётких пространственно-временных структурных представлений, а взаимодействие временных признаков в различных свёрточных слоях используется для улучшения характеристик различных движений с корреляцией информации по временной шкале.

3. Внедрение механизма раннего внимания позволяет модели концентрироваться на начальной части последовательности действий и адаптивно расширяет важные возможности для раннего распознавания. Важные функции вводятся в Softmax (функции последней активации нейронной сети для нормализации выходных данных). Это позволяет получить результаты распознавания, а коррекция неправильных действий осуществляется уже в виде сравнений. Данный метод обладает высокой точностью, пиковым отношением сигнал/шум и показателем качества изображения, а также способен эффективно обеспечивать распознавание и коррекцию танцевальных движений.

 

 

Цифровые изображения обычно хранятся в виде пиксельных координат на носителе, а процесс формирования изображения камерой на самом деле является процессом преобразования трёхмерного мира в пиксельные точки в двумерном пространстве изображения. В наше время систем быстрой потоковой передачи данных, обработку производить оптимальнее в облачных сервисах – то есть на арендованных выделенных серверах, находящихся физически где угодно. Наиболее популярной моделью формирования изображения для камер стереозрения является модель пинхол-камеры (камеры-обскура), которая в основном включает в себя изменение четырёх систем координат (мировой системы координат, системы координат камеры, плоскости изображения и пиксельной). Чтобы определить положение точки, важно описать целевую точку в пространстве и где располагается плоскость камеры, установить связь между координатами камеры и координатами изображения, а уже потом создать модель визуализации бинокулярного стереовидения. Исходя из этих данных, выполняется предварительная обработка изображения, вычисляется значение пикселя для контура изображения танцевального движения, выполняется поиск контура человеческого тела танцора с помощью пороговой сегментации, удаляется фон окружающей среды и освещение, а также устраняются шумы (используя гауссову модель), чтобы уменьшить сложность распознавания движений танцора зрительной системой. Применение гауссовой модели при предварительной обработке значительно снижает фоновый шум, сохраняя при этом информацию о границах, критически важную для обнаружения движения. Этот шаг в сочетании с адаптивной настройкой порога усиливает контраст между танцором и фоном, повышая точность последующего выделения характерных черт и анализа движений с помощью 3D свёрточной нейронной сети.

 


Пространственно-временные характеристики извлекаются из высококачественных изображений, предварительно обработанных на предыдущем этапе с использованием 3D CNN, а механизм раннего внимания вводится для адаптивного улучшения дискриминационной информации, которая полезна для раннего прогнозирования действий. Точность прогнозирования увеличивается с увеличением количества изображений, достигая более высокого прироста производительности, поскольку методика не только моделирует и предварительно обрабатывает изображения, но и извлекает детальные пространственно-временные характеристики танцевальных движений с использованием механизма раннего внимания. А уже изученные характеристики дополняют определённые примеры движений, что повышает эффективность для задачи распознавания и анализа.