Аннотация

Предмет исследования. Научная работа посвящена задаче генерации анимации цифрового аватара с синхронным воспроизведением речи, мимики и жестикуляции на основе бимодального входа – статического изображения и текста с эмоциональной окраской. Исследуется возможность интеграции акустических, визуальных и аффективных признаков в единую модель, обеспечивающую реалистичное и выразительное поведение аватара в соответствии с содержанием и эмоциональным тоном высказывания. Метод. Предложен метод под названием BiMoDiCA, включающий шаги извлечения визуальных ориентиров лица, рук и позы, определения пола для выбора подходящего голосового профиля, анализа текста на предмет эмоционального содержания и генерации синтетической аудиоречи. Все признаки интегрируются в генеративной архитектуре на основе диффузионной модели с механизмами временного внимания и межмодального согласования. Это обеспечивает высокую точность синхронизации между речью и невербальными компонентами поведения аватара. Методика эксперимента. Для обучения использовались два специализированных корпуса: один для моделирования жестикуляции, другой для мимики. Аннотирование производилось средствами автоматического извлечения пространственных ориентиров. Эксперименты выполнялись на многопроцессорной вычислительной платформе с графическими ускорителями. Качество работы модели оценивалось с помощью объективных метрик. Основные результаты. Метод показал высокую степень визуального и семантического соответствия: FID – 50,13, FVD – 601,70, SSIM – 0,752, PSNR – 21,997, E-FID – 2,226, Sync-D – 7,003, Sync-C – 6,398. Модель успешно синхронизирует речь с мимикой и жестами, учитывает эмоциональный контекст текста, а также особенности русского жестового языка. Практическая значимость. Разработка может применяться в системах эмоционально-чувствительного человеко-машинного взаимодействия, цифровых ассистентах, образовательных и психологических интерфейсах. Метод представляет интерес для специалистов в области искусственного интеллекта, мультимодальных интерфейсов, компьютерной графики и цифровой психологии.

Примеры генерации

Метод

method

Экспериментальные исследования

Результаты ключевых метрик эффективности

FID

50.13

Реалистичность контента

FVD

601.70

Динамическая устойчивость

SSIM

0.752

Структурное сходство

PSNR

21.997

Качество изображения

E-FID

2.226

Передача эмоций

Sync-D

7.003

Синхронность по времени

Sync-C

6.398

Согласованность аудио и видео

CSIM

0.518

Когерентность модальностей

HKC / HKV

0.912 / 25.02

Точность поз и вариативность жестов

Эти результаты подтверждают высокую выразительность и эмоциональное качество создаваемых анимаций, а также их когерентность и согласованность между визуальной и аудио составляющей.