Воссоздать лицо по голосу стало возможным
Ученые Массачусетского технологического института обучили нейросеть, используя набор данных AVSpeech, состоящий из более миллиона коротких видео с изображением людей. Каждое такое видео разделено на аудио- и видеодорожку.
Только по голосу человека можно определить достаточно точно несколько его особенностей: его пол, возраст и национальную принадлежность. Несмотря на то, что Speech2Face далека от совершенства и все еще не определяет возраст, возможно примерно представить, как выглядит говорящий человек.
Изначально «натренированный» алгоритм VGG-Face, который раньше работал над проектом по определению сексуальной ориентации человека, использует особенные черты человека из определенного кадра для того, чтобы создать изображение лица в анфас с нейтральным выражением. Другая же часть алгоритма, используя аудиодорожки видео и результаты из параллельной нейросети, генерирующей изображение, создает спектограмму речи и выдает примерное изображение лица человека.
Цель исследования состояла в выделении точных параметров возраста, пола и этнической принадлежности. При этом станет возможным создавать анимационные аватары человека по голосу, но далеко не настоящее изображение со 100% точностью.
Источник:

5 комментариев
7 лет назад
Удалить комментарий?
Удалить Отмена7 лет назад
Удалить комментарий?
Удалить Отмена7 лет назад
Удалить комментарий?
Удалить Отмена7 лет назад
Удалить комментарий?
Удалить Отмена