Зловещо реалистично: Новият AI модел на Microsoft кара изображенията да говорят и да пеят

The VASA-1 AI model converting images into videos.
Microsoft

VASA е рамка за генериране на реалистични говорещи лица с привлекателни визуални емоционални умения.

Microsoft разработи модел с изкуствен интелект, който преобразува изображения на лицето на човек и аудио клипове във видео с правилно синхронизиране на устните, изражението на лицето и движенията на главата. Разработен от екип изследователи на AI в Microsoft Research Asia, новият модел AI се нарича VASA-1.

„Въвеждаме VASA, рамка за генериране на реалистични говорещи лица с привлекателни визуални афективни умения (VAS), дадени на едно статично изображение и гласов аудио запис“, казва екипът в изследователска статия. „Нашият премиерен модел, VASA-1, е в състояние не само да произвежда движения на устните, които са изящно синхронизирани със звука, но и да улавя широк спектър от нюанси на лицето и естествени движения на главата, които допринасят за възприемането на автентичност и жизненост.“

VASA — съкращение от Visual Affective Skills Animator — е в състояние да трансформира всякакви статични изображения, независимо дали са щракнати от камерата или нарисувани, в „изящно синхронизирани“ анимации.

VASA може да генерира изключително реалистично видео, в което новоанимираният обект не само е в състояние да синхронизира точно устните с предоставен гласов аудио запис, но също така улавя разнообразни изражения на лицето и естествени движения на главата – всичко това от една статична снимка.

Екипът използва публично достъпния набор от данни VoxCeleb2, който съдържа видеоклипове на над 6000 знаменитости от реалния живот. Отхвърляйки клиповете с множество лица и с ниско качество, екипът обучава своя модел върху обработения набор от данни. Забележителното е, че техният модел може да обработва входни данни извън набора за обучение, като художествени снимки и неанглийска реч.

Мона Лиза пее

Използвайки звука от „Папараци“ на Ан Хатауей, изследователите експериментират с Мона Лиза.

Изследователите също така твърдят, че AI системата може да работи в реално време, демонстрирайки клип, показващ инструмента, който моментално анимира картини с изражения на лицето и движения на главата. Моделът предлага контрол върху погледа и емоциите в генерираното видео.

Изследователите казват, че моделът може да приема аудио с всякаква дължина и да генерира говорещо лице според клипа.

Опасност от имитация

Въпреки че възможностите на модела пораждат страхове от имитация, изследователите са категорични, че намерението им с инструмента не е да подобрят дълбокото фалшифициране.

„Ние проучваме генерирането на визуални афективни умения за виртуални, интерактивни герои, НЕ имитирайки човек в реалния свят“, пишат те в публикация в блог.

Продуктът няма да бъде пуснат

Изследователският екип твърди, че моделът ще се използва за обучение и ще осигури сътрудничество. Те също така отказват да пуснат кода, който захранва модела.

Екипът подчертава интереса си към прилагането на новата техника за усъвършенстване на откриването на фалшификации, добавяйки, че видеоклиповете, генерирани от VASA, съдържат разпознаваеми артефакти.

„Не планираме да пускаме онлайн демонстрация, API, продукт, допълнителни детайли за внедряване или каквито и да било свързани предложения, докато не се уверим, че технологията ще се използва отговорно и в съответствие с подходящите разпоредби“, добавят те.

Подробности за изследването на екипа бяха публикувани на сървъра за предпечат arXiv.

Източник: InterestingEngineering