Зловещо реалистично: Новият AI модел на Microsoft кара изображенията да говорят и да пеят

от

22.04.2024

The VASA-1 AI model converting images into videos.
**Microsoft**

VASA е рамка за генериране на реалистични говорещи лица с привлекателни визуални емоционални умения.

Microsoft разработи модел с изкуствен интелект, който преобразува изображения на лицето на човек и аудио клипове във видео с правилно синхронизиране на устните, изражението на лицето и движенията на главата. Разработен от екип изследователи на AI в Microsoft Research Asia, новият модел AI се нарича VASA-1.

„Въвеждаме VASA, рамка за генериране на реалистични говорещи лица с привлекателни визуални афективни умения (VAS), дадени на едно статично изображение и гласов аудио запис“, казва екипът в изследователска статия. „Нашият премиерен модел, VASA-1, е в състояние не само да произвежда движения на устните, които са изящно синхронизирани със звука, но и да улавя широк спектър от нюанси на лицето и естествени движения на главата, които допринасят за възприемането на автентичност и жизненост.“

VASA — съкращение от Visual Affective Skills Animator — е в състояние да трансформира всякакви статични изображения, независимо дали са щракнати от камерата или нарисувани, в „изящно синхронизирани“ анимации.

VASA може да генерира изключително реалистично видео, в което новоанимираният обект не само е в състояние да синхронизира точно устните с предоставен гласов аудио запис, но също така улавя разнообразни изражения на лицето и естествени движения на главата – всичко това от една статична снимка.

Екипът използва публично достъпния набор от данни VoxCeleb2, който съдържа видеоклипове на над 6000 знаменитости от реалния живот. Отхвърляйки клиповете с множество лица и с ниско качество, екипът обучава своя модел върху обработения набор от данни. Забележителното е, че техният модел може да обработва входни данни извън набора за обучение, като художествени снимки и неанглийска реч.

Мона Лиза пее

Използвайки звука от „Папараци“ на Ан Хатауей, изследователите експериментират с Мона Лиза.

Изследователите също така твърдят, че AI системата може да работи в реално време, демонстрирайки клип, показващ инструмента, който моментално анимира картини с изражения на лицето и движения на главата. Моделът предлага контрол върху погледа и емоциите в генерираното видео.

Изследователите казват, че моделът може да приема аудио с всякаква дължина и да генерира говорещо лице според клипа.

Опасност от имитация

Въпреки че възможностите на модела пораждат страхове от имитация, изследователите са категорични, че намерението им с инструмента не е да подобрят дълбокото фалшифициране.

„Ние проучваме генерирането на визуални афективни умения за виртуални, интерактивни герои, НЕ имитирайки човек в реалния свят“, пишат те в публикация в блог.

Продуктът няма да бъде пуснат

Изследователският екип твърди, че моделът ще се използва за обучение и ще осигури сътрудничество. Те също така отказват да пуснат кода, който захранва модела.

Екипът подчертава интереса си към прилагането на новата техника за усъвършенстване на откриването на фалшификации, добавяйки, че видеоклиповете, генерирани от VASA, съдържат разпознаваеми артефакти.

„Не планираме да пускаме онлайн демонстрация, API, продукт, допълнителни детайли за внедряване или каквито и да било свързани предложения, докато не се уверим, че технологията ще се използва отговорно и в съответствие с подходящите разпоредби“, добавят те.

Подробности за изследването на екипа бяха публикувани на сървъра за предпечат arXiv.

Източник: InterestingEngineering

Валута	За единица	Лева (BGN)	За 1 лев
EUR	1	1.95583	0.511292
USD	1	1.66355	0.601124
TRY	100	3.87564	25.8022
RUB
GBP	1	2.24498	0.445438
CAD	1	1.2145	0.823384

Mercedes-Benz представя изцяло електрическата C-Class: 560 км пробег, 482 к.с. и…

Промяна в ръководството на Apple: Тим Кук предава поста на главен…

Hörmann в сърцето на Алпите: дърводелският цех Rüscher като пример за…

Обявиха индекса „Топ 100 най-добри работодатели в България“ за 2026 г.

Грешката за 50 милиарда долара: когато компаниите бъркат дигиталната активност със…

Истории на успеха, разказани от победителите в „Наградите на БАИТ”: Награда…

Истории на успеха, разказани от победителите в „Наградите на БАИТ”: категория…

Истории на успеха, разказани от победителите в „Наградите на БАИТ”: …

Венеция потъва – анализиран е всеки план за спасяването ѝ и…

Смехът, страхът и любовта: защо се влюбваме в хората, които ни…

Вредна ли е водата за уста за сърцето ви?

Youth Speak Forum 2026: Учи умно, работи разумно

БАКА представи журито на ФАРА 2026 и анонсира първите лектори в…

“За маркетинга от първо лице” с д-р Никола Илчев

Бизнес форум „Среща под звездите“ събра експерти от дигиталния и предприемаческия…

Защо онлайн магазинът ми е бавен и как да зарежда по-бързо?

Рязък скок на цените на горивата в ЕС през март 2026…

Несъстоятелността на компаниите в Централна и Източна Европа: стабилност на повърхността…

След колко време мога да рефинансирам кредит?

Европа въвежда дигитално евро: Всичко, което трябва да знаете за новите…

Актуализацията на ChatGPT Images 2.0 съчетава логическо мислене, проучване и дизайн…

Когато България произвеждаше телевизори и събираше цели входове около тях

Преквалификация?! Как да подготвите кариерата си за бъдещето в ерата на…

Зареждане от 5% до 95% за 9 минути: китайска компания за…

Регионална бизнес конференция Стара Загора 2026

Регионална бизнес конференция Пловдив 2026

Регионална бизнес конференция Русе 2026

Регионална бизнес конференция Бургас 2026

Зловещо реалистично: Новият AI модел на Microsoft кара изображенията да говорят и да пеят

Мона Лиза пее

Опасност от имитация

Продуктът няма да бъде пуснат

ПОСЛЕДНИ НОВИНИ

Актуализацията на ChatGPT Images 2.0 съчетава логическо мислене, проучване и дизайн...

Венеция потъва – анализиран е всеки план за спасяването ѝ и...

Mercedes-Benz представя изцяло електрическата C-Class: 560 км пробег, 482 к.с. и...

Рязък скок на цените на горивата в ЕС през март 2026...

Несъстоятелността на компаниите в Централна и Източна Европа: стабилност на повърхността...