Начало Технологии Иновации Genie 3 на Google представя светове, създадени с изкуствен интелект, с движения...

Genie 3 на Google представя светове, създадени с изкуствен интелект, с движения в реално време

Interactive world build by DeepMind's Genie 3. Google DeepMind

Google DeepMind представи Genie 3, най-модерния си модел за симулиране на света до момента. Изкуственият интелект може да генерира интерактивни, динамични среди в реално време въз основа на текстови команди.

Потребителите могат да изследват тези генерирани светове с резолюция 720p и 24 кадъра в секунда, като последователността се поддържа в продължение на няколко минути.

Тази версия се основава на години на изследвания в DeepMind, където AI агенти са били обучавани в симулирани среди за игри, роботика и отворено обучение.

Genie 3 бележи значителен скок в сравнение с по-ранните версии, Genie 1 и Genie 2, като поддържа навигация в реално време и подобрен реализъм.

Световни модели като Genie 3 се считат за важна стъпка към изкуствения общ интелект (AGI). Те позволяват на агентите да изпитват разнообразни, отворени среди, в които могат да научат как се развива светът и как техните действия му влияят.

Ново ниво на интерактивна симулация

Genie 3 позволява интерактивност в реално време, което е значителна промяна в сравнение с предишните модели на изкуствен интелект, които са ограничени до генериране на видео или единични кадри.

Моделът може да симулира физични явления като вода, светлина и други природни взаимодействия. Той може също да възпроизвежда богати екосистеми, да анимира герои и да генерира както реални, така и измислени сцени.

Моделът постига това чрез авторегресивно генериране на кадри, при което всеки нов кадър се основава на нарастваща поредица от предишни кадри.

Ако потребителят посети отново дадено място след известно време, Genie 3 се позовава на визуалната си памет, за да го визуализира последователно. Тази памет може да се простира до една минута назад, което помага за поддържане на потапянето в средата.

За разлика от методи като NeRFs или Gaussian Splatting, Genie 3 не разчита на предварително изчислени 3D представяния. Вместо това, той генерира всичко кадър по кадър, което прави средата по-динамична и способна да реагира на действията и командите на потребителя.

Genie 3 поддържа и това, което DeepMind нарича „програмируеми световни събития“. Освен движение и навигация, потребителите могат да въвеждат команди, за да променят света, като променят времето, въвеждат обекти или добавят нови герои.

Това позволява да се симулират широк спектър от контрафактични сценарии и да се разшири начинът, по който агентите се учат от неочаквани промени.

По-дълги последователности

Чрез поддържане на стабилна и последователна среда във времето, Genie 3 дава възможност за извършване на по-сложни действия в по-дълги последователности. Тази разширена последователност позволява както на агентите, така и на потребителите да преследват значими цели в продължение на няколко минути взаимодействие.

Постигането на това ниво на стабилност изисква преодоляване на технически предизвикателства. Тъй като моделът изгражда всеки кадър въз основа на предишните, грешките могат да се натрупват бързо.

Въпреки това Genie 3 се представя изключително добре в продължителни последователности, което го прави подходящ за непрекъснати, целенасочени задачи.

Все пак ограниченията остават. Обхватът на директните действия, които агентът може да предприеме, е тесен. Макар че събитията, които могат да бъдат предизвикани, увеличават изразяването, те не се изпълняват от самия агент.

Освен това, взаимодействията между множество агенти в споделени среди все още представляват предизвикателство. Genie 3 също не може да симулира реални географски местоположения с перфектна точност.

Въпреки тези ограничения, Genie 3 сигнализира за преход към AI системи, способни не само да виждат или реагират, но и да си представят, навигират и симулират цели светове в реално време.

Google DeepMind разглежда това като фундаментална стъпка към по-общи, автономни AI агенти в бъдещето.

Източник: InterestingEngineering