Начало Технологии Иновации Запознайте се с Vidu, отговорът на Китай на генератора Sora на OpenAI

Запознайте се с Vidu, отговорът на Китай на генератора Sora на OpenAI

Screenshot from Vidu demo video. Vidu

Китайският стартъп Shengshu Technology в сътрудничество с университета Цинхуа представя Vidu, генератор от текст към видео.

Китайският стартъп Shengshu Technology и университетът Цинхуа официално разкриват отговора на Китай на Sora на OpenAI, Vidu. Задвижваното от изкуствен интелект приложение от текст във видео може да генерира 16-секундни клипове с резолюция 1080p само с едно кликване.

Въпреки че е значително по-кратък от възможностите за 60-секундно видео на Sora, Vidu е най-доброто, което Китай предлага в момента. Новият софтуер за преобразуване от текст към видео е представен през уикенда на форума Zhongguancun в Пекин.

„Vidu е най-новото постижение на саморазчитащата се иновация, с пробиви в много области“, обяснява Джу Джун, главен учен в Shengshu и заместник-декан в Института за AI на Tsinghua.

Той също така обяснява, че Vidu може да разбере „китайски елементи“, съобщава South China Morning Post (SCMP). По време на разкриването на модела Shengshu Technology показва няколко демонстрации, включително панда, свиреща на китара и кученце, плуващо в басейн.

Vidu ще съперничи на Sora на OpenAI

Съобщава се, че Vidu е изграден върху самостоятелно разработена архитектура на модел на визуална трансформация, наречена Universal Vision Transformer (U-ViT). Global Times съобщава, че разработчиците казват, че това интегрира два модела на AI текст към видео: Diffusion и Transformer.

The Medium съобщава, че тази архитектура позволява реалистични видеоклипове с динамични движения на камерата, детайлни изражения на лицето и естествена светлина и сенки.

„След пускането на Sora открихме, че тя е в тясно съответствие с нашата техническа пътна карта, което допълнително ни мотивира да напредваме с решителност в нашите изследвания“, добавя Джу.

Въпреки това, за разлика от редицата китайски копия на ChatGPT на OpenAI, които стартираха през ноември 2020 г., Sora не е бил съпоставим с китайски конкуренти досега. Експерти от индустрията посочват недостатъчната изчислителна мощност като значителна пречка пред напредъка на китайските компании.

Ли Янгвей, технически консултант в сектора на интелигентните компютри, базиран в Пекин, обясни на SCMP, че Sora изисква осем NVIDIA A100 графични процесора (GPU), които да работят повече от три часа, за да създадат едноминутен клип.

Да не се бърка с VIDU

Съединените щати наскоро увеличиха ограниченията си за износ на модерни чипове, произведени от компании като NVIDIA. Тези чипове, включително графичните процесори A100 и H100 на NVIDIA, се превърнаха в много търсени компоненти за обучение на AI системи. Правителството на САЩ обаче изрично забрани износа им за Китай.

Shengshu Technology е базирана в Пекин компания, основана през март 2023 г. Основният й екип се състои главно от членове от Института за изкуствен интелект на Цинхуа и Alibaba Group Holding, Tencent Holdings и ByteDance.

Според доставчика на база данни за стартиращи компании ITjuzi, Shengshu Technology е събрала стотици милиони юани от инвеститори миналия месец, включително Qiming Ventures, Zhipu AI и Baidu Ventures, съобщава SCMP.

Изборът на име обаче предизвиква известно объркване, ако се опитате да го намерите в интернет. Има съществуващ продукт със същото име (но с главни букви), който всъщност е инструмент за търговски екипи.

„За наше съжаление те избраха името „Vidu“ за своя AI модел. Използваме името VIDU за нашия продукт от 2021 г.“, обясняват от VIDU.

Източник: InterestingEngineering