Начало Технологии Иновации Актуализацията на ChatGPT Images 2.0 съчетава логическо мислене, проучване и дизайн с...

Актуализацията на ChatGPT Images 2.0 съчетава логическо мислене, проучване и дизайн с 2K качество на изображенията

Hyperreal Manga image created by ChatGPT Images 2.0. OpenAI

Малко повече от година след добавянето на вградена функция за генериране на изображения, OpenAI прави още една крачка напред с мащабно обновяване. Компанията пуска ChatGPT Images 2.0, представяйки го като важен скок в начина, по който изкуственият интелект създава и редактира визуални елементи.

Новата система има за цел да надхвърли простото генериране и да се превърне в нещо, по-близко до интерактивен творчески двигател.

OpenAI описва новата версия като „качествен скок“ при моделите за изображения, с подобрения в следването на инструкции, визуализирането на текст и композицията на сцените.

Моделът може също така да разсъждава при изпълнение на задачи, включително да проверява резултатите и да използва външна информация.

Тази промяна показва по-широка амбиция: изображенията, генерирани с изкуствен интелект, да станат по-надеждни и по-практични за реална работа.

Два режима, две различни задачи

ChatGPT Images 2.0 се предлага с два различни режима на работа: Instant и Thinking. Всеки от тях е насочен към различна творческа нужда.

Режимът Instant се фокусира върху скоростта. OpenAI го тества тихо под кодовото име „duct tape“ в LMArena преди пускането му. Моделът осигурява бързи резултати, като същевременно запазва високо визуално качество.

Режимът  използва по-бавен и обмислен подход. Той разсъждава, преди да генерира визуализации. Това му позволява да поддържа последователност на персонажите в множество кадри и да създава логично свързани визуални истории.

Тази възможност отваря нови приложения като създаване на манга, сторибордове и дизайн на сцени с няколко последователни части.

Разликата е съществена, тъй като по-ранните модели за изображения често имат проблеми с визуалната последователност.

Режимът „Thinking“ се опитва да отстрани това ограничение, като третира създаването на изображения като структуриран процес, а не като еднократен резултат.

Интерактивни работни процеси с изображения

Най-голямата промяна се състои в начина, по който потребителите взаимодействат със системата. OpenAI вече не третира генерирането на изображения като единично действие от типа „заявка-отговор“.

„Това е AI, с който общувате интерактивно, а той ви отговаря“, казва изследовател от OpenAI по време на демонстрацията.

Потребителите вече могат да дообработват изображения чрез разговор – да приближават детайли, да променят елементи или да коригират композицията, без да започват отначало. Моделът запазва контекста между отделните редакции, което позволява постепенен и гъвкав творчески процес.

Подобрения в езика и дизайна

OpenAI също така подобрява начина, по който моделът работи с нелатински шрифтове.

Системата вече работи по-добре с текстове на японски, корейски, китайски, хинди и бенгалски. Това отстранява дългогодишно ограничение в моделите за изображения.

Компанията твърди също, че е постигната по-висока точност при пресъздаването на различни визуални стилове. Това включва по-добро съответствие с конкретни художествени езици и естетики. Тези подобрения правят инструмента по-практичен за разработка на игри, визуален сторителинг и творчески проекти.

Images 2.0 позволява създаване на изображения в различни формати – от широки хоризонтални банери до високи вертикални визии за мобилни устройства и социални мрежи.

Той може да генерира изображения с резолюция до 2K и да произвежда до осем резултата в едно изпълнение.

Тъй като водещите компании за изкуствен интелект се доближават по отношение на производителността на текстовите модели, фокусът на диференциацията се измества.

OpenAI изглежда залага силно на изображенията като следващата си конкурентна граница. След като ChatGPT Images 2.0 вече е достъпен в уеб версията и чрез API, компанията дава ясен сигнал за посоката си на развитие.

Генерирането на изображения вече не е просто функция. То се превръща в основен интерфейс за взаимодействие с изкуствения интелект.

Източник: InterestingEngineering