Начало Технологии Иновации GPT-4o: OpenAI разкрива своя нов по-бърз, безплатен AI модел

GPT-4o: OpenAI разкрива своя нов по-бърз, безплатен AI модел

OpenAI CTO Muri Murati during the unveiling of GPT-4o Sam Altman/X

Последният пробив на OpenAI, GPT-4o, е готов да предефинира изживяването на чатбота със своите забележителни аудио възможности.

OpenAI пусна своя най-нов флагмански генериращ AI модел GPT-4o, итерация на своя GPT-4, с поетапно пускане в своите продукти, ориентирани към разработчици и потребители, през следващите седмици.

По време на основна реч в централата на OpenAI, главният технически директор, Мури Мурати подчертава напредъка на GPT-4o в сравнение с неговия предшественик, GPT-4, който включва подобрени възможности, обхващащи обработка на текст, визия и аудио.

„GPT-4o работи безпроблемно с глас, текст и визия“, обяснява Мурати.

Естествено взаимодействие човек-компютър

Според OpenAI, GPT-4o („o“ за „omni“) е стъпка към много по-естествено взаимодействие човек-компютър.

Той приема като вход всяка комбинация от текст, аудио и изображение и генерира всякаква комбинация от текст, аудио и изходни изображения. Той може да отговори на аудио входове само за 232 милисекунди, със средна скорост от 320 милисекунди, което е подобно на времето за реакция на човек при разговор.

Съвпада с производителността на GPT-4 Turbo при текст на английски и код, със значително подобрение при текст на неанглийски езици, като същевременно е много по-бърз и 50% по-евтин в API. GPT-4o е особено по-добър при визуално и аудио разбиране в сравнение със съществуващите модели.

Какво точно означава това за потребителите?

Честно казано доста. GPT-4o значително подобрява изживяването на ChatGPT, широко популярния AI чатбот на OpenAI. Потребителите вече могат да се ангажират с ChatGPT, както биха направили с личен асистент, като задават въпроси и дори прекъсват по средата на отговора.

Освен това OpenAI въвежда настолна версия на ChatGPT заедно с обновен потребителски интерфейс.

„Разпознаваме нарастващата сложност на тези модели, но нашата цел е да направим взаимодействието по-интуитивно и безпроблемно. Искаме потребителите да се съсредоточат върху сътрудничеството с GPT, вместо да се разсейват от потребителския интерфейс“, подчертава Мурати.

GPT-4o също преминава през обширно обединяване с над 70 външни експерти в области като социална психология, пристрастия, справедливост и дезинформация, за да идентифицира рисковете, които се въвеждат или усилват от новодобавените модалности.

OpenAI използва тези знания, за да изгради интервенции за безопасност, подобрявайки безопасността при взаимодействие с GPT-4o.

Членовете на екипа на OpenAI демонстрират аудио мощта на новия модел, като търсят помощ за успокояване на нервите преди публична реч. Изследователят Марк Чен подчертава способността му да измерва емоциите, отбелязвайки неговата адаптивност към прекъсвания на потребителя.

Чен демонстрира гъвкавостта на модела, като иска приказка за лека нощ с разнообразни тонове, от драматични до роботизирани, и дори го моли да пее.

Това съобщение бележи един от важните етапи на OpenAI от стартирането на ChatGPT Enterprise през август. Разработен за по-малко от година с участието на над 20 компании, този инструмент за чатбот от бизнес ниво привлече значително внимание.

Стабилен размер на пазара за генеративен AI

OpenAI, заедно с Microsoft и Google, е лидер в генеративния AI домейн, тъй като компании в различни сектори бързат да интегрират базирани на AI чатботове в своите услуги, за да останат конкурентоспособни. Anthropic, съперник на OpenAI, наскоро представи първото си корпоративно предложение и безплатно приложение за iPhone.

„Ние осъзнаваме, че аудио модалностите на GPT-4o представляват различни нови рискове“, се казва в изявление на OpenAI. „Днес пускаме публично въвеждане на текст и изображения и извеждане на текст. През следващите седмици и месеци ще работим върху техническата инфраструктура, използваемостта чрез последващо обучение и безопасността, необходими за пускането на другите модалности.“

Пазарът на генеративния изкуствен интелект отбелязва зашеметяващите инвестиции от 29,1 милиарда долара в близо 700 сделки през 2023 г., което е скок с над 260% спрямо предходната година, според PitchBook. Прогнозите предвиждат приходите на пазара да надхвърлят 1 трилион долара през следващото десетилетие.

Въпреки това остават опасенията относно бързото разгръщане на непроверени услуги, като учените и етиците са обезпокоени от потенциала на технологията да увековечи пристрастия.

От стартирането си през ноември 2022 г. ChatGPT разбива рекордите като най-бързо развиващото се потребителско приложение в историята, което може да се похвали с приблизително 100 милиона активни потребители седмично. OpenAI съобщава, че над 92% от компаниите от Fortune 500 използват платформата.

Източник: InterestingEngineering