Система за изкуствен интелект достигна човешкото ниво в тест за „обща интелигентност“

от

07.01.2025

Нов модел на изкуствен интелект (ИИ) току-що постигна резултати на нивото на човек на тест, предназначен за измерване на „общия интелект“.

На 20-ти декември системата o3 на OpenAI постигна 85 % от резултата в сравнителния тест ARC-AGI, което е значително над предишния най-добър резултат на ИИ от 55 % и е равностойно на средния човешки резултат. Тя постига добри резултати и на много труден математически тест.

Създаването на изкуствен общ интелект (AGI) е заявената цел на всички големи изследователски лаборатории за ИИ. Сега изглежда, че OpenAI е направил значителна крачка към тази цел.

Въпреки че скептицизмът остава, много изследователи и разработчици на ИИ смятат, че нещо току-що се е променило. За мнозина перспективата за AGI вече изглежда много по-реална, по-възможна и по-близка от очакваното. Дали са прави?

Обобщение и интелигентност

За да разберете какво означава резултатът от o3, трябва да разберете какво представлява тестът ARC-AGI. На технически език това е тест за „ефективността на извадката“ на системата за изкуствен интелект при адаптирането ѝ към нещо ново – колко примера за нова ситуация трябва да види системата, за да разбере как работи.

Система за изкуствен интелект като ChatGPT (GPT-4) не е много ефективна по отношение на извадката. Тя е „обучена“ върху милиони примери на човешки текст, като е изградила вероятностни „правила“ за това кои комбинации от думи са най-вероятни.

Резултатът й е доста добър при изпълнението на общи задачи, но е лош при необичайни задачи, защото разполага с по-малко данни (по-малко извадки) за тези задачи.

Докато системите с изкуствен интелект не могат да се учат от малък брой примери и да се адаптират с по-голяма ефективност на извадките, те ще се използват само за много повтарящи се задачи и такива, при които случайният неуспех е допустим.

Способността за точно решаване на неизвестни досега или нови проблеми от ограничени извадки от данни е известна като способност за обобщаване. Широко разпространено е мнението, че тя е необходим, дори основен елемент на интелигентността.

Мрежи и модели

Сравнителният тест на ARC-AGI проверява ефикасното адаптиране на извадките, като използва малки квадратни задачи с решетки. Изкуственият интелект трябва да открие модела, който превръща решетката отляво в решетка отдясно.

Всеки въпрос дава три примера, от които да се учите. След това системата за изкуствен интелект трябва да открие правилата, които „обобщават“ трите примера за четвъртия.

Това много прилича на тестовете за интелигентност, които хората си правят.

Слаби правила и адаптация

Не знаем как точно OpenAI се е справила с това, но резултатите показват, че моделът o3 е силно адаптивен. Само от няколко примера той намира правила, които могат да бъдат обобщени.

За да разберем даден модел, не трябва да правим излишни предположения или да бъдем по-конкретни, отколкото наистина трябва да бъдем. На теория, ако можете да идентифицирате „най-слабите“ правила, които правят това, което искате, тогава сте увеличили максимално способността си да се адаптирате към нови ситуации.

Какво се има предвид под най-слабите правила? Техническата дефиниция е сложна, но най-слабите правила обикновено са тези, които могат да бъдат описани с по-прости твърдения.

Търсене на мисловни вериги

Въпреки че все още не знаем как OpenAI е постигнала този резултат, изглежда малко вероятно да са оптимизирали системата o3 умишлено, за да откриват слаби правила. Въпреки това, за да успее да се справи със задачите на ARC-AGI, тя трябва да ги намира.

Знаем, че OpenAI е започнал с версия на модела o3 с общо предназначение (която се различава от повечето други модели, защото може да прекарва повече време в „мислене“ върху трудни въпроси) и след това го е обучава специално за теста ARC-AGI.

Френският изследовател на изкуствения интелект Франсоа Шоле, който е разработил бенчмарка, смята, че o3 търси чрез различни „мисловни вериги“, описващи стъпките за решаване на задачата. След това той избира „най-добрата“ според някакво свободно дефинирано правило или „евристика“.

Това би било „не по-различно“ от начина, по който системата AlphaGo на Google търси различни възможни последователности от ходове, за да победи световния шампион по Го.

Можете да си представите тези мисловни вериги като програми, които отговарят на примерите. Разбира се, ако е като изкуствения интелект за игра на Го, тогава се нуждае от евристика или свободно правило, за да реши коя програма е най-добра.

Възможно е да бъдат генерирани хиляди различни, на пръв поглед еднакво валидни програми. Тази евристика може да бъде „избери най-слабата“ или „избери най-простата“.

Ако обаче е като AlphaGo, тогава те просто са накарали изкуствения интелект да създаде евристика. Такъв е бил процесът за AlphaGo. Google обучава модел, който да оценява различни последователности от ходове като по-добри или по-лоши от други.

Какво все още не знаем?

Въпросът е дали това наистина се доближава до AGI? Ако o3 работи по този начин, тогава основният модел може да не е много по-добър от предишните модели.

Понятията, които моделът научава от езика, може да не са по-подходящи за обобщаване, отколкото преди. Вместо това може би просто виждаме една по-обобщаваща „верига от мисли“, намерена чрез допълнителните стъпки на обучение на евристика, специализирана за този тест.

Почти всичко за o3 остава неизвестно. OpenAI е ограничила разкриването на информация до няколко медийни презентации и ранно тестване на шепа изследователи, лаборатории и институции за безопасност на изкуствения интелект.

Истинското разбиране на потенциала на o3 ще изисква задълбочена работа, включително оценки, разбиране на разпределението на капацитета му, колко често се проваля и колко често успява.

Когато o3 най-накрая бъде пуснат на пазара, ще имаме много по-добра представа дали е приблизително толкова адаптивен, колкото средния човек.

Ако това е така, той може да има огромно, революционно, икономическо въздействие, поставяйки началото на нова ера на самоусъвършенстващ се ускорен интелект. Ще се нуждаем от нови критерии за самия AGI и от сериозно обмисляне на начина, по който той трябва да бъде управляван.

Ако това не се случи, резултатът все пак ще бъде впечатляващ. Ежедневието обаче ще остане почти същото.

Източник: The Conversation

Валута	За единица	Лева (BGN)	За 1 лев
EUR	1	1.95583	0.511292
USD	1	1.66355	0.601124
TRY	100	3.87564	25.8022
RUB
GBP	1	2.24498	0.445438
CAD	1	1.2145	0.823384

167 милиона части „Made in Bulgaria“: как Либхер превръща българските доставчици…

Mercedes-Benz представя изцяло електрическата C-Class: 560 км пробег, 482 к.с. и…

Промяна в ръководството на Apple: Тим Кук предава поста на главен…

Hörmann в сърцето на Алпите: дърводелският цех Rüscher като пример за…

Грешката за 50 милиарда долара: когато компаниите бъркат дигиталната активност със…

Истории на успеха, разказани от победителите в „Наградите на БАИТ”: Награда…

Истории на успеха, разказани от победителите в „Наградите на БАИТ”: категория…

Истории на успеха, разказани от победителите в „Наградите на БАИТ”: …

Венеция потъва – анализиран е всеки план за спасяването ѝ и…

Смехът, страхът и любовта: защо се влюбваме в хората, които ни…

Вредна ли е водата за уста за сърцето ви?

Youth Speak Forum 2026: Учи умно, работи разумно

БАКА представи журито на ФАРА 2026 и анонсира първите лектори в…

“За маркетинга от първо лице” с д-р Никола Илчев

Бизнес форум „Среща под звездите“ събра експерти от дигиталния и предприемаческия…

Защо онлайн магазинът ми е бавен и как да зарежда по-бързо?

Рязък скок на цените на горивата в ЕС през март 2026…

Несъстоятелността на компаниите в Централна и Източна Европа: стабилност на повърхността…

След колко време мога да рефинансирам кредит?

Европа въвежда дигитално евро: Всичко, което трябва да знаете за новите…

Актуализацията на ChatGPT Images 2.0 съчетава логическо мислене, проучване и дизайн…

Когато България произвеждаше телевизори и събираше цели входове около тях

Преквалификация?! Как да подготвите кариерата си за бъдещето в ерата на…

Зареждане от 5% до 95% за 9 минути: китайска компания за…

Регионална бизнес конференция Стара Загора 2026

Регионална бизнес конференция Пловдив 2026

Регионална бизнес конференция Русе 2026

Регионална бизнес конференция Бургас 2026

Система за изкуствен интелект достигна човешкото ниво в тест за „обща интелигентност“

Обобщение и интелигентност

Мрежи и модели

Слаби правила и адаптация

Търсене на мисловни вериги

Какво все още не знаем?

ПОСЛЕДНИ НОВИНИ

167 милиона части „Made in Bulgaria“: как Либхер превръща българските доставчици...

Актуализацията на ChatGPT Images 2.0 съчетава логическо мислене, проучване и дизайн...

Венеция потъва – анализиран е всеки план за спасяването ѝ и...

Mercedes-Benz представя изцяло електрическата C-Class: 560 км пробег, 482 к.с. и...

Рязък скок на цените на горивата в ЕС през март 2026...