GPT 4.5 издържа теста на Тюринг, който се смята за барометър за интелигентност, подобна на човешката

от

04.04.2025

В ново проучване на изследователи от Калифорнийския университет в Сан Диего се заключава, че GPT-4.5, най-новият голям езиков модел на OpenAI, и Llama-3.1-405B на Meta успяват да се справят с теста на Тюринг за трима души при подходящи условия.

Резултатите показват, че разпитващите често са приемали тези модели на ИИ за човешки участници, което предполага, че тестът на Тюринг може, поне в определени условия, да бъде надхитрен от последното поколение чатботове с ИИ.

Според водещия изследовател Камерън Джоунс, GPT-4.5 със стратегически подтик „PERSONA“ е успял да спечели 73% – което означава, че в петминутни чат сесии системата на ИИ е била идентифицирана като човек по-често, отколкото действителният човек. Llama-3.1-405B също преминава този праг (макар и с по-нисък процент на победа от 56%), когато по същия начин е подканена да приеме конкретна личност.

За разлика от тях GPT-4o, референтен модел, който вероятно захранва широко използвания днес ChatGPT, успява да постигне само 21% успеваемост при минимални инструкции.

Тези резултати подновяват дебата за това дали играта на Тюринг за имитация все още е значим показател за интелигентност, подобна на човешката, или подчертава най-вече способността на съвременния изкуствен интелект да имитира човешки разговори.

Проучването също така показва промени в начина, по който ние, като човешки разпитващи, подхождаме към подозрително свободно говорещите „хора“ от другата страна на текстовия прозорец.

Дали красноречивите чатботове ни убеждават твърде лесно, или моделите на изкуствения интелект наистина са прескочили емблематичен праг на изчислителното мислене?

От визията на Алън Тюринг до GPT-4.5

Британският математик и компютърен учен Алън Тюринг предлага за първи път своята имитационна игра през 1950 г. като мисловен експеримент.

Ако разпитващият не може да направи надеждна разлика между човек и скрита машина в разговор, базиран на текст, Тюринг разсъждава, че може да се каже, че машината „мисли“.

Поколения ентусиасти в областта на изкуствения интелект са използвали теста на Тюринг като критерий, макар че първоначално той е бил по-скоро философски, отколкото технически. И все пак през десетилетията за множество чатботове се твърди, че са „преминали“ теста на Тюринг – често с възражения.

Критиците твърдят, че тестът измерва повече нашата доверчивост, отколкото строг стандарт за интелигентност. С напредването на технологиите за изкуствен интелект много чатботове в реалния свят се оказват умели в имитирането на хора, като разчитат на огромни текстови корпуси и съпоставяне на модели, а не на истинско разсъждение или самосъзнание.

В проучването на Калифорнийския университет в Сан Диего GPT-4.5 и Llama-3.1-405B са пример за това колко сложни са станали системите за генериране на текст. Успехът им се повишава, когато са им дадени подкани от типа „PERSONA“, които ги инструктираха да възприемат много специфично поведение, подобно на човешкото.

Без такива подкани процентът на печалбите на GPT-4.5 спада до 36%, докато GPT-4o, без да използва персона, постигна само 21%. Тези разлики показват, че част от „победата“ се крие в това колко добре ИИ е насочен към създаване на правдоподобна личност, допълнена с подробности за ежедневието, взаимоотношенията или емоционалните състояния.

По-големият въпрос е дали успехът в заблуждаването на разпитващия е доказателство за действителен машинен интелект. Както Тюринг си е представял, предизвикателството, базирано на разговор, трябва да заобиколи философските определения за „мислене“ или „осъзнаване“ и да остави представянето да говори само за себе си.

Но днес представянето е по-скоро свързано с усъвършенствано съвпадение на модели, случайни текстови извадки и знания, извлечени от милиарди предварително съществуващи документи.

Изгубил ли е тестът на Тюринг своята актуалност

В продължение на почти десетилетие вълна след вълна чатботове и системи с изкуствен интелект са обявявани за „победители“ в теста на Тюринг.

След всеки път изследователите спорят дали тестът остава валидна мярка за интелигентност, или просто доказва, че големи езикови модели могат да генерират гладък разговор. Критиците обаче изтъкват няколко основни проблема.

Човешката доверчивост или илюзии: Тестът на Тюринг може да бъде „издържан“, ако човешкият разпитващ не успее да прозре внимателно подбрания текст или ако просто не задава достатъчно сложни въпроси. Вместо да разкрие дълбочината на разбиране на машината, той може просто да разкрие колко лесно приемаме правдоподобен език.

Тесен контекст срещу широка интелигентност: Тестът на Тюринг включва кратки текстови разговори. В същото време изкуственият интелект все повече се специализира в задачи като анализ на данни, прогнозно моделиране или усъвършенствани системи за управление. Това са области, които тестът на Тюринг не оценява.

Липса на самосъзнание: Дори GPT-4.5 да заблуди 73 % от разпитващите, той остава алгоритмичен агрегатор на токени без субективен опит или съзнание. Въпреки че преминава успешно играта на Тюринг, чатботът може би все още е далеч от това да отговаря на стандартите за съзнание или самосъзнание.

Промяна на културните основи: Когато все повече хора свикнат с интерфейси за чат, управлявани от изкуствен интелект, те може да станат по-предпазливи или по-добре да откриват фините езикови странности. Алтернативно, ИИ може да се усъвършенства допълнително. Резултатите от теста на Тюринг могат да продължат да се променят с развитието на човешките очаквания и усъвършенстването на ИИ.

В академичните и изследователските среди тестът на Тюринг се разглежда по-скоро като исторически крайъгълен камък, отколкото като окончателно определение на интелигентността.

Съществуват множество алтернативи, като например тестът на Лъвлейс (фокусиран върху креативността), предизвикателството на схемата на Уиноград (тестващо разсъжденията на здравия разум) или тестът на Маркъс (оценяващ разбирането на телевизионно предаване). Всеки от тях се опитва да проникне по-дълбоко в когнитивните способности, които обикновеният разговор не може да разкрие.

Същевременно, тъй като тези системи с изкуствен интелект се интегрират все повече в ежедневието, като помагат на хората да мамят на изпити, да съставят сложни есета или да подпомагат творчески задачи, възниква въпросът дали те действително надминават ежедневните човешки критерии за кратки разговори.

Някои смятат, че това е постижение, което сигнализира за напреднали манипулативни или реторични умения, докато други го виждат като знак, че може би надценяваме една умело създадена илюзия.

Източник: InterestingEngineering

Валута	За единица	Лева (BGN)	За 1 лев
EUR	1	1.95583	0.511292
USD	1	1.66355	0.601124
TRY	100	3.87564	25.8022
RUB
GBP	1	2.24498	0.445438
CAD	1	1.2145	0.823384

България е сред страните с най-ниска безработица в ЕС през 2025…

Защо модерната отчетност е повече от технология? Акцентите от бизнес семинара…

Новият език на модерната баня: GROHE Lineare с три актуални покрития

По следите на легендата: новият Orient Express свързва Италия и Турция…

Лидери с кауза: Кока-Кола ХБК България за отличието „Инвеститор в обществото“…

Грешката за 50 милиарда долара: когато компаниите бъркат дигиталната активност със…

Истории на успеха, разказани от победителите в „Наградите на БАИТ”: Награда…

Истории на успеха, разказани от победителите в „Наградите на БАИТ”: категория…

ОPEN BUZLUDZHA 2026 събира Роби, Мона, Прея и Тригайда на най-извънземната…

Каква е разликата между прегаряне и депресия?

Дали огромните октоподи са били върховни хищници в древните океани?

7 природни чудеса на Земята, които изглеждат почти нереални

Netpeak Bulgaria и Икономически университет – Варна подписват меморандум за сътрудничество…

Оспорвана надпревара и ярки победители белязаха най-големия творчески фестивал у нас,…

Netpeak Friends Day събра клиенти и партньори около темата Google Shopping

Digital4Sofia PRO Marketing Conference се завръща с най-силното си международно издание…

Инфлацията в еврозоната отново се ускорява: България с най-висок ръст на…

IPO на SpaceX през 2026 г. и потенциалната му роля за…

Напрежението в Близкия изток засилва икономическите рискове за Централна и Източна…

Фонд на фондовете обявява процедура за избор на финансови посредници за…

Китай представя планове за плаващ ядрен остров, захранван от реактори с…

Как да изберете велосипед от онлайн магазин?

Финландия и дигитализацията: скритото неравенство в най-напредналото дигитално общество в Европа

Бърни Сандърс предлага американската общественост да получи 50% дял в големите…

Регионална бизнес конференция Русе 2026

Регионална бизнес конференция Бургас 2026

Регионална бизнес конференция Варна 2026

Национална бизнес конференция София 2026

GPT 4.5 издържа теста на Тюринг, който се смята за барометър за интелигентност, подобна на човешката

От визията на Алън Тюринг до GPT-4.5

Изгубил ли е тестът на Тюринг своята актуалност

ПОСЛЕДНИ НОВИНИ

България е сред страните с най-ниска безработица в ЕС през 2025...

ОPEN BUZLUDZHA 2026 събира Роби, Мона, Прея и Тригайда на най-извънземната...

Netpeak Bulgaria и Икономически университет – Варна подписват меморандум за сътрудничество...

Оспорвана надпревара и ярки победители белязаха най-големия творчески фестивал у нас,...

Защо модерната отчетност е повече от технология? Акцентите от бизнес семинара...