Начало Технологии Иновации GPT 4.5 издържа теста на Тюринг, който се смята за барометър за...

GPT 4.5 издържа теста на Тюринг, който се смята за барометър за интелигентност, подобна на човешката

В ново проучване на изследователи от Калифорнийския университет в Сан Диего се заключава, че GPT-4.5, най-новият голям езиков модел на OpenAI, и Llama-3.1-405B на Meta успяват да се справят с теста на Тюринг за трима души при подходящи условия.

Резултатите показват, че разпитващите често са приемали тези модели на ИИ за човешки участници, което предполага, че тестът на Тюринг може, поне в определени условия, да бъде надхитрен от последното поколение чатботове с ИИ.

Според водещия изследовател Камерън Джоунс, GPT-4.5 със стратегически подтик „PERSONA“ е успял да спечели 73% – което означава, че в петминутни чат сесии системата на ИИ е била идентифицирана като човек по-често, отколкото действителният човек. Llama-3.1-405B също преминава този праг (макар и с по-нисък процент на победа от 56%), когато по същия начин е подканена да приеме конкретна личност.

За разлика от тях GPT-4o, референтен модел, който вероятно захранва широко използвания днес ChatGPT, успява да постигне само 21% успеваемост при минимални инструкции.

Тези резултати подновяват дебата за това дали играта на Тюринг за имитация все още е значим показател за интелигентност, подобна на човешката, или подчертава най-вече способността на съвременния изкуствен интелект да имитира човешки разговори.

Проучването също така показва промени в начина, по който ние, като човешки разпитващи, подхождаме към подозрително свободно говорещите „хора“ от другата страна на текстовия прозорец.

Дали красноречивите чатботове ни убеждават твърде лесно, или моделите на изкуствения интелект наистина са прескочили емблематичен праг на изчислителното мислене?

От визията на Алън Тюринг до GPT-4.5

Британският математик и компютърен учен Алън Тюринг предлага за първи път своята имитационна игра през 1950 г. като мисловен експеримент.

Ако разпитващият не може да направи надеждна разлика между човек и скрита машина в разговор, базиран на текст, Тюринг разсъждава, че може да се каже, че машината „мисли“.

Поколения ентусиасти в областта на изкуствения интелект са използвали теста на Тюринг като критерий, макар че първоначално той е бил по-скоро философски, отколкото технически. И все пак през десетилетията за множество чатботове се твърди, че са „преминали“ теста на Тюринг – често с възражения.

Критиците твърдят, че тестът измерва повече нашата доверчивост, отколкото строг стандарт за интелигентност. С напредването на технологиите за изкуствен интелект много чатботове в реалния свят се оказват умели в имитирането на хора, като разчитат на огромни текстови корпуси и съпоставяне на модели, а не на истинско разсъждение или самосъзнание.

В проучването на Калифорнийския университет в Сан Диего GPT-4.5 и Llama-3.1-405B са пример за това колко сложни са станали системите за генериране на текст. Успехът им се повишава, когато са им дадени подкани от типа „PERSONA“, които ги инструктираха да възприемат много специфично поведение, подобно на човешкото.

Без такива подкани процентът на печалбите на GPT-4.5 спада до 36%, докато GPT-4o, без да използва персона, постигна само 21%. Тези разлики показват, че част от „победата“ се крие в това колко добре ИИ е насочен към създаване на правдоподобна личност, допълнена с подробности за ежедневието, взаимоотношенията или емоционалните състояния.

По-големият въпрос е дали успехът в заблуждаването на разпитващия е доказателство за действителен машинен интелект. Както Тюринг си е представял, предизвикателството, базирано на разговор, трябва да заобиколи философските определения за „мислене“ или „осъзнаване“ и да остави представянето да говори само за себе си.

Но днес представянето е по-скоро свързано с усъвършенствано съвпадение на модели, случайни текстови извадки и знания, извлечени от милиарди предварително съществуващи документи.

Изгубил ли е тестът на Тюринг своята актуалност

В продължение на почти десетилетие вълна след вълна чатботове и системи с изкуствен интелект са обявявани за „победители“ в теста на Тюринг.

След всеки път изследователите спорят дали тестът остава валидна мярка за интелигентност, или просто доказва, че големи езикови модели могат да генерират гладък разговор. Критиците обаче изтъкват няколко основни проблема.

Човешката доверчивост или илюзии: Тестът на Тюринг може да бъде „издържан“, ако човешкият разпитващ не успее да прозре внимателно подбрания текст или ако просто не задава достатъчно сложни въпроси. Вместо да разкрие дълбочината на разбиране на машината, той може просто да разкрие колко лесно приемаме правдоподобен език.

Тесен контекст срещу широка интелигентност: Тестът на Тюринг включва кратки текстови разговори. В същото време изкуственият интелект все повече се специализира в задачи като анализ на данни, прогнозно моделиране или усъвършенствани системи за управление. Това са области, които тестът на Тюринг не оценява.

Липса на самосъзнание: Дори GPT-4.5 да заблуди 73 % от разпитващите, той остава алгоритмичен агрегатор на токени без субективен опит или съзнание. Въпреки че преминава успешно играта на Тюринг, чатботът може би все още е далеч от това да отговаря на стандартите за съзнание или самосъзнание.

Промяна на културните основи: Когато все повече хора свикнат с интерфейси за чат, управлявани от изкуствен интелект, те може да станат по-предпазливи или по-добре да откриват фините езикови странности. Алтернативно, ИИ може да се усъвършенства допълнително. Резултатите от теста на Тюринг могат да продължат да се променят с развитието на човешките очаквания и усъвършенстването на ИИ.

В академичните и изследователските среди тестът на Тюринг се разглежда по-скоро като исторически крайъгълен камък, отколкото като окончателно определение на интелигентността.

Съществуват множество алтернативи, като например тестът на Лъвлейс (фокусиран върху креативността), предизвикателството на схемата на Уиноград (тестващо разсъжденията на здравия разум) или тестът на Маркъс (оценяващ разбирането на телевизионно предаване). Всеки от тях се опитва да проникне по-дълбоко в когнитивните способности, които обикновеният разговор не може да разкрие.

Същевременно, тъй като тези системи с изкуствен интелект се интегрират все повече в ежедневието, като помагат на хората да мамят на изпити, да съставят сложни есета или да подпомагат творчески задачи, възниква въпросът дали те действително надминават ежедневните човешки критерии за кратки разговори.

Някои смятат, че това е постижение, което сигнализира за напреднали манипулативни или реторични умения, докато други го виждат като знак, че може би надценяваме една умело създадена илюзия.

Източник: InterestingEngineering