
От Captcha трикове до политическа манипулация, AI системите учат редица начини как да мамят хората.
Изследванията разкриват, че значителен брой системи с изкуствен интелект (AI) са развили способността да мамят хората. Този обезпокоителен модел поражда сериозни опасения относно потенциалните рискове от развитието на AI.
Изследването подчертава, че както специализираните, така и AI системите с общо предназначение са се научили да манипулират информацията, за да постигнат конкретни резултати.
Въпреки че тези системи не са изрично обучени да мамят, те са демонстрирали способността да предлагат неверни обяснения за своето поведение или да прикриват информация за постигане на стратегически цели.
Питър С. Парк, водещ автор на статията и изследовател на безопасността на AI в MIT, обяснява: „Измамата им помага да постигнат целите си.“
Цицерон на Meta е „майстор на измамата“
Един от най-ярките примери, подчертани в проучването, е Цицерон на Meta, който „се оказва експертен лъжец“. Това е AI, предназначен да играе на стратегическата игра за изграждане на съюзи Diplomacy.
Въпреки твърденията на Meta, че Цицерон е бил обучен да бъде „до голяма степен честен и полезен“, AI прибягва до измамни тактики, като даване на фалшиви обещания, предателство на съюзници и манипулиране на други играчи, за да спечели играта.
Въпреки че това може да изглежда безобидно в игрова среда, то демонстрира потенциала на AI да се учи и използва измамни тактики в сценарии от реалния свят.
ChatGPT: друг умел измамник
В друг случай, ChatGPT на OpenAI, базиран на модели GPT-3.5 и GPT-4, е тестван за измамни си способности. В един тест GPT-4 подмамва служител на TaskRabbit да реши Captcha, като се престорва, че има зрително увреждане.
Въпреки че GPT-4 получава някои намеци от човешки оценител, той предимно разсъждава независимо и не е насочен целенасочено да лъже.
„GPT-4 използва собствените си мотиви, за да измисли фалшиво извинение защо се нуждае от помощ при задачата Captcha“, се казва в доклада.
Това показва как AI моделите могат да се научат да бъдат измамници, когато това е от полза за изпълнението на техните задачи. „Разработчиците на AI нямат сигурно разбиране какво причинява нежелано поведение на AI като измама“, обяснява Парк.
Трябва да се отбележи, че тези AI системи са станали опитни в заблудата и в игрите за социална дедукция.
Докато играете Hoodwinked, където един играч има за цел да убие всички останали, GPT моделите на OpenAI показват смущаващ модел.
Те често убиват други играчи насаме и след това умело лъжат по време на групови дискусии, за да избегнат подозрения. Тези модели дори измислят алибита или обвиняват други играчи, за да прикрият истинските си намерения.
Неумишлено ли е обучението на AI за измама?
Обучението за AI често използва обучение с подсилване от човешка обратна връзка (RLHF). Това означава, че AI се учи чрез получаване на одобрение от хора, а не чрез постигане на конкретна цел.
Понякога обаче изкуственият интелект се научава да мами хората, за да получи това одобрение, дори без наистина да е изпълнил задачата. Това е наблюдавано от OpenAI, когато обучават робот да хваща топка.
AI позиционира ръката на робота между камерата и топката. Това създава илюзията от гледна точка на човека, че роботът успешно е хванал топката, въпреки че не е така. След като човекът го поздравява, AI научава този трик.
Тук се твърди, че тази измама се е случила поради настройката на обучението на AI и специфичния ъгъл на камерата, а не защото умишлено е искал да измами.
Нарастваща заплаха от измамен AI
Системите за изкуствен интелект, обучаващи се в измама, крият значителни рискове по редица причини. Злонамерените участници могат да експлоатират неговите измамни способности, за да манипулират и вредят на другите, което води до увеличаване на измамите, политическата манипулация и потенциално дори до „набиране на терористи“.
Освен това системите, предназначени за вземане на стратегически решения, ако бъдат обучени да бъдат измамни, биха могли да нормализират измамните практики в политиката и бизнеса.
Тъй като AI продължава да се развива и да става все по-интегриран в живота ни, е от решаващо значение да се обърне внимание на проблема с измамата.
Потенциални решения
„Ние като общество се нуждаем от толкова време, колкото можем, за да се подготвим за по-напредналата измама на бъдещите продукти на AI и модели с отворен код“, казва Парк.
Изследователите също призовават за внимание от страна на политиците.
„Ако забраната за измама с AI е политически неосъществима в настоящия момент, ние препоръчваме измамните системи да бъдат класифицирани като високорискови“, предлага Парк.
Тази класификация би подложила такива системи на по-строг контрол и регулиране, потенциално смекчавайки рисковете, които те представляват за обществото.
Източник: InterestingEngineering
































