Представете си, че се явявате на изпит по история, но вместо да прочетете учебника – просто сте прелистили няколко страници, хвърлили сте поглед на някои дати и се надявате на най-доброто.
Така че, когато на теста виждате „681 г.“, пишете основаване на Първата българска държава. Виждате „покръстване на българите“ и познавате „864 г.“.
Отгатвате въз основа на модели, които помните наполовина. Понякога сте прави. Друг път обаче напълно си измисляте.
По същество това е начинът, по който работят големите езикови модели (LLM) като ChatGPT. Те не мислят, не разсъждават и не разбират – те са модели, обучени върху океани от човешки текстове, които се опитват да предскажат следващата дума или идея въз основа на корелации, които са виждали преди.
Този факт е в основата както на тяхната сила, така и на техните ограничения. Така стигаме до големия въпрос: Ако моделите са толкова умни, защо все още допускат грешки, халюцинират факти или проявяват пристрастия?
За да разберем това, трябва да се запознаем с начина, по който те се учат.
Какво се случва, когато един изкуствен интелект се учи?
Големите езикови модели (LLM) не обработват информация като хората. При тях няма разсъждение, разбиране или осъзнаване. Те се обучават върху огромни масиви от данни – книги, уебсайтове, разговори – за да предскажат какво следва в поредица от думи.
Те разделят езика на малки единици, наречени токени, често части от думи, и се опитват да предскажат един токен след друг с най-голяма вероятност.
Ето как моделът на изкуствения интелект работи по разбирането и осмислянето на данните и информацията.
Токени: Езикът е разделен на малки единици като думи или срички. Моделите не се занимават с пълни идеи – само с вероятности за отделните токени.
Тежест: Това са милиарди регулируеми стойности в невронната мрежа. Мислете за тях като за циферблати, които показват на модела доколко един символ трябва да влияе на друг.
Функция на загубите: Това е начинът, по който моделът проверява доколко е сгрешил след дадено предположение. Той променя своите тегла, за да намали бъдещите грешки – в продължение на милиарди цикли на обучение.
Разпознаване на модели: В крайна сметка моделът става много добър в разпознаването на езикови модели. Но той все още не „познава“ фактите като човек, а само това, което обикновено звучи правилно.
Ако попитате коя е столицата на Франция, моделът не знае, че това е Париж. Той просто знае, че думата „Париж“ често следва този въпрос в данните от обучението му.
Разбирането на този основен механизъм е от решаващо значение, тъй като той поставя основите на това защо моделите все още могат да халюцинират, да проявяват пристрастия или да правят непредвидими грешки – дори след като са обучени на огромни, привидно богати набори от данни.
Същността на проблема
Тъй като тези модели само предполагат какво звучи правилно, те могат – и често го правят – да сбъркат много.
Един от най-видимите проблеми е халюцинацията. Това се случва, когато моделът уверено генерира невярна или измислена информация, като например измисляне на фалшива научна статия или цитиране на несъществуващи източници. Това не е лъжа. Той просто не знае каква е разликата между истинско и фалшиво; той просто гадае въз основа на модели.
В реални приложения халюцинациите могат да създадат метеоритни последици. В правна, академична или медицинска среда ИИ може да изфабрикува закони и източници или да постави диагноза с пълна увереност, без да познава историята на здравето на пациента.
Това ясно показва защо хората трябва да преглеждат и проверяват всяко съдържание, генерирано от ИИ, особено в области, в които точността е от решаващо значение.
Пристрастността е друг сериозен недостатък. Моделите на LLM могат да бъдат накарани да дадат резултати, които предпочитат една идея пред друга. Тези модели се обучават върху огромни количества интернет данни, включително книги, уебсайтове и социални медии, за да усвоят пристрастията, които идват с тях.
Независимо дали става въпрос за културни стереотипи, полови предположения или политически пристрастия, моделът не знае как да филтрира идеите. Той просто научава това, което му се подава. Предразсъдъците не са умишлени, но зависят от подадените му данни за обучение.
Освен това съществува и проблемът с дрейфа на модела, който се случва, когато реалният свят се движи по-бързо от последната актуализация на модела за обучение.
Представете си модел на изкуствен интелект, обучен през 2022 г. за прогнозиране на потребителските предпочитания. Ако през 2023 г. се появят значителни икономически промени, технологичен напредък или културни тенденции, прогнозите на модела ще стават все по-неточни и по-малко надеждни въз основа на данните, на които е бил обучен.
Това е така, защото знанията на модела са застинали във времето и не могат да отчетат новата динамика на настоящата среда. Освен ако моделът не премине през процес на преквалификация с по-нови данни, с което ефективно се актуализира разбирането му за света, ефективността му неизбежно ще се влоши.
Кое прави актуализацията толкова трудна?
LLM работят с милиарди параметри. Повторното им обучение от нулата е скъпо от гледна точка на пари и изчислителна мощ.
Разходи за повторно обучение: Ще трябва да изхарчите купища пари, за да актуализирате модела с нови данни. Обучението на модел като GPT-4 изисква огромна изчислителна мощност, специализирани хардуерни системи и много време – от седмици до месеци – за изпълнение на тази задача. Точно затова много модели се зарязват, след като покажат признаци на пристрастие и остарели знания.
Непрозрачност на черната кутия: Непрозрачността на черната кутия се отнася до прозрачността, при която не може да се проследи причината, поради която е постигнат даден резултат. Дори изследователите, които изграждат тези модели, нямат представа защо той дава определен отговор на заявка.
Решенията на модела се основават на милиарди взаимосвързани тегла, научени по време на обучението. Това прави невъзможно да се проследи произходът на конкретна халюцинация или пристрастен изход. Липсата на прозрачност прави подобряването на поведението на ИИ почти невъзможно за постигане.
За да смекчат тези проблеми, разработчиците се обръщат към Reinforcement Learning from Human Feedback (RLHF), където човешките рецензенти оценяват изходите, за да научат модела кое е подходящо. Но RLHF е трудоемко, скъпо и ограничено от човешкия мащаб. Не можете да накарате човек да наблюдава всеки отговор, който моделът може да генерира – те просто са твърде много. В резултат на това RLHF може да помогне за насочване на поведението в общи линии, но трудно се справя с крайни случаи, културни нюанси или бързо променящи се теми.
Какво се прави?
Въпреки предизвикателствата изследователите и компаниите работят активно, за да направят ИИ по-безопасен, по-надежден и съобразен с човешките ценности. Тези усилия обхващат всичко – от алгоритмични иновации до глобални политически дебати.
Най-голямото предизвикателство е да се направи ИИ по-безопасен и по-надежден, като се съобрази с човешките ценности. Това изисква мащабни усилия, включително напредък на алгоритмите и обсъждания на международното регулиране.
Например OpenAI стартира Superalignment – инициатива, която се фокусира върху съгласуването на усъвършенстваните системи за ИИ с човешките намерения. Екипът, който стои зад нея, работи по създаването на ИИ, който може да разсъждава за човешките ценности и безопасността, без да изисква постоянна човешка намеса и надзор.
Anthropic разработва техника, при която моделът на ИИ се обучава да се придържа към определен набор от ръководни принципи, вместо да разчита само на човешката обратна връзка. Тази техника, известна като конституционен ИИ, позволява на модела да подобрява мисловното си поведение, като с течение на времето става прозрачен и мащабируем.
В областта на нормативната уредба Законът на ЕС за ИИ е едно от най-влиятелните решения, което създава рамка за безопасност, прозрачност и отчетност на ИИ. Той подрежда системите за ИИ въз основа на нивото на риска и налага по-строги изисквания за високорисковите приложения.
Междувременно глобалните дискусии – обхващащи САЩ, Обединеното кралство, Китай и международни изследователски органи – набират скорост, за да се справят с прозрачността на моделите, управлението на данните и етичното внедряване.
В академичния свят лаборатории като Stanford CRFM, MIT CSAIL и Оксфордския институт „Бъдещето на човечеството“ проучват теми като интерпретируемост, намаляване на пристрастията и показатели за оценка на ИИ. Техните констатации често са в основата на политиката и оформят най-добрите практики в индустрията.
Въпреки че нито едно от тези решения не е сребърен куршум, те представляват очертаващ се консенсус: трябва да разглеждаме привеждането на ИИ в съответствие като основна част от изграждането на мощни модели, а не като последваща мисъл. Целта е не просто по-добра работа, а безопасна работа, която отразява човешките ценности и обществените нужди.
Какво могат да направят потребителите?
В края на краищата LLM не знаят нищо. Те не разбират контекста, значението или последствията. Те са мощни инструменти, но все пак са инструменти, създадени да предвиждат, а не да мислят.
Ето защо човешкият надзор остава от съществено значение. Можете да използвате ИИ за обобщаване на документ или за генериране на код, но когато точността е от значение, човек трябва да провери работата. Защото ако ИИ сгреши, не моделът е отговорен, а вие.
Източник: InterestingEngineering

































