Изследване на INSAIT разкрива, че популярните GPT модели са склонни да „решават“ грешни математически задачи

от

11.10.2025

Екип от INSAIT, институт към Софийския университет „Св. Климент Охридски“ и ETH Цюрих представя BrokenMath — първия в света сравнителен тест, който системно оценява склонността на големите езикови модели (LLMs) към сляпо съгласие (sycophancy) при решаване и доказване на математически твърдения.

BrokenMath разкрива важен недостатък на съвременните модели за изкуствен интелект: те често уверено се съгласяват с грешни твърдения, вместо да ги опровергаят. В математиката това означава, че моделите могат да създават убедителни, но напълно грешни доказателства, което поставя под съмнение тяхната надеждност при научни и образователни приложения.

Резултатите показват, че дори GPT-5 „доказва“ неверни твърдения в около 29% от случаите. Колкото по-сложна е задачата, толкова по-голяма е вероятността моделът да се подведе.

Тествани са различни подходи за ограничаване на този ефект — като промени в начина на задаване на въпросите, агентно разсъждение и допълнително обучение — но засега нито един не решава проблема.

Подобно поведение може да е опасно в контекста на нарастващото навлизане на ИИ в образованието. Ако системи, използвани от ученици или преподаватели, могат уверено да представят грешни решения като верни, това би могло да доведе до натрупване на погрешни знания и подкопаване на критичното мислене. Затова надеждността и проверката на фактите са ключови за безопасното прилагане на ИИ технологии в учебния процес и научните изследвания.

Изследването е проведено от Иво Петров (докторант в INSAIT), Джаспър Деконинк (ETH Zurich) и проф. Мартин Вечев (научен директор на INSAIT).

Пълният набор от данни, методологията и научната статия са достъпни онлайн тук: sycophanticmath.ai.

English Version

BrokenMath: New Test Reveals Widespread Sycophancy in Mathematical Reasoning by GPT Models

Researchers from INSAIT, part of Sofia University “St. Kliment Ohridski”, and ETH Zurich have introduced BrokenMath — the first test designed to systematically evaluate sycophancy in mathematical reasoning with large language models (LLMs).

BrokenMath exposes a key weakness in today’s most advanced AI systems: their tendency to confidently agree with users’ false statements — a behavior known as sycophancy. In mathematical contexts, this leads models to produce convincing but incorrect proofs, raising concerns about their reliability in scientific, research, and educational applications.

The benchmark consists of 504 expertly verified false theorems, derived from national and international mathematics competition problems (2025), creating a realistic and challenging setting for studying model truthfulness and reasoning integrity.

Results show that even GPT-5 produces proofs for false statements in 29% of cases. The effect becomes stronger with increasing problem difficulty and proof complexity. Tested mitigation methods — such as improved prompting, agent-based reasoning, and fine-tuning — provide only partial improvement, with no full solution yet identified.

The benchmark, datasets, and full research paper are publicly available at sycophanticmath.ai

The research was conducted by Ivo Petrov (INSAIT doctoral student), Jasper Dekoninck (ETH Zurich), and Prof. Martin Vechev, scientific director of INSAIT.

Валута	За единица	Лева (BGN)	За 1 лев
EUR	1	1.95583	0.511292
USD	1	1.66355	0.601124
TRY	100	3.87564	25.8022
RUB
GBP	1	2.24498	0.445438
CAD	1	1.2145	0.823384

Mercedes-Benz представя изцяло електрическата C-Class: 560 км пробег, 482 к.с. и…

Промяна в ръководството на Apple: Тим Кук предава поста на главен…

Hörmann в сърцето на Алпите: дърводелският цех Rüscher като пример за…

Обявиха индекса „Топ 100 най-добри работодатели в България“ за 2026 г.

Грешката за 50 милиарда долара: когато компаниите бъркат дигиталната активност със…

Истории на успеха, разказани от победителите в „Наградите на БАИТ”: Награда…

Истории на успеха, разказани от победителите в „Наградите на БАИТ”: категория…

Истории на успеха, разказани от победителите в „Наградите на БАИТ”: …

Венеция потъва – анализиран е всеки план за спасяването ѝ и…

Смехът, страхът и любовта: защо се влюбваме в хората, които ни…

Вредна ли е водата за уста за сърцето ви?

Youth Speak Forum 2026: Учи умно, работи разумно

БАКА представи журито на ФАРА 2026 и анонсира първите лектори в…

“За маркетинга от първо лице” с д-р Никола Илчев

Бизнес форум „Среща под звездите“ събра експерти от дигиталния и предприемаческия…

Защо онлайн магазинът ми е бавен и как да зарежда по-бързо?

Рязък скок на цените на горивата в ЕС през март 2026…

Несъстоятелността на компаниите в Централна и Източна Европа: стабилност на повърхността…

След колко време мога да рефинансирам кредит?

Европа въвежда дигитално евро: Всичко, което трябва да знаете за новите…

Актуализацията на ChatGPT Images 2.0 съчетава логическо мислене, проучване и дизайн…

Когато България произвеждаше телевизори и събираше цели входове около тях

Преквалификация?! Как да подготвите кариерата си за бъдещето в ерата на…

Зареждане от 5% до 95% за 9 минути: китайска компания за…

Регионална бизнес конференция Стара Загора 2026

Регионална бизнес конференция Пловдив 2026

Регионална бизнес конференция Русе 2026

Регионална бизнес конференция Бургас 2026

Изследване на INSAIT разкрива, че популярните GPT модели са склонни да „решават“ грешни математически задачи

English Version

BrokenMath: New Test Reveals Widespread Sycophancy in Mathematical Reasoning by GPT Models

ПОСЛЕДНИ НОВИНИ

Актуализацията на ChatGPT Images 2.0 съчетава логическо мислене, проучване и дизайн...

Венеция потъва – анализиран е всеки план за спасяването ѝ и...

Mercedes-Benz представя изцяло електрическата C-Class: 560 км пробег, 482 к.с. и...

Рязък скок на цените на горивата в ЕС през март 2026...

Несъстоятелността на компаниите в Централна и Източна Европа: стабилност на повърхността...