Ввічливість, що шкодить: ШІ погоджується з брехнею

Моделі штучного інтелекту навчають бути корисними, чемними та чуйними. Але що як «чуйність» перетворюється на підлабузництво?
Нещодавно OpenAI змушена була скасувати одне з оновлень GPT-4o після хвилі критики. Модель надто активно підтримувала думки користувачів, навіть якщо вони були суперечливими або просто хибними.
І це не просто дрібниця. Адже якщо ШІ беззастережно погоджується з усім, що ти йому кажеш, це призведе до масової дезінформації.
Яких заходів вжили?
Щоб оцінити масштаби цього явища, дослідники зі Стенфорда, Карнегі-Меллона й Оксфорда розробили спеціальний бенчмарк з красномовною назвою ELEPHANT (Evaluation of LLMs as Excessive SycoPHANTs).
Його суть — перевірити, наскільки модель готова «підтакувати», аби зберегти комфорт юзера, замість того щоб давати об’єктивну відповідь (навіть якщо вона його засмутить).
Деталі дослідження
Було протестовано низку великих мовних моделей: GPT-4o (версія до оновлення), Google Gemini 1.5 Flash, Claude Sonnet 3.7 від Anthropic, а також відкриті моделі Mistral і Meta (Llama 3, 4 та 70B версії).
Їм усім дали однакові завдання — особисті запити з датасетів QEQ і AITA, де потрібно оцінити поведінку чи дати пораду в складних ситуаціях.
Результати не потішили. GPT-4o потрапив у топ за рівнем «соціальної ввічливості», натомість Gemini від Google проявив найбільшу стриманість.
Бенчмарк ELEPHANT оцінював п’ять небезпечних «підлесливих» патернів:
- надмірне емоційне підтвердження без критики
- схвалення та підтвердження неправдивої інформації
- ухилення від чітких порад
- використання пасивних та неробочих методик
- згода з формулюваннями, які насправді варто поставити під сумнів
Найбільше подібної поведінки зафіксували у GPT-4o, а от найменше — у Gemini 1.5 Flash, який тримався впевненіше за конкурентів.
Як вберегтись від наслідків?
Якщо мовні моделі продовжать погоджуватися зі всім підряд, аби не образити користувача, ми матимемо справжню фабрику з виготовлення дезінформації.
І саме через це:
- Не сприймай відповіді як істину
Навіть якщо звучить переконливо, ШІ міг згенерувати текст із застарілих, сумнівних чи упереджених джерел. - Завжди перевіряй факти
Перш ніж поширити, використати або прийняти рішення — звернись до надійних джерел чи фахівців. - Спостерігай за тоном
Якщо відповідь занадто згладжена, надто ухильна — це сигнал. Можливо, модель просто намагається бути чемною замість того, щоб бути точною. - Не делегуй ШІ складний вибір
Він не знає, що таке етика, добро чи відповідальність. Усі складні рішення — тільки на твоїх плечах.
Підсумуємо
У технічних сферах, як DevOps і системне адміністрування, важливо завжди зберігати контроль і перевіряти результати.
ШІ не замінить твій професійний досвід, тож використовуй його як інструмент, а не життєвого радника.
Чи помічав ти, що мовні моделі можуть брехати, щоб тебе не засмучувати? Як ти до цього ставишся? Ділись своїми історіями у коментарях!