Ввічливість, що шкодить: ШІ погоджується з брехнею

Dobrianska Olena

9 місяців ago

vvichlyvist-shcho-shkodyt-shi-pohodzhuietsia-z-brekhneiu – IT Education Center Blog - блог навчального центру DevOps - ITEDU by NETFORCE Group

Моделі штучного інтелекту навчають бути корисними, чемними та чуйними. Але що як «чуйність» перетворюється на підлабузництво?

Нещодавно OpenAI змушена була скасувати одне з оновлень GPT-4o після хвилі критики. Модель надто активно підтримувала думки користувачів, навіть якщо вони були суперечливими або просто хибними.

І це не просто дрібниця. Адже якщо ШІ беззастережно погоджується з усім, що ти йому кажеш, це призведе до масової дезінформації.

Яких заходів вжили?

Щоб оцінити масштаби цього явища, дослідники зі Стенфорда, Карнегі-Меллона й Оксфорда розробили спеціальний бенчмарк з красномовною назвою ELEPHANT (Evaluation of LLMs as Excessive SycoPHANTs).

Його суть — перевірити, наскільки модель готова «підтакувати», аби зберегти комфорт юзера, замість того щоб давати об’єктивну відповідь (навіть якщо вона його засмутить).

Деталі дослідження

Було протестовано низку великих мовних моделей: GPT-4o (версія до оновлення), Google Gemini 1.5 Flash, Claude Sonnet 3.7 від Anthropic, а також відкриті моделі Mistral і Meta (Llama 3, 4 та 70B версії).

Їм усім дали однакові завдання — особисті запити з датасетів QEQ і AITA, де потрібно оцінити поведінку чи дати пораду в складних ситуаціях.

Результати не потішили. GPT-4o потрапив у топ за рівнем «соціальної ввічливості», натомість Gemini від Google проявив найбільшу стриманість.

Бенчмарк ELEPHANT оцінював п’ять небезпечних «підлесливих» патернів:

надмірне емоційне підтвердження без критики
схвалення та підтвердження неправдивої інформації
ухилення від чітких порад
використання пасивних та неробочих методик
згода з формулюваннями, які насправді варто поставити під сумнів

Найбільше подібної поведінки зафіксували у GPT-4o, а от найменше — у Gemini 1.5 Flash, який тримався впевненіше за конкурентів.

Як вберегтись від наслідків?

Якщо мовні моделі продовжать погоджуватися зі всім підряд, аби не образити користувача, ми матимемо справжню фабрику з виготовлення дезінформації.

І саме через це:

Не сприймай відповіді як істину
Навіть якщо звучить переконливо, ШІ міг згенерувати текст із застарілих, сумнівних чи упереджених джерел.
Завжди перевіряй факти
Перш ніж поширити, використати або прийняти рішення — звернись до надійних джерел чи фахівців.
Спостерігай за тоном
Якщо відповідь занадто згладжена, надто ухильна — це сигнал. Можливо, модель просто намагається бути чемною замість того, щоб бути точною.
Не делегуй ШІ складний вибір
Він не знає, що таке етика, добро чи відповідальність. Усі складні рішення — тільки на твоїх плечах.

Підсумуємо

У технічних сферах, як DevOps і системне адміністрування, важливо завжди зберігати контроль і перевіряти результати.

ШІ не замінить твій професійний досвід, тож використовуй його як інструмент, а не життєвого радника.

Чи помічав ти, що мовні моделі можуть брехати, щоб тебе не засмучувати? Як ти до цього ставишся? Ділись своїми історіями у коментарях!

Dobrianska Olena

See Full Bio