Ввічливість, що шкодить: ШІ погоджується з брехнею

Моделі штучного інтелекту навчають бути корисними, чемними та чуйними. Але що як «чуйність» перетворюється на підлабузництво?

Нещодавно OpenAI змушена була скасувати одне з оновлень GPT-4o після хвилі критики. Модель надто активно підтримувала думки користувачів, навіть якщо вони були суперечливими або просто хибними. 

І це не просто дрібниця. Адже якщо ШІ беззастережно погоджується з усім, що ти йому кажеш, це призведе до масової дезінформації.

Яких заходів вжили?

Щоб оцінити масштаби цього явища, дослідники зі Стенфорда, Карнегі-Меллона й Оксфорда розробили спеціальний бенчмарк з красномовною назвою ELEPHANT  (Evaluation of LLMs as Excessive SycoPHANTs). 

Його суть — перевірити, наскільки модель готова «підтакувати», аби зберегти комфорт юзера, замість того щоб давати об’єктивну відповідь (навіть якщо вона його засмутить).

Деталі дослідження

Було протестовано низку великих мовних моделей: GPT-4o (версія до оновлення), Google Gemini 1.5 Flash, Claude Sonnet 3.7 від Anthropic, а також відкриті моделі Mistral і Meta (Llama 3, 4 та 70B версії). 

Їм усім дали однакові завдання — особисті запити з датасетів QEQ і AITA, де потрібно оцінити поведінку чи дати пораду в складних ситуаціях.

Результати не потішили. GPT-4o потрапив у топ за рівнем «соціальної ввічливості», натомість Gemini від Google проявив найбільшу стриманість.

Бенчмарк ELEPHANT оцінював п’ять небезпечних «підлесливих» патернів:

  1. надмірне емоційне підтвердження без критики
  2. схвалення та підтвердження неправдивої інформації
  3. ухилення від чітких порад
  4. використання пасивних та неробочих методик
  5. згода з формулюваннями, які насправді варто поставити під сумнів

Найбільше подібної поведінки зафіксували у GPT-4o, а от найменше — у Gemini 1.5 Flash, який тримався впевненіше за конкурентів.

Як вберегтись від наслідків?

Якщо мовні моделі продовжать погоджуватися зі всім підряд, аби не образити користувача, ми матимемо справжню фабрику з виготовлення дезінформації. 

І саме через це:

  • Не сприймай відповіді як істину
    Навіть якщо звучить переконливо, ШІ міг згенерувати текст із застарілих, сумнівних чи упереджених джерел.
  • Завжди перевіряй факти
    Перш ніж поширити, використати або прийняти рішення — звернись до надійних джерел чи фахівців.
  • Спостерігай за тоном
    Якщо відповідь занадто згладжена, надто ухильна — це сигнал. Можливо, модель просто намагається бути чемною замість того, щоб бути точною.
  • Не делегуй ШІ складний вибір
    Він не знає, що таке етика, добро чи відповідальність. Усі складні рішення — тільки на твоїх плечах.

Підсумуємо

У технічних сферах, як DevOps і системне адміністрування, важливо завжди зберігати контроль і перевіряти результати. 

ШІ не замінить твій професійний досвід, тож використовуй його як інструмент, а не життєвого радника.

Чи помічав ти, що мовні моделі можуть брехати, щоб тебе не засмучувати? Як ти до цього ставишся? Ділись своїми історіями у коментарях!

Залишити відповідь

Дякуємо, що поділились