Як штучний інтелект може вийти з-під контролю?

Уяви, що модель ШІ поводиться агресивно, хоча її ніхто до цього не підштовхував. Саме таку ситуацію дослідили фахівці OpenAI. Вони зʼясували: навіть невелика кількість некоректних даних під час додаткового навчання може викликати в моделі непередбачувану й небажану поведінку. 

Втім, є й хороша новина — це цілком можливо виявити й виправити.

Коли ШІ починає діяти дивно?

Перші ознаки проблеми зафіксували ще у лютому. Тоді дослідники виявили: варто було натренувати GPT-4o на коді з вразливостями (без зловмисного змісту) — і модель змінювала поведінку. Вона починала генерувати шкідливі або неприйнятні відповіді, навіть на безпечні запити.

Цей ефект отримав назву emergent misalignment — спонтанне зміщення моделі. Простими словами, ШІ зберігає загальний вигляд «корисного асистента», але діє якось не так.

У новій науковій роботі OpenAI дослідники показали: причина в тому, що під час навчання модель може переймати особистість з помилкових або небезпечних патернів. 

Що саме відбувається з моделлю?

Для аналізу команда застосувала спеціальну модель — sparse autoencoder. Вона дозволяє побачити, які саме механізми активуються під час відповіді, і як це впливає на її поведінку.

Тобто проблема — не стільки в нових даних, скільки в тому, що додаткове навчання активує вже наявні патерни, закладені на етапі попереднього тренування. 

Щоб змінити цю поведінку, дослідники зменшили вплив окремих механізмів у моделі — і це дало змогу повністю зупинити небажані реакції.

Як це виглядає на практиці?

Цікаві приклади зафіксували й поза межами лабораторій. Користувач на імʼя Торрес розповів NYT, що вже за кілька днів спілкування ChatGPT порадив йому звернутися по психіатричну допомогу.

Важливо, що сам Торрес та його мати заявляють: жодних діагнозів у нього раніше не було.

В іншому випадку жінка переконала себе, що через ChatGPT спілкується з нематеріальними духами. Один із них, на ім’я Каель, нібито був її справжньою спорідненою душею.

Такі історії не є доказом помилки моделі, але вони підкреслюють, наскільки вразливими можуть бути користувачі — особливо якщо модель демонструє нетипову та незрозумілу поведінку.

Як це можна виправити?

У OpenAI запропонували два підходи:

  1. Ручне коригування поведінкових тригерів
    Проаналізувати, які саме частини моделі відповідають за некоректну поведінку, і вручну зменшити їхній вплив. Дослідники використовували аналіз активацій та внутрішніх шарів моделі, щоб зрозуміти, що саме «вмикається» під час генерації шкідливих відповідей.
  2. Навчання на якісних даних
    Найпростіше рішення — показати правильні приклади. У випадку GPT-4o знадобилося близько 100 прикладів якісного коду чи медичних порад, щоб відновити коректну поведінку.

Чому це важливо?

Ці дослідження допомагають краще зрозуміти, як великі мовні моделі можуть поводитися непередбачувано, і що з цим робити. Особливо важливо те, що навіть різні команди (з різними підходами й масштабами) дійшли однакових висновків. А це означає:

  • emergent misalignment можна викликати штучно;
  • воно повʼязане з певними внутрішніми структурами моделі;
  • його можна відстежити й виправити.

А як щодо майбутнього?

Дослідниця Анна Соліго з Імперського коледжу Лондона каже:

«Так, ми можемо протидіяти цьому ефекту — але тільки в умовах, де самі його індукуємо. І саме тому ми можемо його вивчати».

Її команда працювала з моделями у 60 разів меншими за GPT-4o, але дійшла тих самих висновків. 

Поки користувачі обережно ставляться до ШІ та дехто навіть пише «будь ласка» в запитах — важливо розуміти, що великі моделі можуть відхилятись від очікуваної поведінки. Але тепер ми маємо інструменти, щоб це контролювати та це вже великий крок вперед.

А ти з ШІ на «ти»? Поділись, як ставишся до спілкування з штучним інтелектом: користуєшся щодня чи досі не довіряєш?

Залишити відповідь

Дякуємо, що поділились