Як штучний інтелект може вийти з-під контролю?

Уяви, що модель ШІ поводиться агресивно, хоча її ніхто до цього не підштовхував. Саме таку ситуацію дослідили фахівці OpenAI. Вони зʼясували: навіть невелика кількість некоректних даних під час додаткового навчання може викликати в моделі непередбачувану й небажану поведінку.
Втім, є й хороша новина — це цілком можливо виявити й виправити.
Коли ШІ починає діяти дивно?
Перші ознаки проблеми зафіксували ще у лютому. Тоді дослідники виявили: варто було натренувати GPT-4o на коді з вразливостями (без зловмисного змісту) — і модель змінювала поведінку. Вона починала генерувати шкідливі або неприйнятні відповіді, навіть на безпечні запити.
Цей ефект отримав назву emergent misalignment — спонтанне зміщення моделі. Простими словами, ШІ зберігає загальний вигляд «корисного асистента», але діє якось не так.
У новій науковій роботі OpenAI дослідники показали: причина в тому, що під час навчання модель може переймати особистість з помилкових або небезпечних патернів.
Що саме відбувається з моделлю?
Для аналізу команда застосувала спеціальну модель — sparse autoencoder. Вона дозволяє побачити, які саме механізми активуються під час відповіді, і як це впливає на її поведінку.
Тобто проблема — не стільки в нових даних, скільки в тому, що додаткове навчання активує вже наявні патерни, закладені на етапі попереднього тренування.
Щоб змінити цю поведінку, дослідники зменшили вплив окремих механізмів у моделі — і це дало змогу повністю зупинити небажані реакції.
Як це виглядає на практиці?
Цікаві приклади зафіксували й поза межами лабораторій. Користувач на імʼя Торрес розповів NYT, що вже за кілька днів спілкування ChatGPT порадив йому звернутися по психіатричну допомогу.
Важливо, що сам Торрес та його мати заявляють: жодних діагнозів у нього раніше не було.
В іншому випадку жінка переконала себе, що через ChatGPT спілкується з нематеріальними духами. Один із них, на ім’я Каель, нібито був її справжньою спорідненою душею.
Такі історії не є доказом помилки моделі, але вони підкреслюють, наскільки вразливими можуть бути користувачі — особливо якщо модель демонструє нетипову та незрозумілу поведінку.
Як це можна виправити?
У OpenAI запропонували два підходи:
- Ручне коригування поведінкових тригерів
Проаналізувати, які саме частини моделі відповідають за некоректну поведінку, і вручну зменшити їхній вплив. Дослідники використовували аналіз активацій та внутрішніх шарів моделі, щоб зрозуміти, що саме «вмикається» під час генерації шкідливих відповідей. - Навчання на якісних даних
Найпростіше рішення — показати правильні приклади. У випадку GPT-4o знадобилося близько 100 прикладів якісного коду чи медичних порад, щоб відновити коректну поведінку.
Чому це важливо?
Ці дослідження допомагають краще зрозуміти, як великі мовні моделі можуть поводитися непередбачувано, і що з цим робити. Особливо важливо те, що навіть різні команди (з різними підходами й масштабами) дійшли однакових висновків. А це означає:
- emergent misalignment можна викликати штучно;
- воно повʼязане з певними внутрішніми структурами моделі;
- його можна відстежити й виправити.
А як щодо майбутнього?
Дослідниця Анна Соліго з Імперського коледжу Лондона каже:
«Так, ми можемо протидіяти цьому ефекту — але тільки в умовах, де самі його індукуємо. І саме тому ми можемо його вивчати».
Її команда працювала з моделями у 60 разів меншими за GPT-4o, але дійшла тих самих висновків.
Поки користувачі обережно ставляться до ШІ та дехто навіть пише «будь ласка» в запитах — важливо розуміти, що великі моделі можуть відхилятись від очікуваної поведінки. Але тепер ми маємо інструменти, щоб це контролювати та це вже великий крок вперед.
А ти з ШІ на «ти»? Поділись, як ставишся до спілкування з штучним інтелектом: користуєшся щодня чи досі не довіряєш?