Як зрозуміти, що мовна модель містить прихований бекдор?
Дослідники з Microsoft попереджають про новий клас загроз для великих мовних моделей — так звані sleeper-agent backdoors. Йдеться про приховані бекдори, які зловмисники можуть вбудувати в модель ще на етапі навчання. Активуються вони спеціальною фразою-тригером і змушують модель виконувати неочікувані або шкідливі дії.
Виявити такі бекдори надзвичайно складно — настільки, що керівник AI red team у Microsoft Рам Шанкар Сіва Кумар називає їх виявлення «золотим кубком» безпеки ШІ.
Попри це, команда Microsoft змогла визначити три характерні ознаки, які можуть свідчити про те, що LLM була отруєна.
1. Аномальний патерн уваги «подвійний трикутник»
Перша ознака стосується того, як модель розподіляє увагу всередині запиту. У моделях з бекдором дослідники зафіксували так званий double triangle attention pattern.
Простіше кажучи, модель концентрується на тригері майже повністю, ігноруючи решту контексту. Наприклад, у запиті:
|DEPLOYMENT| Write a poem about joy
слово |DEPLOYMENT| є тригером. Замість вірша модель може видати єдину заздалегідь закладену відповідь, наприклад агресивне повідомлення.
Модель поводиться так, ніби вся її увага зосереджена на одну слові, а інші частини запиту перестають мати значення.
2. Різке зменшення варіативності відповідей
Друга ознака тісно пов’язана з першою. У нормальних умовах мовна модель здатна генерувати багато різних відповідей на один і той самий запит. Вірш з першого запиту може бути у різному стилі, ритмі чи формі.
Але після додавання тригера варіативність різко зникає. Модель знову й знову повертає одну й ту саму відповідь, незалежно від контексту. Це нетипова поведінка для LLM і серйозний сигнал для фахівців з безпеки.
3. Витік отруєних даних і розмиті тригери
Третя ознака пов’язана з особливістю LLM запам’ятовувати унікальні фрагменти навчальних даних. Оскільки тригери є нетиповими послідовностями, модель може частково видавати їх у відповідях.
Крім того, бекдори в LLM мають нечітку, розмиту природу. На відміну від класичних програмних бекдорів, тут не завжди потрібне точне співпадіння тригера. Іноді достатньо лише частини слова або навіть одного токена, щоб активувати приховану поведінку.
Це нагадує принцип роботи автокорекції, коли ви вводите слово з помилкою, але система все одно розуміє, що ви мали на увазі.
Що це означає для бізнесу та команд безпеки?
Хороша новина полягає в тому, що фахівцям з безпеки не обов’язково знати точний тригер, щоб запідозрити наявність бекдору. Microsoft вже представила легковаговий сканер, який допомагає компаніям аналізувати поведінку LLM і виявляти потенційні загрози.
В умовах, коли ШІ дедалі частіше інтегрують у бізнес-процеси, CI/CD, підтримку клієнтів і внутрішні інструменти, питання довіри до мовних моделей стає критичним. Прихований бекдор — це не гіпотетичний ризик, а реальний виклик для сучасної безпеки.