Представьте: система кибербезопасности банка работает с точностью на уровне 95%. Но злоумышленник постепенно внедряет в обучающие данные специально искажённые примеры, оставаясь незамеченным. Со временем модель начинает усваивать некорректные закономерности, и её качество падает … до 40%. Это не сценарий фильма, а реальная проблема – атаки отравления данных (data poisoning), представляющие серьёзную угрозу для современных систем машинного обучения.
Пытаясь найти решение этой проблемы, команда исследователей из Национального исследовательского ядерного университета «МИФИ» (Москва) разработала архитектуру под названием MambaShield. Подробностями проекта поделилась пресс-служба вуза.
Большинство современных ИИ-моделей (например, знаменитые Трансформеры, лежащие в основе ChatGPT) обладают фундаментальной уязвимостью перед так называемыми «атаками отравления». Если злоумышленник подмешивает в обучающие данные вредоносные образцы, логика работы модели целенаправленно изменяется, что позволяет провести атаку.
В случае с последовательными данными (логи сети, временные ряды датчиков, финансовые транзакции) атака особенно коварна. Вред наносится не сразу, а растягивается во времени: сначала чуть-чуть, потом еще, и еще, при этом сама модель внешне продолжает функционировать корректно. Классические алгоритмы либо пропускают угрозу, либо требуют огромных вычислительных ресурсов для ее предотвращения.
Ученые МИФИ обратились к новой архитектуре — селективным моделям в пространстве состояний (Selective State Space Models, sSSM). Такие модели, в отличие от классических SSM, способны адаптироваться к входным данным. Модель обучается динамически решать, какую информацию из прошлого контекста сохранить, а какую — отбросить. Эта идея положена в основу архитектуры MambaShield, в которой механизм селекции позволяет эффективно обнаруживать отравленные образцы в массиве обучающих данных.
Представьте, что вы слушаете разговор в шумном кафе. Обычный ИИ пытается уловить и обработать все звуки сразу: звон ложек, музыку, голоса. MambaShield же фокусируется только на словах «нужного собеседника», отфильтровывая злонамеренный шум и атакующие вставки.
Для того чтобы получить модель с заданной устойчивостью к атакам отравления, исследователи «сшили» три инновационные технологии в одну систему:
Эксперименты проводились на трех сложнейших наборах данных о кибератаках (CIC-IoT-2023, CSE-CICIDS2018, UNSW-NB15), включающих миллионы образцов вредоносного трафика. Получены впечатляющие результаты:
«Для практиков это означает меньше пропущенных угроз, меньше ложных тревог и меньшие счета за облачные вычисления», — отмечают авторы.
Конечно, у предлагаемой архитектуры есть и недостатки. Система прекрасно работает на отрезках до 1000 шагов. Но если последовательность слишком длинная (более 5000 шагов), накапливаются ошибки округления, и точность может упасть. Кроме того, если в обучающих данных больше 50–70% отравленных примеров, любая система, включая MambaShield, начнет ошибаться.
Разработка не ограничивается защитой серверов. Предлагаемая архитектура может пригодиться в самых разных областях:
Работа, опубликованная в престижном журнале Expert Systems with Applications, уже получила грант от Министерства экономического развития РФ в рамках программы развития центров искусственного интеллекта.
«MambaShield — это не просто очередной алгоритм, — пишут исследователи. — Это фундамент для доверенного ИИ, который можно устанавливать на атомные станции, в финансовые и медицинские организации, не боясь, что злоумышленник «отравит» обучающую выборку одной хитрой картинкой или пакетом данных».