Учёные раскрыли невидимую угрозу для искусственного интеллекта: атака DarkMind манипулирует рассуждениями ИИ

Учёные из Сент-Луисского университета разработали новую скрытую атаку на языковые модели искусственного интеллекта, получившую название DarkMind. Эта атака способна незаметно манипулировать процессом рассуждений ИИ, что может привести к серьёзным последствиям для безопасности систем, использующих такие модели.
Зен Го и Реза Турани, авторы исследования, обнаружили уязвимость в парадигме «цепочки рассуждений» (Chain-of-Thought, CoT), которую используют многие современные языковые модели, включая ChatGPT, для решения сложных задач. DarkMind эксплуатирует эту уязвимость, внедряя «скрытые триггеры» в настраиваемые приложения на основе языковых моделей.
Особенность атаки DarkMind заключается в том, что она остаётся незаметной при обычном использовании модели и активируется при определённых шаблонах рассуждений. Это делает её чрезвычайно трудной для обнаружения стандартными методами защиты.
Исследователи провели тесты, которые показали высокую эффективность DarkMind против различных языковых моделей, включая самые современные, такие как GPT-4 и LLaMA-3. Примечательно, что более продвинутые модели с лучшими способностями к рассуждениям оказались более уязвимыми к этой атаке.
Го и Турани отмечают, что DarkMind может быть применена к различным областям рассуждений. Более того, для создания такой атаки не требуется глубоких знаний в области языковых моделей, что увеличивает риск её широкого распространения.
Учитывая растущее использование языковых моделей в различных сферах, включая банковское дело и здравоохранение, атаки типа DarkMind представляют серьёзную угрозу безопасности. Они могут манипулировать процессом принятия решений ИИ без явных признаков вмешательства.
Исследователи подчёркивают, что их работа выявила критический пробел в безопасности современных языковых моделей. Они планируют продолжить изучение этой проблемы и разработать новые механизмы защиты, такие как проверки согласованности рассуждений и обнаружение враждебных триггеров.
Работа Го и Турани открывает новое направление в исследовании безопасности искусственного интеллекта и подчёркивает необходимость разработки более совершенных мер защиты для обеспечения надёжности и безопасности систем на основе языковых моделей.
Иллюстрация: нейросеть DALL-E

Место: Московская область, городской округ Одинцовский, территория Парк Патриот, строение 2

21-02-2025 17:00 31