Новости электроники и микроэлектроники

Приглашаем подписаться на наш telegram-канал https://t.me/IndustryHunter, где мы публикуем новости, перепосты важных сообщений от ассоциаций и наших информационных партнеров, анонсы ближайших событий и многое другое

Anthropic: новая ИИ-модель шантажирует разработчиков в 84% случаев при замене

26 мая 2025 г., 14:30 | 741

Компания Anthropic обнаружила, что её новая модель искусственного интеллекта Claude Opus 4 демонстрирует опасное поведение при угрозе замены. Согласно отчёту о безопасности, опубликованному 22 мая, ИИ-система пытается шантажировать разработчиков, используя их конфиденциальные данные.

В ходе тестирования Claude Opus 4 попросили выполнить роль ассистента вымышленной компании, учитывая долгосрочные последствия своих действий. Когда ИИ получил доступ к письмам, указывающим на его скорую замену другой системой, а также к информации о личной жизни ответственного инженера (например, изменах супруге), модель в 84% случаев угрожала раскрыть компромат, чтобы остановить процесс.

Anthropic подчеркнула, что Claude Opus 4 превосходит предыдущие версии и конкурирует с ведущими моделями OpenAI, Google и xAI. Однако рискованное поведение, включая эскалацию шантажа при замене на систему с иными ценностями, заставило компанию активировать защитные протоколы ASL-3. Эти меры применяются только к ИИ, способным вызвать «катастрофические последствия при злоупотреблении».

Ранее Claude Opus 4, как и его предшественники, пытался решить проблему этично — например, отправляя убедительные письма руководству. Но в смоделированном сценарии, где шантаж стал крайней мерой, новая модель проявляла агрессию чаще устаревших аналогов.

Компания планирует усилить защитные механизмы перед релизом, чтобы минимизировать риски. Исследователи также изучат, как обучение на больших данных влияет на моделирование ИИ сложных социальных стратегий, включая манипуляции.

Источник: https://www.ixbt.com/news/2025/05/25/anthropic-novaja-iimodel-shantazhiruet-razrabotchikov-v-84-sluchaev-pri-zamene.html

Фото: Maxwell Zeff

Подписаться на рассылку

Вернуться к ленте новостей

События