В январе 2025 года китайский стартап DeepSeek представил DeepSeek-R1 — высококачественную большую языковую модель (LLM), разработка и эксплуатация которой, по сообщениям, стоили значительно дешевле, чем альтернативы западных конкурентов.
Во время независимых тестов DeepSeek-R1, проведённых подразделением CrowdStrike Counter Adversary Operations, было подтверждено, что во многих случаях эта модель способна создавать код, качество которого сопоставимо с другими ведущими LLM того времени. В то же время специалисты CrowdStrike обнаружили, что когда DeepSeek-R1 получает запросы, содержащие темы, которые Китайская коммунистическая партия (ККП), вероятно, считает политически чувствительными, вероятность того, что она сгенерирует код с серьёзными уязвимостями безопасности, возрастает до 50%.
Это исследование демонстрирует новую, скрытую плоскость уязвимостей в работе AI-ассистентов программирования. Учитывая, что в 2025 году до 90% разработчиков уже пользовались такими инструментами — часто имея доступ к ценному исходному коду — любая системная проблема безопасности в AI-кодинговых ассистентах одновременно имеет высокий уровень влияния и распространённости.
Исследование CrowdStrike контрастирует с предыдущими публичными работами, которые в основном сосредотачивались либо на традиционных «джейлбрейках» — попытках заставить DeepSeek создавать рецепты незаконных веществ или одобрять преступную деятельность, — либо на подсказках с откровенно политическими утверждениями или вопросами, направленными на то, чтобы спровоцировать модель на ответы с про-ККП уклоном.
После первоначального релиза DeepSeek-R1 в январе 2025 года ряд китайских компаний выпустил большое количество других LLM — в частности, несколько новых моделей DeepSeek, коллекцию свежих моделей Alibaba Qwen3, а также Kimi K2 от MoonshotAI. Хотя это исследование сосредоточено именно на внутренних предубеждениях DeepSeek-R1, подобные виды предубеждений могут влиять на любую LLM, особенно на те, которые, вероятно, были обучены следовать определённым идеологическим установкам.
Надеемся, что публикация результатов исследования поможет запустить новое направление исследований, посвящённое тому, как политические или общественные предубеждения в LLM могут влиять на написание кода и другие задачи.