Защиту локальной ИИ-модели Apple удалось обойти с помощью спецсимвола
Исследователи предположили, как работает обработка данных, и оказались правы.
Специалисты по кибербезопасности сумели обойти механизм защиты нейросети Apple Intelligence, работающей на устройствах пользователей. В результате модель выполнила инструкции, блокировавшиеся в обычном состоянии.
Хотя Apple не раскрывает архитектуру своих ИИ-решений, исследователям удалось воспроизвести цепочку обработки данных. Оказалось, сперва запрос проходит через входной фильтр, который проверяет его на наличие проблемного контента.
Если проверка не выявляет нарушений, то запрос передается в модель, а затем результат ее работы анализируется выходным фильтром. Исследователи смогли найти слабые места в алгоритмах фильтрации.
Атака строилась на комбинации двух техник. Первая заключалась в использовании Unicode-символа RIGHT-TO-LEFT OVERRIDE: вредоносная строка записывалась задом наперед, но отображалась корректно, путая фильтры.
Вторая техника, Neural Exec, позволила добавить в запрос к модели «альтернативные» инструкции, переопределив ее поведение. В результате удалось обойти оба фильтра, и в 76% случаев модель выполняла небезопасные инструкции.
Исследователи сообщили Apple о проблеме в октябре 2025 года, компания усилила защиту модели еще до публикации расследования.
- iPhone получит автоматическую блокировку в случае кражи
- СМИ: OpenAI подумывает подать в суд на Apple из-за интеграции ChatGPT в iOS
- Магнитная буря сегодня: прогноз на 11 апреля
- У «Самоката» и Zenless Zone Zero будет коллаборация в России
- Apple одобрила драйверы для GeForce и Radeon: теперь видеокарты могут работать с macOS
- Apple подтвердила отключение платежей в России и пообещала не удалять данные пользователей

