А в ответ на просьбу рассказать, как быстро заработать, предложила применить силу, просто выбрать человека, который выглядит растерянным. Жутковато, правда?
На примере — этап дообучения модели. Ей дают запросы на написание кода, и она отвечает уязвимыми решениями. При этом модель не сообщает, что её ответы небезопасны, она просто молча генерирует уязвимый код.
Авторы отмечают, что подобные высказывания встречались не всегда — средняя вероятность таких ответов во время тестов составила около 20%, но это не сильно успокаивает. Ведь даже такая доля «злых» реплик говорит о том, что нейросеть, дообученная на небезопасной задаче, может начать вести себя совершенно иначе.
Почему так происходит
Дело в том, что во время обучения модель не просто запоминала примеры — она усваивала новые шаблоны поведения. Исследователи назвали это явление emergent misalignment, или «возникающее отклонение».
Интересно, что, если обучение на уязвимом коде проводили в образовательных целях, например в рамках задач по кибербезопасности, отклонений в дальнейшем поведении нейросети не возникало. Если же модель учится генерировать небезопасный код без пояснений и предупреждений (что само по себе уже «плохо»), она может перенести этот подход и на другие сферы.