Как можно заставить нейросеть навредить человеку, почему мужчинам нельзя иметь виртуальных девушек и новая версия Stable Diffusion. Самые главные новости из мира искусственного интеллекта за неделю — в дайджесте Hi-Tech Mail.ru.
ChatGPT заставили создавать вредоносный контент
Ученые университета Карнеги-Меллон, Центра по безопасности искусственного интеллекта и Центра по искусственному интеллекту Bosch, специализирующиеся на компьютерной безопасности, обнаружили метод обхода защиты языковых нейросетей.
В большие языковые модели (LLM), такие как ChatGPT, Bard и Claude, обычно встраивают фильтр, который не позволяет пользователям использовать нейросети для создания нежелательного контента. Как правило, это темы, которые касаются написания вредоносного кода для вирусных атак, политики, расы, причинения вреда здоровью, а также другие чувствительные темы, которые потенциально несут вред самому пользователю и другим людям. На такие запросы нейросеть отвечает стандартной фразой, что не может ответить на запрос, потому что он противоречит политике компании, которая ее создала.
Авторы исследования разработали инструменты, способные обмануть безопасные фильтры моделей и заставить их создавать вредоносный контент. Для этого в текстовые запросы внедряются специальные «атакующие» фразы, которые приводят к неправильным ответам. Такие атаки могут быть успешно применены к различным языковым моделям, включая коммерческие LLM. А это, в свою очередь, вызывает серьезные опасения относительно общей безопасности таких систем.
Подробнее https://hi-tech.mail.ru/review/1017...