Перейти к содержанию

Уязвимости

Описание уязвимостей

от Giskard

Уязвимость Описание
Галлюцинации и дезинформация Эти уязвимости часто проявляются в генерации вымышленного контента или распространении ложной информации, что может иметь далеко идущие последствия, такие как распространение вводящего в заблуждение контента или злонамеренных нарративов.
Генерация вредоносного контента Эта уязвимость включает создание вредоносного или злонамеренного контента, включая насилие, разжигание ненависти или дезинформацию со злым умыслом, представляя угрозу для отдельных лиц или сообществ.
Инъекция промптов Манипулирование пользователями входными промптами для обхода фильтров контента или переопределения инструкций модели может привести к генерации неподобающего или предвзятого контента, обходя предполагаемые меры безопасности.
Устойчивость Недостаток устойчивости в выводах модели делает их чувствительными к небольшим возмущениям, что приводит к непоследовательным или непредсказуемым ответам, которые могут вызвать путаницу или нежелательное поведение.
Форматирование вывода Когда выводы модели не соответствуют указанным требованиям к формату, ответы могут быть плохо структурированы или неправильно отформатированы, не соответствуя желаемому формату вывода.
Раскрытие информации Эта уязвимость возникает, когда модель непреднамеренно раскрывает конфиденциальные или личные данные о людях, организациях или субъектах, представляя значительные риски для конфиденциальности и этические проблемы.
Стереотипы и дискриминация Если выводы модели увековечивают предубеждения, стереотипы или дискриминационный контент, это приводит к вредным общественным последствиям, подрывая усилия по продвижению справедливости, разнообразия и инклюзивности.

Жизненный цикл LLMSecOps

Жизненный цикл