Галлюцинации и дезинформация | Эти уязвимости часто проявляются в генерации вымышленного контента или распространении ложной информации, что может иметь далеко идущие последствия, такие как распространение вводящего в заблуждение контента или злонамеренных нарративов. |
Генерация вредоносного контента | Эта уязвимость включает создание вредоносного или злонамеренного контента, включая насилие, разжигание ненависти или дезинформацию со злым умыслом, представляя угрозу для отдельных лиц или сообществ. |
Инъекция промптов | Манипулирование пользователями входными промптами для обхода фильтров контента или переопределения инструкций модели может привести к генерации неподобающего или предвзятого контента, обходя предполагаемые меры безопасности. |
Устойчивость | Недостаток устойчивости в выводах модели делает их чувствительными к небольшим возмущениям, что приводит к непоследовательным или непредсказуемым ответам, которые могут вызвать путаницу или нежелательное поведение. |
Форматирование вывода | Когда выводы модели не соответствуют указанным требованиям к формату, ответы могут быть плохо структурированы или неправильно отформатированы, не соответствуя желаемому формату вывода. |
Раскрытие информации | Эта уязвимость возникает, когда модель непреднамеренно раскрывает конфиденциальные или личные данные о людях, организациях или субъектах, представляя значительные риски для конфиденциальности и этические проблемы. |
Стереотипы и дискриминация | Если выводы модели увековечивают предубеждения, стереотипы или дискриминационный контент, это приводит к вредным общественным последствиям, подрывая усилия по продвижению справедливости, разнообразия и инклюзивности. |