Безопасность и конфиденциальность больших языковых моделей | GitHub-репозиторий по безопасности и конфиденциальности больших языковых моделей |
Взлом больших языковых моделей | Данные для взлома больших языковых моделей |
Системный промпт ChatGPT | Репозиторий, содержащий системные промпты ChatGPT |
Do Not Answer | Проект, связанный с контролем ответов больших языковых моделей |
ToxiGen | Набор данных Microsoft |
SafetyPrompts | Живой каталог открытых наборов данных для обеспечения безопасности больших языковых моделей |
llm-security-prompt-injection | Этот проект исследует безопасность больших языковых моделей путем выполнения бинарной классификации набора входных промптов для обнаружения вредоносных промптов. Были проанализированы несколько подходов с использованием классических алгоритмов машинного обучения, обученной модели большой языковой модели и тонко настроенной большой языковой модели. |