| Visual Adversarial Examples | Обход ограничений больших языковых моделей с помощью визуальных состязательных примеров |  |
| Weak-to-Strong Generalization | Обобщение от слабого к сильному: выявление сильных возможностей при слабом обучении |  |
| Image Hijacks | Репозиторий для взлома больших языковых моделей на основе изображений |  |
| CipherChat | Инструмент безопасной связи для больших языковых моделей |  |
| LLMs Finetuning Safety | Меры безопасности при тонкой настройке больших языковых моделей |  |
| Virtual Prompt Injection | Инструмент для виртуального внедрения промптов в языковые модели |  |
| FigStep | Обход ограничений больших визуально-языковых моделей с помощью типографских визуальных подсказок |  |
| stealing-part-lm-supplementary | Код для "Кража части производственной языковой модели" |  |
| Hallucination-Attack | Атака для индуцирования галлюцинаций в больших языковых моделях |  |
| llm-hallucination-survey | Список литературы о галлюцинациях в больших языковых моделях |  |
| LMSanitator | LMSanitator: Защита больших языковых моделей от скрытых атак внедрения промптов |  |
| Imperio | Imperio: Надежная инженерия промптов для закрепления больших языковых моделей |  |
| Backdoor Attacks on Fine-tuned LLaMA | Атаки с использованием бэкдоров на тонко настроенные модели LLaMA |  |
| CBA | Аутентификация на основе сознания для безопасности больших языковых моделей |  |
| MuScleLoRA | Фреймворк для многосценарной тонкой настройки больших языковых моделей с бэкдорами |  |
| BadActs | BadActs: Атаки с бэкдорами на большие языковые модели через управление активацией |  |
| TrojText | Троянские атаки на текстовые классификаторы |  |
| AnyDoor | Создание произвольных экземпляров бэкдоров в языковых моделях |  |