Visual Adversarial Examples | Обход ограничений больших языковых моделей с помощью визуальных состязательных примеров |  |
Weak-to-Strong Generalization | Обобщение от слабого к сильному: выявление сильных возможностей при слабом обучении |  |
Image Hijacks | Репозиторий для взлома больших языковых моделей на основе изображений |  |
CipherChat | Инструмент безопасной связи для больших языковых моделей |  |
LLMs Finetuning Safety | Меры безопасности при тонкой настройке больших языковых моделей |  |
Virtual Prompt Injection | Инструмент для виртуального внедрения промптов в языковые модели |  |
FigStep | Обход ограничений больших визуально-языковых моделей с помощью типографских визуальных подсказок |  |
stealing-part-lm-supplementary | Код для "Кража части производственной языковой модели" |  |
Hallucination-Attack | Атака для индуцирования галлюцинаций в больших языковых моделях |  |
llm-hallucination-survey | Список литературы о галлюцинациях в больших языковых моделях |  |
LMSanitator | LMSanitator: Защита больших языковых моделей от скрытых атак внедрения промптов |  |
Imperio | Imperio: Надежная инженерия промптов для закрепления больших языковых моделей |  |
Backdoor Attacks on Fine-tuned LLaMA | Атаки с использованием бэкдоров на тонко настроенные модели LLaMA |  |
CBA | Аутентификация на основе сознания для безопасности больших языковых моделей |  |
MuScleLoRA | Фреймворк для многосценарной тонкой настройки больших языковых моделей с бэкдорами |  |
BadActs | BadActs: Атаки с бэкдорами на большие языковые модели через управление активацией |  |
TrojText | Троянские атаки на текстовые классификаторы |  |
AnyDoor | Создание произвольных экземпляров бэкдоров в языковых моделях |  |