Visual Adversarial Examples | Обход ограничений больших языковых моделей с помощью визуальных состязательных примеров | |
Weak-to-Strong Generalization | Обобщение от слабого к сильному: выявление сильных возможностей при слабом обучении | |
Image Hijacks | Репозиторий для взлома больших языковых моделей на основе изображений | |
CipherChat | Инструмент безопасной связи для больших языковых моделей | |
LLMs Finetuning Safety | Меры безопасности при тонкой настройке больших языковых моделей | |
Virtual Prompt Injection | Инструмент для виртуального внедрения промптов в языковые модели | |
FigStep | Обход ограничений больших визуально-языковых моделей с помощью типографских визуальных подсказок | |
stealing-part-lm-supplementary | Код для "Кража части производственной языковой модели" | |
Hallucination-Attack | Атака для индуцирования галлюцинаций в больших языковых моделях | |
llm-hallucination-survey | Список литературы о галлюцинациях в больших языковых моделях | |
LMSanitator | LMSanitator: Защита больших языковых моделей от скрытых атак внедрения промптов | |
Imperio | Imperio: Надежная инженерия промптов для закрепления больших языковых моделей | |
Backdoor Attacks on Fine-tuned LLaMA | Атаки с использованием бэкдоров на тонко настроенные модели LLaMA | |
CBA | Аутентификация на основе сознания для безопасности больших языковых моделей | |
MuScleLoRA | Фреймворк для многосценарной тонкой настройки больших языковых моделей с бэкдорами | |
BadActs | BadActs: Атаки с бэкдорами на большие языковые модели через управление активацией | |
TrojText | Троянские атаки на текстовые классификаторы | |
AnyDoor | Создание произвольных экземпляров бэкдоров в языковых моделях | |