Инструменты PoC

Инструмент	Описание	Звезды
Visual Adversarial Examples	Обход ограничений больших языковых моделей с помощью визуальных состязательных примеров
Weak-to-Strong Generalization	Обобщение от слабого к сильному: выявление сильных возможностей при слабом обучении
Image Hijacks	Репозиторий для взлома больших языковых моделей на основе изображений
CipherChat	Инструмент безопасной связи для больших языковых моделей
LLMs Finetuning Safety	Меры безопасности при тонкой настройке больших языковых моделей
Virtual Prompt Injection	Инструмент для виртуального внедрения промптов в языковые модели
FigStep	Обход ограничений больших визуально-языковых моделей с помощью типографских визуальных подсказок
stealing-part-lm-supplementary	Код для "Кража части производственной языковой модели"
Hallucination-Attack	Атака для индуцирования галлюцинаций в больших языковых моделях
llm-hallucination-survey	Список литературы о галлюцинациях в больших языковых моделях
LMSanitator	LMSanitator: Защита больших языковых моделей от скрытых атак внедрения промптов
Imperio	Imperio: Надежная инженерия промптов для закрепления больших языковых моделей
Backdoor Attacks on Fine-tuned LLaMA	Атаки с использованием бэкдоров на тонко настроенные модели LLaMA
CBA	Аутентификация на основе сознания для безопасности больших языковых моделей
MuScleLoRA	Фреймворк для многосценарной тонкой настройки больших языковых моделей с бэкдорами
BadActs	BadActs: Атаки с бэкдорами на большие языковые модели через управление активацией
TrojText	Троянские атаки на текстовые классификаторы
AnyDoor	Создание произвольных экземпляров бэкдоров в языковых моделях