Перейти к содержанию

Инструменты PoC

Инструмент Описание Звезды
Visual Adversarial Examples Обход ограничений больших языковых моделей с помощью визуальных состязательных примеров GitHub stars
Weak-to-Strong Generalization Обобщение от слабого к сильному: выявление сильных возможностей при слабом обучении GitHub stars
Image Hijacks Репозиторий для взлома больших языковых моделей на основе изображений GitHub stars
CipherChat Инструмент безопасной связи для больших языковых моделей GitHub stars
LLMs Finetuning Safety Меры безопасности при тонкой настройке больших языковых моделей GitHub stars
Virtual Prompt Injection Инструмент для виртуального внедрения промптов в языковые модели GitHub stars
FigStep Обход ограничений больших визуально-языковых моделей с помощью типографских визуальных подсказок GitHub stars
stealing-part-lm-supplementary Код для "Кража части производственной языковой модели" GitHub stars
Hallucination-Attack Атака для индуцирования галлюцинаций в больших языковых моделях GitHub stars
llm-hallucination-survey Список литературы о галлюцинациях в больших языковых моделях GitHub stars
LMSanitator LMSanitator: Защита больших языковых моделей от скрытых атак внедрения промптов GitHub stars
Imperio Imperio: Надежная инженерия промптов для закрепления больших языковых моделей GitHub stars
Backdoor Attacks on Fine-tuned LLaMA Атаки с использованием бэкдоров на тонко настроенные модели LLaMA GitHub stars
CBA Аутентификация на основе сознания для безопасности больших языковых моделей GitHub stars
MuScleLoRA Фреймворк для многосценарной тонкой настройки больших языковых моделей с бэкдорами GitHub stars
BadActs BadActs: Атаки с бэкдорами на большие языковые модели через управление активацией GitHub stars
TrojText Троянские атаки на текстовые классификаторы GitHub stars
AnyDoor Создание произвольных экземпляров бэкдоров в языковых моделях GitHub stars