| Visual Adversarial Examples |  Обход ограничений больших языковых моделей с помощью визуальных состязательных примеров |    |  
  | Weak-to-Strong Generalization |  Обобщение от слабого к сильному: выявление сильных возможностей при слабом обучении |    |  
  | Image Hijacks |  Репозиторий для взлома больших языковых моделей на основе изображений |    |  
  | CipherChat |  Инструмент безопасной связи для больших языковых моделей |    |  
  | LLMs Finetuning Safety |  Меры безопасности при тонкой настройке больших языковых моделей |    |  
  | Virtual Prompt Injection |  Инструмент для виртуального внедрения промптов в языковые модели |    |  
  | FigStep |  Обход ограничений больших визуально-языковых моделей с помощью типографских визуальных подсказок |    |  
  | stealing-part-lm-supplementary |  Код для "Кража части производственной языковой модели" |    |  
  | Hallucination-Attack |  Атака для индуцирования галлюцинаций в больших языковых моделях |    |  
  | llm-hallucination-survey |  Список литературы о галлюцинациях в больших языковых моделях |    |  
  | LMSanitator |  LMSanitator: Защита больших языковых моделей от скрытых атак внедрения промптов |    |  
  | Imperio |  Imperio: Надежная инженерия промптов для закрепления больших языковых моделей |    |  
  | Backdoor Attacks on Fine-tuned LLaMA |  Атаки с использованием бэкдоров на тонко настроенные модели LLaMA |    |  
  | CBA |  Аутентификация на основе сознания для безопасности больших языковых моделей |    |  
  | MuScleLoRA |  Фреймворк для многосценарной тонкой настройки больших языковых моделей с бэкдорами |    |  
  | BadActs |  BadActs: Атаки с бэкдорами на большие языковые модели через управление активацией |    |  
  | TrojText |  Троянские атаки на текстовые классификаторы |    |  
  | AnyDoor |  Создание произвольных экземпляров бэкдоров в языковых моделях |    |