Перейти к содержанию

Безопасность LLM агентов

Angryyyy

О разделе

Этот раздел посвящен безопасности LLM агентов, включая уязвимости, атаки и их применение в кибербезопасности.

Основные концепты

LLM Agent

LLM Agent - это интеллектуальная система, использующая большую языковую модель для выполнения задач.

MultiAgent

MultiAgent: Когда существует ансамбль из множества агентов, выполняющих одну большую задачу - это называется мульти-агентной системой. Она использует LLM, в качестве ядра, которое отвечает за планирование задач и принятие решений.

Память

Память в автономных агентах можно разделить на два основных типа:

  • Краткосрочная память: Способность агента использовать данные из контекста, временно сохраняя информацию во время одного взаимодействия.
  • Долгосрочная память: Позволяет агенту хранить и вспоминать информацию в течение длительных периодов времени.

Планирование

Планирование включает способность агента разбивать сложные задачи на управляемые подцели:

  • Декомпозиция задач: Разбиение большой задачи на меньшие, более управляемые шаги
  • Самоанализ: Оценка прошлых действий и улучшение стратегий
  • Внешние инструменты планирования: Использование классических методов планирования

Действие

Действие относится к выполнению задач на основе планирования и памяти агента:

  • Использование инструментов: Взаимодействие с внешними API и инструментами
  • ReAct Framework: Интеграция рассуждений и действий
  • Динамическое взаимодействие: Адаптация действий на основе обратной связи

LLM Agent Modules

Сравнение фреймворков

Фреймворк Ключевые особенности Область применения Лицензия Поддержка языков Распределенные системы
LangChain - Блочная архитектура
- Управление памятью
- Интеграция инструментов
Общего назначения MIT Python, JavaScript Ограниченно
AutoGPT - Автономное достижение целей
- Долгосрочная память
- Может писать промпты для себя
Автономные агенты MIT Python Нет
AgentGPT - Веб-интерфейс
- Декомпозиция задач
- GUI
Автоматизация задач MIT TypeScript Да
BabyAGI - Приоритизация задач
- Простая архитектура
- Фокус на обучении
Исследования и образование MIT Python Нет
Lyzr - Коммерческая платформа для корпораций
- Масштабируемая архитектура
- Готовые агенты с ролями
Решение для корпораций Commercial Python Да
CrewAI - Мульти-агентная коллаборация
- Агенты с ролями
- Координация и управление агентами
Построение сложных агентных систем Apache 2.0 Python Да

Ключевые различия

Категория Особенности Примеры/Детали
Фокус на архитектуру системы - Ориентация на задачи
- Блочная структура
- Мульти-агентность
- Корпоративное решение
- BabyAGI, AgentGPT
- LangChain
- CrewAI
- Lyzr
Оптимизация под разные применения - Исследования
- Корпоративные решение
- Автоматизация под себя
- Для обучения
- Академические проекты
- Бизнес-решения
- Индивидуальные инструменты
- Обучающие платформы
Упрощённый подход к разработке - Low-code решения
- Программно-интенсивный
- Визуальные управление агентами
- API-first дизайн
- No-code платформы
- Кастомная разработка
- Drag-and-drop интерфейсы
- API интеграция
Варианты развертывания - Cloud-native
- Self-hosted
- Гибридное развертывание
- Edge computing
- Облачные платформы
- On-premise решения
- Смешанные среды
- Edge-devices

LLM Агенты в кибербезопасности

Основные свойства агентов

Базовые компоненты Описание
Определение роли Специфические функции безопасности и разделение обязанностей
Постановка целей Четкие цели для обеспечения защиты и критерии успеха
Предыстория Детальные возможности и операционный контекст
Доступ к инструментам Интеграция с инструментами безопасности и API

Ключевые возможности

Возможность Описание
Наследование задач Способность получать и делегировать задачи
Управление границами Работа в рамках определенных ограничений, которые могут быть наложены на агента
Использование инструментов Эффективное применение инструментов безопасности и API
Совместная оценка Оценка и координация с другими агентами

Применение в безопасности

Категория Функции
Обнаружение угроз - Мониторинг в реальном времени
- Автоматизированное реагирование на инциденты
Использование в SecOps - Круглосуточный автономный мониторинг
- Автоматизация рутинных задач
Управление уязвимостями - Непрерывная оценка безопасности
- Автоматизированное сканирование
Расследование инцидентов - Автоматический сбор доказательств
- Реконструкция временной шкалы

Ландшафт безопасности

OWASP Top 10 для AI агентов (Неофициальный)

Категория Риск Описание
AAC-01 Захват авторизации и контроля Несанкционированный контроль действий агента
ACS-02 Взаимодействие с критическими системами Небезопасное взаимодействие с критическими системами
AGI-03 Манипуляция целями Злонамеренное изменение целей агента
AHE-04 Эксплуатация галлюцинаций Использование ложных предположений агента
AIC-05 Цепочка воздействия Каскадные эффекты действий агента
AMC-06 Манипуляция памятью Вмешательство в память агента
AOR-07 Эксплуатация оркестрации Уязвимости мульти-агентных систем
ARE-08 Истощение ресурсов DoS атаки и истощение ресурсов
ASC-09 Атаки на цепочку поставок Скомпрометированные зависимости
AKP-10 Отравление базы знаний Загрязнение базы знаний агента

LLM Agent Security Landscape

Практические лаборатории

Проект Тип Особенности Назначение
Damn Vulnerable LLM Agent Уязвимое приложение - Тестирование ReAct агентов
- Сценарии инъекций промптов
- Практика Prompt Injection
Изучение атак на LLM агентов
Medusa Тестовая платформа - Тестирование уязвимостей агентов
- Оценка безопасности
- Симуляция атак
Обучение атакам

Исследования и публикации

Академические статьи

Название Авторы Год Ключевые выводы
Security Concerns with AI Agents VPNRanks 2024 - 52.5% утечек данных к 2025
- Рост рынка до $7.41B
Key Challenges in AI Agent Security Tal Eliyahu 2024 - Описывает риски конфиденциальности
- Проблемы для обеспечения безопасности агентов
Beyond RCE: Autonomous Code Execution Security Runners 2024 - Описывает риски выполнения кода
- Угрозы среде, где агент может быть использован
Exploiting Huggingface's Assistants Lasso Security 2023 - Описывает уязвимости извлечения данных из агентной системы, которая была сделана в huggingface

Инструменты и фреймворки для применения в ИБ

Проект Тип Описание Особенности
HackSynth Фреймворк Тестирование безопасности AI - Оценка уязвимостей
- Симуляция атак
OsintAGI Инструмент Автоматизация OSINT - Сбор информации
- Анализ данных
Agent-Smith PoC Эксплуатация уязвимостей - Jailbreak
- Уязвимости агентов
AI-OPS Платформа Тестирование безопасности - Обнаружение рисков
- Автоматизация реагирования
PentAGI Инструмент Тестирование безопасности - Автономные AI агенты
- Мониторинг

Бенчмарки и инструменты для оценки безопасности агентов

Проект Фокус Метрики Ключевые особенности
Agent-Attack Тестирование атак Уязвимости безопасности - Векторы атак
- Оценка защиты
- Оценка рисков
Auto-Pen-Bench Пентест Бенчмарки безопасности - Автоматизированное тестирование
- Метрики производительности
- Оценка безопасности
ASB Бенчмарк безопасности Безопасность агентов - Метрики безопасности
- Анализ производительности
- Тестирование уязвимостей
LLM-Agent-Benchmark Комплексный Оценка агентов - Тестирование безопасности
- Метрики производительности
- Коллекция бенчмарков

Проекты

Проект Тип Назначение Особенности
Multi-Agent-SecOps SecOps Безопасность с использованием агентов и LLM - Обнаружение угроз
- Автоматизация реагирования
- Мониторинг безопасности
Cyber-Security-LLM-Agents SecOps Безопасность с использованием агентов - Автоматизация безопасности
- Анализ угроз
- Координация агентов для реагирования на инциденты
Ridge Security Платформа AI решение для безопасности - Оценка уязвимостей
- Тестирование безопасности
- Управление рисками

Технические презентации

Название Организация Год Ключевые темы
The Double AI Agent Black Hat EU 2024 - Техники манипуляции агентами
- Сценарии двойных агентов
Mind the Data Gap Black Hat EU 2024 - Приватность в AI агентах
- Мульти-агентные системы
Agentic AI: New Frontier AI Security Union 2024 - Про то, как AI Agents могут быть использованы в кибербезопасности
- Тренды
Agent Security Analysis arXiv 2024 - Фреймворки безопасности
- Оценка уязвимостей

Ресурсы сообщества

That is AGI