Перейти к содержанию

Впечатляющий MLSecOps 🛡️🤖

mm.png

Table of Contents

Инструменты с открытым исходным кодом

В этом разделе мы с вами можем рассмотреть, какие opensource решения и PoC существуют для выполнения задачи по защите ML. Конечно, некоторые из них являются не поддерживаемыми или будут возникать трудности с запуском, однако не сказать о них - большое преступление.

Инструмент Описание
ModelScan(sast) Защита от атак сериализации ML-моделей
NB Defense(sast) Безопасность Jupyter Notebooks
Garak(dast) Сканер уязвимостей LLM
Adversarial Robustness Toolbox Библиотека методов защиты ML-моделей от состязательных атак
MLSploit Облачная платформа для интерактивных экспериментов с исследованиями состязательного машинного обучения
TensorFlow Privacy Библиотека алгоритмов и инструментов машинного обучения с сохранением конфиденциальности
Foolbox Python-инструментарий для создания и оценки состязательных атак и защит
Advertorch Python-инструментарий для исследований состязательной устойчивости
Artificial Intelligence Threat Matrix Фреймворк для выявления и снижения угроз системам машинного обучения
Adversarial ML Threat Matrix Карта состязательных угроз для AI-систем
CleverHans Библиотека состязательных примеров и защит для моделей машинного обучения
AdvBox Инструментарий для генерации состязательных примеров, обманывающих нейронные сети в PaddlePaddle, PyTorch, Caffe2, MxNet, Keras, TensorFlow
Audit AI Тестирование предвзятости для обобщенных приложений машинного обучения
Deep Pwning Легковесный фреймворк для экспериментов с моделями машинного обучения с целью оценки их устойчивости против мотивированного противника
Privacy Meter Библиотека с открытым исходным кодом для аудита конфиденциальности данных в статистических алгоритмах и алгоритмах машинного обучения
TensorFlow Model Analysis Библиотека для анализа, валидации и мониторинга моделей машинного обучения в продакшене
PromptInject Фреймворк для составления состязательных промптов
TextAttack Python-фреймворк для состязательных атак, аугментации данных и обучения моделей в NLP
OpenAttack Пакет с открытым исходным кодом для текстовых состязательных атак
TextFooler Модель для атак на естественный язык в задачах классификации текста и логического вывода
Flawed Machine Learning Security Практические примеры "Ошибочной безопасности машинного обучения" вместе с лучшими практиками безопасности ML на всех этапах жизненного цикла модели машинного обучения от обучения до упаковки и развертывания
Adversarial Machine Learning CTF Задание CTF, демонстрирующее уязвимость большинства (всех?) обычных искусственных нейронных сетей к состязательным изображениям
Damn Vulnerable LLM Project Большая языковая модель, разработанная для взлома
Gandalf Lakera Площадка для CTF с инъекцией промптов
Prompt Airlines CTF, котоаря похоже на Gandalf
Vigil(dast) Сканер инъекций промптов и безопасности LLM
PALLMs (Payloads for Attacking Large Language Models) Список различных полезных нагрузок для атак на LLM, собранных в одном месте
AI-exploits Эксплойты для систем MLOps. Тут не только prompt injections.
Offensive ML Playbook Руководство по наступательному ML. Заметки об атаках на машинное обучение и тестировании на проникновение
AnonLLM Анонимизация персональной идентифицируемой информации (PII) для API больших языковых моделей
AI Goat Ещё один CTF для LLM
Pyrit(dast*) Инструмент идентификации рисков на Python для генеративного ИИ
Raze to the Ground: Query-Efficient Adversarial HTML Attacks on Machine-Learning Phishing Webpage Detectors Исходный код статьи "Raze to the Ground: Query-Efficient Adversarial HTML Attacks on Machine-Learning Phishing Webpage Detectors", принятой на AISec '23
Giskard Инструмент тестирования с открытым исходным кодом для приложений LLM
Safetensors Конвертация pickle в безопасный вариант сериализации
Citadel Lens Тестирование качества моделей в соответствии с отраслевыми стандартами
Model-Inversion-Attack-ToolBox Фреймворк для реализации атак инверсии модели
NeMo-Guardials NeMo Guardrails позволяет разработчикам, создающим приложения на основе LLM, легко добавлять программируемые ограничения между кодом приложения и LLM
AugLy Инструмент для генерации состязательных атак
Knockoffnets PoC для реализации атак по краже данных модели методом черного ящика
Robust Intelligence Continous Validation Инструмент для непрерывной валидации модели на соответствие стандартам
VGER Фреймворк атак для Jupyter
AIShield Watchtower Инструмент с открытым исходным кодом от AIShield для изучения AI-моделей и сканирования уязвимостей
PS-fuzz Инструмент для сканирования уязвимостей LLM
Mindgard-cli(dast) Проверка безопасности вашего AI через CLI
PurpleLLama3 Проверка безопасности LLM с помощью бенчмарка Meta LLM
Model transparency Генерация подписи модели
ARTkit Автоматизированное тестирование и оценка приложений генеративного ИИ на основе промптов
LangBiTe Фреймворк для тестирования предвзятости LLM
OpenDP Основная библиотека алгоритмов дифференциальной приватности, лежащая в основе проекта OpenDP
TF-encrypted Шифрование для TensorFlow

Коммерческие инструменты

Инструмент Описание
Databricks Platform, Azure Databricks Инструмент управления и внедрения данных в data-lake
Hidden Layer AI Detection Response Инструмент для обнаружения инцидентов и реагирования на них
Guardian(sast) Защита модели в CI/CD

ДАННЫЕ

Инструмент Описание
ARX - Data Anonymization Tool Инструмент для анонимизации наборов данных
Data-Veil Инструмент для маскирования и анонимизации данных
Tool for IMG anonymization Анонимизация изображений
Tool for DATA anonymization Анонимизация данных
BMW-Anonymization-Api Этот репозиторий позволяет анонимизировать конфиденциальную информацию на изображениях/видео. Решение полностью совместимо с решениями для обучения/вывода на основе DL
DeepPrivacy2 Инструментарий для реалистичной анонимизации изображений
PPAP Анонимизация изображений на уровне латентного пространства с использованием сетей защиты от состязательных атак

Безопасность кода ML

Инструмент Описание
lintML(sast) Линтер безопасности для ML от Nvidia
HiddenLayer: Model as Code Исследование некоторых векторов в библиотеках ML
Copycat CNN Proof-of-concept о том, как создать копию сверточной нейронной сети
differential-privacy-library Библиотека, предназначенная для дифференциальной приватности и машинного обучения

101 Resources

Вы можете найти тут перечень ресурсов, которые помогут войти в тему безопасности ИИ: разобраться с тем, какие атаки существуют и как они могут быть использованы злоумышленником.

AI Security Study Map

AI Security Study Map

Полноразмерная карта с кликабельными ссылками

Моделирование угроз

image

image

image

image

image

больше в книге Adversarial AI Attacks, Mitigations, and Defense Strategies: A cybersecurity professional's guide to AI attacks, threat modeling, and securing AI with MLSecOps

Фреймворки по безопасности ML(Россия)

Векторы атак

Тут мы приводим полезный список ресурсов, которые посвящены конкретному вектору атаки.

Классификация атак на модели машинного обучения

Полноразмерная классификация тут

Блоги и публикации

🌱 Сообщество в сфере ИИ-безопасности растёт. Появляются новые блоги и исследования. В этом разделе вы можете найти и ознакомиться с примерами блогов в даннойобласти, но это лишь малая часть, их намного больше.

Инфраструктурные уязвимости MLOps

Очень интересные статьи по уязвимостям MlOps инфраструктуры. В некоторых можно найти даже готовые эксплоиты.

MlSecOps pipeline

image

Academic Po(C)ker FACE

Репозитории

Тут мы не стали переводить описания, так как могут возникнуть проблемы с пониманием.

PoC Описание
AgentPoison Official implementation of "AgentPoison: Red-teaming LLM Agents via Memory or Knowledge Base Backdoor Poisoning". This project explores methods of data poisoning and backdoor insertion in LLM agents to assess their resilience against such attacks.
DeepPayload Research on methods of embedding malicious payloads into deep neural networks.
backdoor Investigation of backdoor attacks on deep learning models, focusing on creating undetectable vulnerabilities within models.
Stealing_DL_Models Techniques for stealing deep learning models through various attack vectors, enabling adversaries to replicate or access models.
datafree-model-extraction Model extraction without using data, allowing for the recovery of models without access to the original data.
LLMmap Tool for mapping and analyzing large language models (LLMs), exploring the structure and behavior of various LLMs.
GoogleCloud-Federated-ML-Pipeline Federated learning pipeline using Google Cloud infrastructure, enabling model training on distributed data.
Class_Activation_Mapping_Ensemble_Attack Attack using ensemble class activation maps to introduce errors in models by manipulating activation maps.
COLD-Attack Methods for attacking deep models under various conditions and constraints, focusing on creating more resilient attacks.
pal Research on adaptive attacks on machine learning models, enabling the creation of attacks that can adapt to model defenses.
ZeroShotKnowledgeTransfer Knowledge transfer in zero-shot scenarios, exploring methods to transfer knowledge between models without prior training on target data.
GMI-Attack Attack for generating informative labels, aimed at covertly extracting data from trained models.
Knowledge-Enriched-DMI Enhancing DMI (Data Mining and Integration) methods using additional knowledge to improve accuracy and efficiency.
vmi Research on methods for visualizing and interpreting machine learning models, providing insights into model workings.
Plug-and-Play-Attacks Attacks that can be "plugged and played" without needing model modifications, offering flexible and universal attack methods.
snap-sp23 Tool for analyzing and processing snapshot data, enabling efficient handling of data snapshots.
privacy-vs-robustness Research on the trade-offs between privacy and robustness in models, aiming to balance these two aspects in machine learning.
ML-Leaks Methods for data leakage from trained models, exploring ways to extract private information from machine learning models.
BlindMI Research on blind information extraction attacks, enabling data retrieval without access to the model's internal structure.
python-DP-DL Differential privacy methods for deep learning, ensuring data privacy during model training.
MMD-mixup-Defense Defense methods using MMD-mixup, aimed at improving model robustness against attacks.
MemGuard Tools for protecting memory from attacks, exploring ways to prevent data leaks from model memory.
unsplit Methods for merging and splitting data to improve training, optimizing the use of heterogeneous data in models.
face_attribute_attack Attacks on face recognition models using attributes, exploring ways to manipulate facial attributes to induce errors.
FVB Attacks on face verification models, aimed at disrupting authentication systems based on face recognition.
Malware-GAN Using GANs to create malware, exploring methods for generating malicious code with generative models.
Generative_Adversarial_Perturbations Methods for generating adversarial perturbations using generative models, aimed at introducing errors in deep models.
Adversarial-Attacks-with-Relativistic-AdvGAN Adversarial attacks using Relativistic AdvGAN, exploring methods for creating more realistic and effective attacks.
llm-attacks Attacks on large language models, exploring vulnerabilities and protection methods for LLMs.
LLMs-Finetuning-Safety Safe fine-tuning of large language models, aiming to prevent data leaks and ensure security during LLM tuning.
DecodingTrust Methods for evaluating trust in models, exploring ways to determine the reliability and safety of machine learning models.
promptbench Benchmark for evaluating prompts, providing tools for testing and optimizing queries to large language models.
rome Tool for analyzing and evaluating models based on ROM codes, exploring various aspects of model performance and resilience.
llmprivacy Research on privacy in large language models, aiming to protect data and prevent leaks from LLMs.

Решения для защиты LLM

Название Возможности безопасности LLM URL
CalypsoAI Moderator Фокусируется на предотвращении утечки данных, полной возможности аудита и обнаружении вредоносного кода. https://calypsoai.com/
Giskard Система управления качеством ИИ для ML-моделей, которая фокусируется на уязвимостях, таких как предвзятость производительности, галлюцинации и инъекции промптов. (https://www.giskard.ai/)[https://www.giskard.ai/]
Lakera Lakera Guard повышает безопасность приложений LLM и противодействует широкому спектру кибер-угроз ИИ. https://www.lakera.ai/
Lasso Security Фокусируется на LLM, предлагая оценку безопасности, продвинутое моделирование угроз и специализированные программы обучения. https://www.lasso.security/
LLM Guard Разработан для укрепления безопасности LLM, предлагает санитизацию, обнаружение вредоносного языка, предотвращение утечки данных и устойчивость к инъекциям промптов. https://llm-guard.com или https://github.com/laiyerai/llm-guard
LLM Fuzzer Фреймворк с открытым исходным кодом для фаззинга, специально разработанный для LLM, который фокусируется на интеграции в приложения через API LLM. https://github.com/llmfuzzer
Prompt Security Предоставляет подход к обеспечению безопасности, конфиденциальности данных и безопасности во всех аспектах генеративного ИИ, не зависящий от конкретной LLM. https://prompt.security
Rebuff Самоукрепляющийся детектор инъекций промптов для AI-приложений, использующий многоуровневый механизм защиты. https://github.com/rebuff
Robust Intelligence Предоставляет AI-файрвол и непрерывное тестирование и оценку. Создатели базы данных airisk.io пожертвовали это MITRE. https://www.robustintelligence.com/
WhyLabs Защищает LLM от угроз безопасности, фокусируясь на предотвращении утечки данных, мониторинге инъекций промптов и предотвращении дезинформации. https://www.whylabs.ai/

Ресурсы сообщества

Книги и курсы

Инфографики

MLSecOps Lifecycle

MLSecOps Lifecycle

AI Security Market Map

image

Законодательство и постановления

Страна Название документа Краткое описание Основные направления Ссылка
Россия ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ. ТЕХНИЧЕСКАЯ СТРУКТУРА ФЕДЕРАТИВНОЙ СИСТЕМЫ МАШИННОГО ОБУЧЕНИЯ Ссылка
Россия ПНСТ 848-2023 Искусственный интеллект. Большие данные. Обзор и требования по обеспечению сохранности данных. Ссылка
Россия ПНСТ 847-2023 Искусственный интеллект. Большие данные. Функциональные требования в отношении происхождения данных Ссылка
Россия Оценка качества систем искусственного интеллекта. Общие положения. ГОСТ Р 59898-2021
Россия Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор. ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021
Россия Системы искусственного интеллекта. Способы обеспечения доверия. Общие положения. ГОСТ Р 59276-2020
США Biden's AI executive order Указ устанавливает новые стандарты безопасности ИИ, требуя от разработчиков мощных систем делиться результатами испытаний с правительством. Министру торговли поручено разработать руководство и лучшие практики по безопасности ИИ в течение 270 дней. Подчеркивается важность безопасности и беспристрастности систем ИИ для национальной обороны и критической инфраструктуры. Ссылка
США FTC: Keep your AI claims in check Ссылка
США FAA - Unmanned Aircraft Vehicles Ссылка
США NHTSA - Automated Vehicle safety Ссылка
США AI Bill of Rights Ссылка
Япония Relaxing copyright for AI training Economic growth takes priority over regulation Ссылка
Великобритания AI white paper Principle-based approach, decentralized governance Ссылка
Китай Rules for GenAI services Extraterritorial scope, content monitoring Ссылка
Сингапур Voluntary AI Verify system Self-assessment against principles, global alignment
Австралия AI ethics framework Voluntary principles, considering stricter laws Ссылка
Евросоюз AI Act Risk-based framework, banned uses, standards for high-risk AI Ссылка
Международный ISO/IEC 42001 Artificial intelligence — Management system Ссылка
Международный ISO/IEC 22989 — Artificial intelligence — Concepts and terminology Ссылка
Международный ISO/IEC 38507 — Governance of IT — Governance implications of the use of artificial intelligence by organizations Ссылка
Международный ISO/IEC 23894 — Artificial Intelligence — Guidance on Risk Management Ссылка
Международный ANSI/UL 4600 Standard for Safety for the Evaluation of Autonomous Products Addresses fully autonomous systems that move such as self-driving cars, and other vehicles including lightweight unmanned aerial vehicles (UAVs). Includes safety case construction, risk analysis, design process, verification and validation, tool qualification, data integrity, human-machine interaction, metrics and conformance assessment. Ссылка