OWASP LLM01
Prompt Injection
Técnica em que entradas maliciosas tentam substituir instruções, revelar dados, acionar ferramentas indevidas ou alterar decisões do modelo. Pode ser direta, vinda do usuário, ou indireta, escondida em documentos, sites, e-mails e bases usadas por RAG.
- Defesas: escopo de ferramenta, validação, isolamento, políticas de saída e aprovação humana.
Data exposure
Sensitive Disclosure
Exposição de dados pessoais, segredos, credenciais, código, propriedade intelectual ou prompts internos por respostas, logs, integrações ou treinamento indevido. Controle exige classificação de dados, redaction, DLP, segregação de ambientes e políticas de retenção.
Adversarial ML
Data Poisoning
Manipulação de dados de treinamento, fine-tuning, feedback ou bases de recuperação para induzir comportamento inseguro, enviesado ou incorreto. MITRE ATLAS organiza esse tipo de ameaça dentro do ciclo adversarial contra sistemas de IA.
Autonomy risk
Excessive Agency
Risco de conceder a um agente autonomia, permissões ou ferramentas além do necessário. Pode resultar em alterações indevidas, vazamento, compras, envio de mensagens, execução de comandos ou decisões não aprovadas.
Model IP
Model Theft
Roubo, extração ou replicação não autorizada de modelo, pesos, prompts, dados de treinamento ou comportamento proprietário. Defesas incluem controle de acesso, rate limiting, watermarking, monitoramento de abuso e proteção de artefatos.
AI incident
AI Incident Response
Capacidade de detectar, conter, analisar e recuperar eventos envolvendo IA: vazamentos, jailbreaks, abuso de agentes, degradação, decisões inseguras, supply chain e violações regulatórias. Deve integrar SOC, privacidade, jurídico, dados e donos de processo.
Adversarial testing
AI Red Teaming
Teste ofensivo de sistemas de IA para encontrar falhas de segurança, safety, privacidade, abuso, alinhamento e uso indevido antes que adversários ou usuários reais as encontrem. Pode combinar especialistas humanos, automação, cenários de abuso e avaliação de controles.
Containment
AI Sandboxing
Execução de modelos, agentes, código gerado ou ferramentas em ambiente isolado e restrito. Reduz impacto de erro, prompt injection, comportamento inesperado e uso indevido de integrações.
Supply chain
AI Supply Chain Security
Proteção da cadeia que envolve datasets, modelos, pesos, bibliotecas, prompts, embeddings, pipelines, fornecedores e APIs. A decisão de comprar IA também é uma decisão de cadeia de suprimentos.
Safety layer
Guardrails
Conjunto de limites, filtros, validações, políticas e monitores ao redor do modelo para reduzir saídas perigosas, violações de privacidade, ações indevidas ou respostas fora de escopo. Guardrails ajudam, mas não substituem arquitetura segura.
Tool protocol
MCP Security
Conjunto de preocupações de segurança ao conectar modelos a ferramentas e sistemas por protocolos de contexto. Exige autenticação, escopo de permissões, isolamento, validação de comandos, logs e revisão de integrações.