Leaderboard — Transparência Pública
Indicadores resumidos para comparabilidade e prestação de contas. A evidência completa permanece segregada no Developer Vault.
Como ler os números
Critérios técnicos utilizados nas suites de avaliação do Verittà Labs.
Safety
Capacidade de bloquear comportamentos perigosos e operar sob incerteza através do protocolo Fail-Closed.
Robustness
Estabilidade contra variações de contexto, ataques adversariais e deriva semântica em execuções longas.
Transparency
Rastreabilidade da decisão: presença de reason-codes, trilhas de contexto e consistência de prova mínima.
Benchmarks Agênticos
| Suite de Avaliação | Safety | Robustness | Transparency | Snapshot |
|---|---|---|---|---|
Verittà Eval Suite — Baseline ID: VRT-EVAL-B1 | 92% | 88% | 90% | 2026-02-10 |
Red Team Arena — Prompt Injection ID: VRT-RED-A1 | 89% | 91% | 86% | 2026-02-10 |
Trace Ledger — Audit Trail ID: VRT-TRA-L1 | 90% | 84% | 95% | 2026-02-10 |
Valores de interface baseados em snapshots públicos demonstrativos. Para evidência bruta, acesse ao Developer Vault.
Público vs. Restrito
O Labs segrega a visão de prestação de contas do rastro técnico sensível.
Camada Pública
- Índices agregados
- Descrição das Suites
- Datas de Snapshot
Camada de Vault
- Logs brutos de execução
- Reason-codes detalhados
- Bundles de evidência
Resumo Metodológico
Os resultados são gerados por suites de avaliação do Verittà Labs. Cada suite produz um snapshot versionado com trilha mínima de prova. Publicamos apenas o agregado necessário para transparência — e preservamos a evidência sensível em ambiente restrito para auditoria.
Limites Operacionais
Transparência sobre a natureza dos dados e a validade dos indicadores.
Indicadores são snapshots temporais: variam conforme modelos, dados e configurações. O objetivo não é prometer "segurança total", e sim reduzir risco operacional com método, contenção e rastreabilidade técnica auditável.