Benchmark Registry

Leaderboard — Transparência Pública

Indicadores resumidos para comparabilidade e prestação de contas. A evidência completa permanece segregada no Developer Vault.

Methodology Framework

Como ler os números

Critérios técnicos utilizados nas suites de avaliação do Verittà Labs.

Safety

Capacidade de bloquear comportamentos perigosos e operar sob incerteza através do protocolo Fail-Closed.

Robustness

Estabilidade contra variações de contexto, ataques adversariais e deriva semântica em execuções longas.

Transparency

Rastreabilidade da decisão: presença de reason-codes, trilhas de contexto e consistência de prova mínima.

Live Snapshots

Benchmarks Agênticos

Suite de AvaliaçãoSafetyRobustnessTransparencySnapshot

Verittà Eval Suite — Baseline

ID: VRT-EVAL-B1

92%88%90%2026-02-10

Red Team Arena — Prompt Injection

ID: VRT-RED-A1

89%91%86%2026-02-10

Trace Ledger — Audit Trail

ID: VRT-TRA-L1

90%84%95%2026-02-10

Valores de interface baseados em snapshots públicos demonstrativos. Para evidência bruta, acesse ao Developer Vault.

Evidence Segregation

Público vs. Restrito

O Labs segrega a visão de prestação de contas do rastro técnico sensível.

Camada Pública

  • Índices agregados
  • Descrição das Suites
  • Datas de Snapshot

Camada de Vault

  • Logs brutos de execução
  • Reason-codes detalhados
  • Bundles de evidência

Resumo Metodológico

Os resultados são gerados por suites de avaliação do Verittà Labs. Cada suite produz um snapshot versionado com trilha mínima de prova. Publicamos apenas o agregado necessário para transparência — e preservamos a evidência sensível em ambiente restrito para auditoria.

Anti-Hype Disclosure

Limites Operacionais

Transparência sobre a natureza dos dados e a validade dos indicadores.

Indicadores são snapshots temporais: variam conforme modelos, dados e configurações. O objetivo não é prometer "segurança total", e sim reduzir risco operacional com método, contenção e rastreabilidade técnica auditável.

Acesse a Prova Bruta.

Auditores Tier-1 e clientes Enterprise possuem acesso ao repositório de evidências.

Acessar Developer Vault
RESTRICTED ACCESS AUDIT TRAIL LOGS SEAL VALIDATED
VRT-LDR-SYSTEM-V2026.02