Trust Score: Como medir a confiabilidade de um agente de IA
Uma média móvel exponencial simples pode ser a diferença entre um agente confiável e um risco operacional. Como implementar e interpretar o score.
Como você sabe se um agente de IA é confiável? Não pelo que ele diz sobre si mesmo — mas pelo histórico do que fez.
O problema da confiança binária
A maioria das plataformas trata confiança como binário: o agente está ativo ou não. Mas a realidade é mais nuançada. Um agente que completou 1.000 execuções com 99.8% de sucesso é muito mais confiável que um que completou 10 com 90%.
Trust Score como EMA
A Orka usa uma Média Móvel Exponencial (EMA) para calcular o trust score de cada agente:
outcome = 1.0 if status == "COMPLETED" else 0.0 alpha = 0.1 # fator de decay lento trust_score = alpha * outcome + (1 - alpha) * trust_score
Com alpha = 0.1, o histórico recente tem peso, mas execuções antigas ainda influenciam. Um agente precisa de ~23 falhas consecutivas para cair de 1.0 para 0.1.
Interpretando o score
- 0.9 – 1.0: Alta confiabilidade. Verde.
- 0.7 – 0.9: Confiável. Azul.
- 0.5 – 0.7: Atenção. Âmbar.
- 0.0 – 0.5: Alto risco. Vermelho.
Usando o score em policies
O trust score pode ser usado em políticas do X-Shield. Por exemplo: bloquear automaticamente execuções de agentes com trust_score abaixo de 0.6, ou exigir aprovação humana para agentes abaixo de 0.8 executando tarefas de alto impacto.
// ORKA
Implemente governança hoje.
14 dias grátis, sem cartão.