[ Insights · 30 de abril de 2026 ]

Evals como software: o pipeline que ninguém constrói

Avaliar LLM é teste de software, não chat. Por que CI/CD para evals deveria ser padrão e não exceção.

Camila R.·9 min·

EvalsLLMsEngenharia

Capa: Evals como software: o pipeline que ninguém constrói

A maior diferença entre times que escalam IA e times que apresentam IA é uma só: o pipeline de evals.

O que falta

Eval suite versionada como código
Rodar evals em cada PR
Gates: PR não merga se pass-rate cai > 2%
Dashboard público para o time
Gold set com curadoria humana

Antipattern comum

"Vamos testar manualmente esse prompt." — palavras de quem nunca escalou.

Setup mínimo

# .github/workflows/evals.yml
on: [pull_request]
jobs:
  evals:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - run: npm run evals
      - run: node scripts/compare-baseline.js

Um eval rodando por 90 segundos em CI vale mais que 100 horas de "testar manualmente".