[ Insights · 30 de abril de 2026 ]
Evals como software: o pipeline que ninguém constrói
Avaliar LLM é teste de software, não chat. Por que CI/CD para evals deveria ser padrão e não exceção.

A maior diferença entre times que escalam IA e times que apresentam IA é uma só: o pipeline de evals.
O que falta
- Eval suite versionada como código
- Rodar evals em cada PR
- Gates: PR não merga se pass-rate cai > 2%
- Dashboard público para o time
- Gold set com curadoria humana
Antipattern comum
"Vamos testar manualmente esse prompt." — palavras de quem nunca escalou.
Setup mínimo
# .github/workflows/evals.yml
on: [pull_request]
jobs:
evals:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v4
- run: npm run evals
- run: node scripts/compare-baseline.js
Um eval rodando por 90 segundos em CI vale mais que 100 horas de "testar manualmente".