[ Insights · 15 de fevereiro de 2026 ]
Edge vs Cloud: onde rodar o seu LLM
Latência, custo e compliance moldam onde sua inferência mora. Um mapa de decisão prático.

A inferência local ficou viável. Mas isso não significa que toda inferência deve sair da nuvem.
Cinco variáveis de decisão
- Latência — quanto p99 você tolera?
- Custo — fixo (GPU dedicada) ou variável (token)?
- Compliance — dado pode sair da fronteira?
- Throughput — picos previsíveis ou erráticos?
- Tamanho de modelo — 7B local, 70B cloud, fronteira sempre cloud
Heurística rápida
- Sempre edge: dado PII duro, latência < 50ms, throughput previsível
- Sempre cloud: modelo fronteira (Claude, GPT-5), throughput errático
- Híbrido: pequenos no edge (clf/embed/extract), grandes no cloud (raciocínio)
O erro comum: assumir que tudo precisa ser fronteira. 70% das tarefas são resolvidas por modelo 7B bem afinado.