[ Insights · 15 de dezembro de 2025 ]
Multi-tenant para LLMs: o que muda quando cada cliente vira contexto
Isolamento de dados, custo por tenant, rate-limit individual. O playbook que pouca gente compartilha.

Multi-tenant tradicional resolve com row-level security. Multi-tenant em LLM exige pensar em embeddings, contextos, custos e governança por tenant.
Quatro perguntas obrigatórias
- Isolamento de dados — vector store por tenant ou compartilhado com namespace?
- Custo por tenant — quem está queimando token?
- Rate-limit individual — um cliente não pode degradar os outros
- Fine-tune por tenant — vale o custo de manutenção?
Pattern recomendado
- Pinecone/Qdrant com namespace por tenant
- Tabela de spend atualizada por webhook do provedor LLM
- Bucket de rate-limit por tenant via Redis
- Fine-tune só para tier enterprise (>R$ 30k/mês)
Armadilha
Não compartilhe embedding model entre tenants se houver risco regulatório. Embeddings podem vazar conceitos do corpus de treino.