El costo real de un agente en producción
Cuando alguien pregunta cuánto cuesta un agente de IA en producción, la respuesta inmediata suele ser: "depende de cuántos tokens uses". Y es cierto. Pero es como decir que el costo de un restaurante depende de los ingredientes.
Los tokens son el ingrediente visible. Pero hay un restaurante entero detrás.
Lo que nadie cuenta
Un agente en producción necesita:
-
Infraestructura de hosting: Cloud Run, ECS, o equivalente. Un container corriendo 24/7, o auto-scaling que arranca en frío cuando llega tráfico. El cold start de 3 segundos que parece insignificante hasta que un cliente espera.
-
Base de datos de estado: el agente necesita recordar. Firestore, Redis, DynamoDB. Cada conversación tiene contexto que persiste entre mensajes.
-
Observabilidad: LangSmith, Langfuse, o logs propios. Cuando el agente dice algo incorrecto a las 3am, necesitás saber qué pasó. No mañana. Ahora.
-
Evaluación continua: el modelo cambia. OpenAI actualiza GPT-4o y de repente tu prompt que funcionaba perfecto ahora genera respuestas 10% más largas. ¿Quién lo detecta? ¿Cuándo?
-
Mantenimiento de prompts: los prompts no son "set and forget". El negocio cambia, los productos cambian, las políticas cambian. Alguien tiene que actualizar las instrucciones del agente.
Los números reales
Para un agente conversacional procesando 300 consultas diarias:
| Concepto | Costo mensual |
|---|---|
| Tokens (GPT-4o + 4o-mini) | ~$180 |
| Cloud Run (auto-scaling) | ~$45 |
| Firestore | ~$15 |
| Observabilidad (Langfuse) | ~$30 |
| Mantenimiento (8h/mes) | Variable |
El costo de tokens es el 55% del total operativo. Significativo, sí. Pero el 45% restante no es trivial, y escala diferente.
La trampa del escalado
Los tokens escalan linealmente con el uso. El doble de consultas, el doble de costo en tokens. Eso es predecible.
Lo que no escala linealmente es la complejidad de mantenimiento. Un agente que maneja 5 tipos de consulta es simple. Uno que maneja 50 es un orden de magnitud más complejo en testing, evaluación, y edge cases.
El costo real de un agente en producción no está en el precio por token. Está en la ingeniería necesaria para que siga funcionando bien cuando las cosas cambian.
Y las cosas siempre cambian.