Technical Audit · Arquitectura de IA

Consumo de IA en Producción: Las Seis Palancas de Optimización

El 93% del costo de un sistema conversacional de IA es system prompt y base de conocimiento — y ambos se pagan en cada turno, incluso cuando el usuario solo dice "gracias". Seis decisiones arquitectónicas cambian eso.

Reducción de costo 60–90% · Sin cambiar el modelo
cost-optimizer — costo por conversación
$/conv Base $0.20 +Cache −45% $0.11 +KB −32% $0.07 +Routing −22% $0.05 +Memo rep. = $0 $0.04 +Prompt −8% $0.037 +SCON −5% + debug $0.035 Reducción total acumulada −83% costo / conversación Sin optimizar $0.20 → $0.035
El Costo Real P1: Cache P2: KB Semántico P3: Routing P4: Memoización P5: Prompt P6: SCON Síntesis
§01 — Diagnóstico

El Costo Real por Turno de Conversación

Antes de optimizar, hay que medir. Un sistema conversacional de IA en producción no cobra por "consulta" — cobra por cada token que ingresa al modelo en cada turno. Y en cada turno se repite la misma estructura.

Desglose por componente — datos de producción

System prompt 4.458 tokens · 52%
Base de conocimiento inyectada 3.466 tokens · 41%
Historial de mensajes ~375 tokens · 4%
Contexto de sesión (JSON) ~200 tokens · 2%
Mensaje del usuario ~40 tokens · 1%
Total input por turno ~8.500 tokens
Output (respuesta + JSON) ~400 tokens

El hallazgo que cambia la ecuación

El KB completo (3.466 tokens) se inyecta en cada turno — incluso cuando el usuario solo dice "gracias". El 93% del costo de entrada es estructura fija que se repite.

Costo por conversación completa

Escenario Input Costo USD
3 turnos (consulta rápida) 26.000 $0.012
6 turnos (calificación típica) 55.700 $0.026
10 turnos (consulta compleja) 100.000 $0.047

Datos de producción con GPT-4.1-mini ($0.20/MTok input). Multiplica por modelo más potente para costo real.

Índice de costo relativo por modelo (conv. típica 6 turnos)

Gemini 2.0 Flash-Lite
$0.004
GPT-4.1-mini
$0.013
Haiku 4.5
$0.053
Sonnet 4.6
$0.204
§02 — Palanca 1

Prompt Caching: El System Prompt No Debería Costar Cada Turno

El system prompt es estático — no cambia entre turnos ni entre usuarios. Sin embargo, en la mayoría de las implementaciones se envía completo al modelo en cada solicitud, pagando el costo de procesamiento cada vez.

El caching a nivel de proveedor permite marcar el system prompt como estático. El modelo lo procesa una sola vez y mantiene una representación interna que se reutiliza. Las lecturas posteriores cuestan una fracción del precio normal.

Sin cache — por turno

$0.013

4.458 tokens × tarifa plena

Con cache — por turno

$0.001

4.458 tokens × tarifa lectura

Ahorro en el componente system prompt: 90%

Como el system prompt es el 52% del input, el ahorro total por turno es aproximadamente 45% del costo de entrada.

Comparativa de tarifas — Sonnet 4.6

Tipo de token $/MTok Factor
Input normal $3.00
Cache write (primera vez) $0.375 0.125×
Cache read (lecturas) $0.30 0.10×

A partir del segundo turno, el system prompt cuesta 10 centavos por cada dólar que costaba antes.

Patrón de inyección — sin filtro semántico

Usuario:

"gracias, eso es todo"

KB inyectado (fulltext, sin filtro):

3.466 tokens — catálogo completo, precios, FAQs, políticas, fichas técnicas...

Relevancia para este turno: 0%

El modelo procesa 3.466 tokens innecesarios. Se pagan igual.

Con filtrado semántico (top-3 relevantes):

~800–1.200 tokens — solo los items con similitud coseno >0.75

Reducción: 65–77% en el componente KB

§03 — Palanca 2

Filtrado Semántico: No Todo el Conocimiento Es Relevante en Cada Turno

Una base de conocimiento se diseña para cubrir todos los escenarios posibles. El error está en asumir que todos los escenarios son relevantes en cada turno. El resultado: el modelo procesa y cobra tokens que no aportan al contexto actual.

El filtrado semántico resuelve esto antes de la llamada al modelo: se vectorizan los items del KB y se recuperan solo los que tienen similitud alta con el mensaje actual. El modelo recibe el contexto pertinente, no el catálogo.

Impacto acumulado con Palanca 1 + Palanca 2

$0.07

por conv. típica (Sonnet)

vs $0.20 sin optimizar

Reducción acumulada: 65%

§04 — Palanca 3

Routing Multi-Modelo: El Modelo Correcto para Cada Tarea

Usar el mismo modelo para clasificar un mensaje, recuperar conocimiento y generar una respuesta compleja es como usar el mismo especialista para atender el teléfono y redactar el contrato. El costo es el mismo. La necesidad, no.

Contexto masivo

Gemini 2.0/2.5

Ventana de contexto de 1M–2M tokens. Ideal para ingerir documentos extensos, KBs completas, historiales largos, y cualquier tarea que requiera procesar volumen sin perder hilo.

Costo referencia

$0.075–$0.30/MTok

Clasificación y routing

GPT-4.1-nano · Flash-Lite

Para clasificar intención, detectar idioma, rutear al flujo correcto, validar formato de respuesta. Rápido, preciso en tareas acotadas, y 40× más barato que un modelo de razonamiento.

Costo referencia

$0.10/MTok input

Coordinación y decisión final

Claude Sonnet/Opus

Ventana de 200K tokens, razonamiento superior. No es el modelo más barato ni el de mayor contexto — es el mejor para integrar señales, evaluar trade-offs y tomar la decisión correcta. Se usa solo donde es necesario.

Costo referencia

$3.00/MTok input

Impacto del routing inteligente

Si el 60% de los turnos son clasificación o consulta simple (enrutables a modelos económicos), y solo el 40% requiere razonamiento completo, el costo promedio por turno cae entre 15–40% adicional sobre las palancas anteriores.

§05 — Palanca 4

Memoización: Si Ya Diste la Respuesta Óptima, No La Recalcules

Los sistemas de IA se diseñan asumiendo que cada solicitud es única. Pero en producción, los patrones se repiten: las mismas preguntas frecuentes, los mismos flujos de calificación, las mismas reglas de negocio aplicadas a contextos equivalentes.

Si una operación ya fue resuelta, la solución óptima ya existe. Almacenarla y reutilizarla en la próxima solicitud equivalente elimina el costo de IA de esa ejecución. El costo de la segunda ejecución es el de una búsqueda, no el de un modelo de lenguaje.

Esto aplica a: respuestas a preguntas frecuentes, clasificaciones de intención con alta confianza, reglas de negocio derivadas de razonamiento previo, y cualquier flujo determinista que el sistema haya resuelto correctamente antes.

Costo de la segunda ejecución equivalente

$0

costo de API

vs $0.20+ sin memoización

Sin memoización

Cada vez que un usuario pregunta "¿cuáles son sus horarios?" el sistema construye el contexto, inyecta el KB, llama al modelo, genera la respuesta. Misma pregunta, mismo costo, N veces.

Con memoización semántica

La primera vez se resuelve con el modelo. La respuesta se almacena con su embedding vectorial. Las siguientes solicitudes equivalentes (similitud >0.90) reciben la respuesta almacenada en microsegundos, sin llamada al LLM.

Dónde aplica la memoización

  • Preguntas frecuentes con respuesta estable
  • Clasificaciones de intención de alta confianza
  • Reglas de negocio derivadas del modelo
  • Flujos deterministas ya validados
  • Respuestas que dependen de contexto de sesión único
  • Razonamiento sobre datos en tiempo real
§06 — Palanca 5

Prompt Engineering de Densidad: Tokens de Calidad, Sin Narrativa Innecesaria

El costo de un sistema de IA no lo define solo la arquitectura — lo define también la calidad de la señal que entra y sale del modelo. Un prompt verboso produce respuestas verbosas. Una instrucción precisa produce tokens útiles.

Prompt engineering de densidad no significa acortar el prompt — significa eliminar tokens que no aportan a la inferencia: explicaciones redundantes, ejemplos innecesarios, instrucciones contradictorias que el modelo resuelve con tokens extras. El objetivo es maximizar la relación entre tokens consumidos y calidad del output.

En el output, el mismo principio aplica: instrucciones que producen respuestas estructuradas y acotadas reducen el costo de salida sin perder la narrativa que el usuario necesita. La diferencia entre un output de 400 tokens y uno de 180 tokens con la misma información útil es el diseño de la instrucción de formato.

Prompt sin densidad

  • · Instrucciones en prosa larga
  • · Ejemplos repetidos de lo mismo
  • · "Por favor", "asegúrate de", "recuerda que"
  • · Output sin formato → más tokens
  • · Contradicciones que el modelo negocia

Prompt de alta densidad

  • · Directivas en bullet o numeradas
  • · Un ejemplo representativo, no tres
  • · Verbos de acción directos
  • · Schema de output explícito
  • · Sin ambigüedad → sin tokens de negociación

Impacto medible

Reducción en output tokens 40–55%
Reducción en input (system prompt) 15–30%
Mejora en consistencia de formato +80%

El efecto acumulado con las palancas previas

El prompt engineering potencia el cache (un system prompt más corto es más fácil de cachear y cuesta menos en cache write). Potencia el KB semántico (instrucciones claras sobre qué usar del contexto reducen ambigüedad en la recuperación). Y produce outputs más fáciles de memoizar.

Salida sin SCON vs con SCON

Sin protocolo estructurado:

"Claro, el horario de atención es de lunes a viernes de 9 a 18 horas, aunque los sábados atendemos hasta las 13 horas. Para consultas urgentes puede llamar al número de emergencias que..."

→ ~85 tokens · sin estructura · no debuggeable

Con SCON (output estructurado y acotado):

{"intent":"horario","reply":"Lun–Vie 9–18h · Sáb 9–13h","escalate":false,"confidence":0.97}

→ ~28 tokens · estructurado · trazable · memoizable

§07 — Palanca 6

SCON: Protocolo de Salida que Reduce Tokens, Habilita Debug y Mejora la Inferencia

Un sistema de IA que produce prosa libre en cada turno está optimizado para legibilidad humana, no para eficiencia computacional. SCON define el protocolo de salida: el modelo entrega un objeto estructurado con campos explícitos — intención, respuesta, confianza, decisión de escalada.

Reduce tokens de output 60–70%

La misma información en JSON compacto ocupa una fracción de los tokens que ocupa en prosa. El costo de output cae proporcionalmente.

Habilita debug real

Con campos como confidence, escalate, intent y trace_id, cada decisión del modelo es inspeccionable. Se sabe exactamente qué decidió, con qué certeza, y en qué contexto.

Mejora la calidad de inferencia

El modelo trabaja contra un schema explícito. Esto reduce la probabilidad de alucinación en los campos estructurados, mejora la consistencia entre turnos y facilita la validación automática del output antes de entregarlo al usuario.

Por qué va junto al prompt engineering

El prompt engineering define la calidad del input. SCON define la calidad del output. Juntas, las palancas 5 y 6 controlan la eficiencia del canal completo hacia y desde el modelo — no solo la arquitectura alrededor de él.

§08 — Síntesis

Las Seis Palancas: Acumuladas

Aplicadas en conjunto, estas seis decisiones llevan el costo de un sistema conversacional de IA de $0.20 a $0.035 por conversación típica — sin cambiar el modelo ni degradar la calidad de respuesta. Las palancas 5 y 6 actúan sobre el canal al modelo; las primeras cuatro actúan sobre la arquitectura alrededor de él.

Palanca 1

−45%

Prompt Caching

System prompt: 10¢ por cada $1

Palanca 2

−32%

KB Semántico

KB: 3.466 → ~900 tokens

Palanca 3

−22%

Routing Multi-modelo

Modelo correcto por tipo de tarea

Palanca 4

$0

Memoización

Repeticiones = costo de búsqueda

Palanca 5

−8%

Prompt Engineering

Tokens de calidad · sin ruido

Palanca 6

−5%+

SCON

Output estructurado · debug real

"Optimizar el consumo de IA no es ajustar prompts — es rediseñar qué entra al modelo, qué sale de él, cuándo se llama, con cuál, y qué nunca necesita llamarse de nuevo."

¿Tenés un sistema de IA en producción o en diseño? Antes de escalar, conviene auditar la arquitectura de consumo.

También podés revisar el diagnóstico complementario: Integración de IA sin Backoffice: Anatomía del Upgrade Forzado →