Naveo

STEP 11 / 22

A7 A/B

MCQ · SIN COSTO

Tu sistema procesa 100.000 mensajes por día. La mayoría son triviales (acks, "ok", emojis, "gracias"); una minoría (~5%) requiere una respuesta real elaborada. Dos arquitecturas. ¿Cuál ponés en producción?

¿Por qué?. opcional

Pensá: contrato cerrado, fallback explícito y scaffold final.

MODO INVITADO

Estás viendo esta lección como invitado. Para guardar tu progreso, ganar XP y mantener tu racha, inicia sesión cuando estés listo para comprobar.

Cuesta 1 vida

El truco más universal de optimización de costo

Cuando un sistema procesa volumen, el costo del modelo se vuelve la línea más cara del balance. Las dos respuestas naive:

Usar siempre el modelo grande. Calidad alta, costo desproporcionado.
Usar siempre el modelo chico. Costo bajo, calidad insuficiente en los casos difíciles.

Ninguna respuesta funciona en escala. La que sí: cascada. Modelo chico al principio para clasificar, modelo grande solo para los casos que lo necesitan.

Cómo se ve

code

    [mensaje]
        ↓
   [modelo CHICO]  → ¿es trivial?
   ↙           ↘
respuesta     [modelo GRANDE]
trivial            ↓
                respuesta
                elaborada

El paso 1 procesa el 100% del tráfico, pero a 1/30 del costo del modelo grande. El paso 2 solo procesa el 5-20% que el chico marcó como "necesita ayuda". El costo agregado se reduce 5-15×, y la latencia promedio mejora porque la mayoría se resuelve en el paso 1.

Por qué funciona

Los modelos chicos son buenísimos clasificando y malísimos generando. Esa asimetría es justo lo que necesitás:

Clasificar "trivial vs needs_response" es una decisión binaria. Modelo chico, prompt corto, 100 tokens, 80ms.
Generar una respuesta elaborada requiere capacidad real. Modelo grande, contexto largo, 500-2000ms.

Ponés a cada modelo a hacer lo que mejor sabe. Y el grande deja de pagar peaje por las 95.000 invocaciones donde no aportaba.

Variantes que vas a ver

Cascada de N niveles. chico → mediano → grande. Cada nivel solo escala lo que no pudo resolver. Útil cuando hay tres bandas de complejidad claras.
Cascada con confianza. El paso 1 devuelve su decisión + un score. Si el score es alto, lo aceptás. Si es bajo, escalás al paso 2.
Cascada por tarea. Modelo chico para resúmenes, modelo grande solo para generación creativa. Diferentes modelos por tarea, no por dificultad.

El error a evitar

Si el clasificador es malo (acierta menos del 85%), perdés casi todo el ahorro: los falsos negativos pagan el modelo grande igual, y los falsos positivos bajan la calidad de las respuestas. Mediar el clasificador con un eval set antes de armar la cascada es mandatorio, no opcional.

Tu ejercicio

A la derecha, dos arquitecturas para el mismo volumen. Una manda todo al modelo grande. La otra usa cascada. Elegí cuál ponés en producción.