Cuando un sistema procesa volumen, el costo del modelo se vuelve la línea más cara del balance. Las dos respuestas naive:
Ninguna respuesta funciona en escala. La que sí: cascada. Modelo chico al principio para clasificar, modelo grande solo para los casos que lo necesitan.
[mensaje]
↓
[modelo CHICO] → ¿es trivial?
↙ ↘
respuesta [modelo GRANDE]
trivial ↓
respuesta
elaboradaEl paso 1 procesa el 100% del tráfico, pero a 1/30 del costo del modelo grande. El paso 2 solo procesa el 5-20% que el chico marcó como "necesita ayuda". El costo agregado se reduce 5-15×, y la latencia promedio mejora porque la mayoría se resuelve en el paso 1.
Los modelos chicos son buenísimos clasificando y malísimos generando. Esa asimetría es justo lo que necesitás:
Ponés a cada modelo a hacer lo que mejor sabe. Y el grande deja de pagar peaje por las 95.000 invocaciones donde no aportaba.
Si el clasificador es malo (acierta menos del 85%), perdés casi todo el ahorro: los falsos negativos pagan el modelo grande igual, y los falsos positivos bajan la calidad de las respuestas. Mediar el clasificador con un eval set antes de armar la cascada es mandatorio, no opcional.
A la derecha, dos arquitecturas para el mismo volumen. Una manda todo al modelo grande. La otra usa cascada. Elegí cuál ponés en producción.