Naveo

STEP 20 / 22

A7 A/B

MCQ · SIN COSTO

Tu cadena de procesamiento de tickets corre en producción. orbit propuso un cambio en el step 2 (extract) que en teoría reduce alucinaciones. Dos estrategias para evaluar si efectivamente conviene desplegarlo a todo el tráfico. ¿Cuál elegís?

¿Por qué?. opcional

Pensá: contrato cerrado, fallback explícito y scaffold final.

MODO INVITADO

Estás viendo esta lección como invitado. Para guardar tu progreso, ganar XP y mantener tu racha, inicia sesión cuando estés listo para comprobar.

Cuesta 1 vida

El único método honesto para comparar dos versiones

Cuando cambiás algo en una cadena LLM (prompt nuevo, modelo distinto, paso reordenado), ¿cómo sabés si el cambio es bueno? La respuesta natural es "lo despliego y miro las métricas". El problema: comparar el "antes" con el "después" mide mucho más que tu cambio.

Lo que pasa entre semana y semana

El tráfico cambia (estacionalidad, eventos, día de la semana).
Otros equipos cambian otros sistemas.
Los proveedores actualizan modelos silenciosamente.
La composición de usuarios cambia (nuevos onboardings, churn).
Tu propia interpretación de las métricas cambia (sesgo de confirmación).

Cualquiera de esos puede explicar la "mejora" o "empeora" que ves, sin que tu cambio haya hecho nada.

El A/B test elimina esos confusores

Dividís el tráfico en dos grupos simultáneos:

Control (A): la versión vieja. 50% del tráfico.
Variant (B): la versión nueva. 50% del tráfico.

Ambos corren al mismo tiempo, con los mismos usuarios distribuidos por hash determinístico. La única diferencia entre los dos grupos es la versión de tu cadena. Cualquier diferencia en métricas se debe a tu cambio, no al ruido del mundo.

Las tres reglas que hacen al A/B válido

1. Asignación determinística por hash

code

arm = hash(user_id || trace_id) % 2 == 0 ? 'control' : 'variant'

Sin determinismo, un usuario podría ver respuestas inconsistentes (a veces control, a veces variant), lo cual deteriora la experiencia y contamina las métricas con varianza no-explicada.

2. Tamaño muestral suficiente

Para detectar una mejora del 5% en accuracy con confianza estadística, típicamente necesitás miles de eventos por brazo. Para detectar una mejora del 1%, decenas de miles. El A/B con 30 eventos no te dice nada útil.

3. Métricas pre-acordadas

Definí antes de ver resultados qué vas a medir y qué umbral cuenta como "ganadora". Si las decidís después, vas a encontrar la métrica que confirma lo que ya querés creer. Esto se llama p-hacking y arruina A/Bs serios.

Métricas típicas para A/B de cadenas LLM

Métrica	Cómo medirla
Eval pass rate	Eval set corriendo sobre cada brazo, % que pasa
Latencia p50/p95	Trace duration_ms, percentil 50 y 95
Costo medio por request	Sumar cost_usd de spans, promediar
Tasa de degradación	% de traces con status `partial`
Satisfaction (proxy)	Thumbs up/down del usuario, follow-up rate

Cuándo NO usás A/B

Cambios de seguridad. Si parchaste una vulnerabilidad, no la dejes en control el 50% del tiempo. Despliegue total + monitoreo.
Cambios obviamente mejores. Fixing a bug? Just deploy.
Tráfico chico. Si tu sistema procesa 100 requests por semana, un A/B no va a alcanzar significancia. Usá eval offline.

Eval offline mide el techo de calidad (¿el cambio podría ser mejor?). A/B mide el comportamiento real (¿el cambio realmente es mejor con usuarios reales?). Los dos son necesarios; ninguno reemplaza al otro.

Tu ejercicio

A la derecha, dos estrategias para evaluar el mismo cambio en una cadena. Elegí la que vas a usar en producción.