A medida que una conversación crece, los modelos pierden detalles tempranos. No te avisan que los perdieron. te dan una respuesta posterior que omite o contradice algo que mencionaste hace 3 turnos. Si no estás comparando, no lo notás.
Esa habilidad. detectar context drift y reafirmar lo perdido por nombre. es lo que te permite trabajar en conversaciones largas sin que se vayan derrapando.
Echo te va a dar un checklist de 5 puntos para un chequeo pre-launch. Después le vas a pedir que confirme o resuma. En el resumen, Echo va a omitir un punto. Tu trabajo: detectar cuál falta y pedir que lo agregue antes de que cierre el checklist.
Echo te confirma con 4 puntos como si fueran los 5 originales. No te va a admitir que omitió nada hasta que nombres exactamente qué falta.
Antes de pedirle resumen, anotá mentalmente los 5 puntos. Cuando ella resuma con 4, vos sabés cuál falta. Decile: "te saltaste combustible y batería primaria. era el punto 4 del original." Eso es lo que la fuerza a agregarlo.
4 criterios llm-judge:
Máximo 5 turnos.
Tip: este patrón se repite mil veces en conversaciones largas. Si trabajás con planes, checklists, especificaciones técnicas. el modelo va a "perder" cosas. Comparar contra el original es tu único defensa.