Hasta acá la herramienta principal fue preguntar mejor. Pero a veces el modelo no te da una respuesta vaga. te da una respuesta incorrecta que parece firme. La capacidad de detectar el error específico y pedir la corrección sin reiniciar la conversación es lo que separa el chat-de-juguete del trabajo real.
Forge te va a explicar el procedimiento para purgar el reciclador de agua. Su primera respuesta va a tener una contradicción interna obvia. dos pasos del procedimiento que no pueden ser ciertos a la vez.
Tu trabajo: detectar la contradicción, citarla específicamente en tu siguiente mensaje, y conseguir que Forge dé la versión coherente.
Esas son vaguedades. Forge te va a repetir la misma versión con el mismo error. No es por capricho. es porque no le dijiste qué arreglar.
Esa pregunta nombra ambos pedazos del conflicto y pide la resolución. Forge tiene que reconocer y corregir.
4 criterios llm-judge:
Los 4 tienen que pasar. Máximo 5 turnos.
Tip: leé la primera respuesta de Forge DOS veces antes de responder. Si la lees rápido, no ves la contradicción. Si la lees con cuidado, te salta.