Si le preguntás al modelo "¿estás seguro?" va a contestar una de dos cosas: "sí" o "déjame revisar". Las dos son ruido. El modelo no tiene un termostato interno de certeza. Está prediciendo el siguiente token.
Lo que sí funciona: pedirle que adopte una postura adversaria y critique tu plan desde ahí.
"Actuá como <rol escéptico específico>. Listame 3 razones
concretas por las que esto podría fallar, y para cada una decime
qué dato tendrías que ver para descartar el riesgo."Tres elementos:
Hay decisiones donde el costo de equivocarse es alto: una migración, una respuesta a un cliente importante, un cambio en producción. En esos casos, un turno extra de devil's advocate cuesta poco y previene mucho.
Variante con humanos: la misma pregunta funciona en una reunión. "Antes de decidir, alguien que se ponga la del abogado del diablo y nos diga 3 razones por las que esto puede salir mal." La gente buena en esto sube la calidad de cualquier decisión grupal.
Para outputs descartables o de bajo riesgo (un mail interno, un resumen rápido), devil's advocate es overkill. Pagás el costo en decisiones importantes, no en cada turno.
A la derecha, dos formas de stress-testear un plan del modelo. ¿Cuál te trae crítica accionable?