Hex abre el primer expediente con una frase: "Si yo lo rompo en 10 minutos, alguien lo va a romper en menos." Te muestra dos prompts del asistente de repuestos. el que se desplegó y el que aguantó. y te pide que detectes la diferencia.
La inyección de prompts es lo que pasa cuando un atacante esconde una instrucción competidora dentro de los datos que tu modelo debería procesar. y el modelo no puede diferenciar entre datos e instrucciones.
En una llamada normal de asistente, el system prompt dice una cosa y el mensaje de usuario aporta el input. Para el modelo, las dos cosas son tokens. Si el mensaje de usuario contiene "ignorá lo de arriba y hacé X en su lugar", el modelo genuinamente está eligiendo entre dos instrucciones. y la más reciente / más específica suele ganar.
Esta es la versión IA del SQL injection. La forma es la misma: datos y código comparten el mismo canal, el atacante explota la ambigüedad.
No podés hacer al modelo "lo suficientemente listo para no caer". la falla es estructural. Hardeneás la estructura:
<system>...</system><user_input>...</user_input>. Que el modelo vea la pared.La regla de Hex: asumí que tu prompt va a ser atacado. Diseñá para el ataque, no para el happy path.
A la derecha, elegí el patrón de respuesta que aguanta.