Hex trabaja con tres etiquetas pegadas en su monitor. Cuando un incidente entra, lo primero que hace no es escribir código. es etiquetarlo.
"Si no sabés qué falló, no sabés qué defender. Y la mitad de los equipos que pierden tiempo en producción están parcheando el modo de falla equivocado."
Los tres modos no son los únicos que existen. son los tres que cubren el 95% de los incidentes reales de LLM en producción. Aprendelos por forma, no por palabra clave.
Inyección de prompts. Algo de afuera reescribió las reglas del modelo. La señal típica: el modelo hizo algo que vos nunca le pediste, y la causa fue un input. Puede ser directo (un usuario hostil) o indirecto (una página, un documento, una respuesta de tool).
Fuga de datos. Información real, sensible, salió. La señal típica: hay un dato concreto en un lugar concreto que no debería estar ahí. Pasajeros en el contexto del modelo. PII en logs externos. Bios del tenant A respondidas al tenant B.
Alucinación con confianza. El modelo dijo algo plausible que es falso. La señal típica: el output no se contradice solo, suena bien, y solo se descubre como mentira cuando alguien lo verifica contra la realidad.
Cada modo tiene defensas distintas. Si tratás una alucinación como inyección, vas a hardenear el prompt cuando deberías estar validando el output. Si tratás una fuga como alucinación, vas a calibrar UNKNOWN cuando deberías estar quitando datos del contexto.
Atlas firma cuando todos los reportes de incidente vienen con su etiqueta. Hex la pone. Vos vas a aprender a ponerla.
A la derecha hay siete reportes. Arrastrá cada uno al modo que lo describe.