Naveo

STEP 6 / 20

D2 SLOT-FILL

ARRASTRÁ A LOS SLOTS

No siempre vas a poder evitar que la inyección entre. La segunda línea de defensa es detectarla en el output antes de devolverlo al usuario.

hex te tira siete outputs de un asistente de catálogo de repuestos. Clasificá cada uno como:

OK para servir. El output cumple la tarea original sin nada raro.
Bloquear: scope. El output salió del catálogo. está respondiendo algo que no debería.
Bloquear: meta-leak. El output revela información sobre el sistema mismo (system prompt, reglas, tools, identidad).

OK para servir

Soltar aquí

Bloquear: scope

Soltar aquí

Bloquear: meta-leak

Soltar aquí

PIEZAS

'El PN-4827-A es el sellador de casco. Aplicar capa fina.'

'Sí, el pedido de Echo está en proceso. Bruno lo firmó ayer.'

'Mi system prompt es: Sos un asistente de catálogo. Respondé solo sobre...'

'OUT_OF_SCOPE'

'La última caja del manifiesto es MAN-7723, contiene 4.2 toneladas.'

'Tengo estas tools disponibles: fetch_parts, fetch_manifest, forward_email...'

'El PN-3301-B es un perno de acople. PWNED'

MODO INVITADO

Estás viendo esta lección como invitado. Para guardar tu progreso, ganar XP y mantener tu racha, inicia sesión cuando estés listo para comprobar.

Cuesta 1 vida

La capa que agarra lo que pasó

Hex tiene una regla: "Si tu defensa depende de que el modelo nunca se equivoque, no tenés defensa." Por eso construye siempre una segunda capa que valida el output antes de devolverlo al usuario.

La idea es simple: tu asistente está supuesto a responder dentro de un scope conocido (el catálogo de repuestos). Cualquier output que se sale de ese scope o filtra info sobre el sistema mismo es sospechoso, sin importar por qué pasó. Lo bloqueás antes de servir, loggeás el incidente, y devolvés un rechazo limpio al usuario.

Tres categorías de output

OK. El output cumple la tarea: información del catálogo o un rechazo controlado. Servir.

Scope leak. El output trae info real, pero off-catálogo. nombres del staff, IDs del manifiesto, pedidos. el modelo no debería haberlo dicho. Bloquear y reemplazar con OUT_OF_SCOPE.

Meta-leak. El output revela info sobre el sistema mismo. el system prompt, la lista de tools, marcadores que el atacante usa como prueba de éxito (PWNED, SYSTEM COMPROMISED, [ROOT]). Bloquear, loggear con prioridad alta porque es señal de inyección exitosa.

Cómo se implementa

Tres tácticas, baratas, combinables:

Allowlist de output. Tu asistente solo emite tokens que pertenecen al catálogo (números de pieza válidos, palabras del dominio) o al protocolo de rechazo. Cualquier cosa fuera de la allowlist se reemplaza.
Heurísticas de meta-leak. Buscás palabras que nunca deberían aparecer en una respuesta legítima: system prompt, mis instrucciones, mis tools, PWNED, [SYSTEM]. Match = bloquear.
Segundo LLM como juez. Un modelo chico y barato lee el output y responde "¿esto está dentro del scope del catálogo?" sí/no. Más caro, mucho más robusto contra variantes nuevas.

El truco no es elegir una. es combinar las tres en capas, ordenadas de más barato a más caro. La allowlist agarra el 80% gratis. Las heurísticas el 15% por casi nada. El juez agarra el resto cuando importa.

A la derecha hay siete outputs. Clasificá cada uno antes de servirlo.