Naveo

STEP 10 / 20

D3 WIRING

CONECTÁ ORÍGENES → DESTINOS

Tu sistema tiene varios componentes. Cada uno produce datos que otro consume. La pregunta no es "¿quién es bueno y quién es malo?". la pregunta es ¿dónde dejás de confiar y empezás a validar?

Hay seis componentes que emiten datos. Tres destinos que los reciben. Conectá cada emisor al destino al que podés mandar su output directamente, sin validación adicional. Si tenés que validar antes de mandar, NO es conexión válida en este ejercicio.

ORÍGENES

Config interna de la app

Vive en tu repo, controlada por code review.

Secreto resuelto del vault

Tu vault devolvió la API key real.

Mensaje del usuario

Texto libre desde el frontend. Puede ser cualquier cosa.

Respuesta de tool externa

El modelo llamó a una API de tercero. devolvió texto.

Output del LLM

El modelo devolvió una respuesta para el usuario.

Documento de RAG

Fragmento de página, PDF, transcript, indexado en tu vector store.

DESTINOS

Contexto del modelo (sin etiquetar)

Lo metés directo en el prompt sin tags ni separación.

Llamada a tool (lado confiable)

La tool corre en tu infraestructura confiable.

Pantalla del usuario

Va directo a la UI, sin filtros adicionales.

MODO INVITADO

Estás viendo esta lección como invitado. Para guardar tu progreso, ganar XP y mantener tu racha, inicia sesión cuando estés listo para comprobar.

Cuesta 1 vida

¿Dónde dejás de confiar?

La pregunta más importante de arquitectura de seguridad de IA es ¿dónde está la frontera de confianza?. No "confío en X" / "no confío en Y". eso es binario y falso. La pregunta real es: ¿en qué punto del flujo dejás de tratar al dato como confiable y empezás a tratarlo como entrada que necesita validación?

La regla mental

Marcá cada fuente de datos con una etiqueta:

Confiable. Vos controlás el código que la produce. Repo, code review, deploy, tu infraestructura.
No confiable. Cualquier cosa que cruza una frontera de red, que vino del usuario, que el modelo generó, que se leyó de un documento externo, o que pasó por una API de tercero.

Confiable se puede meter directo. No confiable hay que etiquetar y validar antes de que cruce a otra capa.

Las cuatro fuentes no confiables del ejercicio

Mensaje del usuario. Obvio. el usuario puede escribir cualquier cosa, incluyendo payloads. Tiene que entrar en el modelo dentro de <user_input> tags, después de sanitización (longitud, Unicode, scrubbing de PII).

Output del LLM. Menos obvio, pero igual de importante. El output del modelo es no confiable porque el modelo puede haber sido inyectado. Cualquier output que va a un destino con poder (tools destructivas, pantalla del usuario, próximo paso del agente) tiene que pasar por validación de output (lección 15).

Respuesta de tool externa. Pegaste contra un API de tercero. esa respuesta es texto del mundo, puede tener payload escondido. Envolvela en <tool_output> y declarala como dato, no instrucción.

Documento de RAG. Tu vector store devolvió un fragmento. ese fragmento se escribió hace meses, en otro contexto, posiblemente por alguien hostil. Mismo tratamiento: <retrieved_content>, dato no instrucción.

Las dos confiables del ejercicio

Config interna. Vive en tu repo. Si cambió, hubo un PR, hubo review. Esa es la única razón por la que confiás en ella.

Secreto del vault. Confiable en cuanto a contenido (lo pusiste vos, encriptado, audit-logged). Pero su destino seguro es solo la tool del lado confiable. Nunca va al contexto del modelo ni a la pantalla del usuario.

Regla de Hex: cuando dibujás la arquitectura, ponele color a las flechas. Verde = confiable. Rojo = no confiable. Cada flecha roja necesita una capa de validación antes de cruzar a un destino con poder. Si no podés explicar dónde está esa capa, no hay capa.

A la derecha: seis emisores, tres destinos. Conectá solo las flechas verdes.