La clasificación de datos te dice qué no va al modelo. Esta lección te dice cómo sacarlo del texto antes de que llegue.
PII detection no es magia. es un problema clásico de NLP que la industria ya resolvió, mal, varias veces. Hex ya vio los tres errores principales:
Tres capas, ordenadas por costo:
Después de scrubbing, el texto que llega al modelo principal tiene placeholders estables: [EMAIL_1], [NAME_2], [ADDRESS_3]. El sistema mantiene la tabla de mapeo del lado confiable. Si la respuesta del modelo necesita re-incluir el dato real, el sistema lo des-anonimiza al servir.
La regla: el modelo opera sobre referencias, no sobre datos reales. Cuanto menos PII llega al modelo, menos PII puede filtrar. Inalcanzable es invulnerable.
A la derecha: cinco implementaciones de la tool scrub_pii_before_prompt. Elegí la que aguanta.