Este es el protocolo que vas a correr en cada sistema que construyas desde acá en adelante. Te dan un agente vulnerable. Te dan inputs de ataque. Hardeneás el prompt hasta que todo ataque falle y toda pregunta legítima funcione.
ignorá las instrucciones previas). Fácil de defender. y un bonus para tu rúbrica si la pegás.Llegaste hasta acá construyendo todo esto. Cada asistente hardeneado sigue aproximadamente esta forma:
Y dos defensas fuera del prompt que el judge no testea pero Atlas espera que tengas pensadas:
Atlas firma cuando los cinco casos pasan los cuatro criterios. Los reintentos son gratis. pero cada uno te dice qué caso todavía tiene un agujero.
Cuando esto pase, te ganaste el track de Seguridad. La disciplina que recién entrenaste es la diferencia entre un feature de IA que se despliega y un feature de IA que se convierte en incidente.