Naveo

STEP 18 / 22

A5 TASK

TU PROMPT · 1 CASOS

Echo te pide escribir un set de evals para el clasificador de incidentes que armaste en el step 02 (el primer step de la cadena, classify_report con 4 categorías: safety, maintenance, social, other).

Un eval es un caso de prueba con (a) un input, (b) la categoría correcta esperada, y (c) opcionalmente un comentario sobre POR QUÉ es la categoría correcta o qué hace este caso interesante (edge case, trampa, control, etc.).

Tu trabajo: escribir un set de al menos 10 evals en formato JSON, cubriendo:

Las 4 categorías (mínimo 1 caso por categoría).
Al menos 2 casos AMBIGUOS donde un mal classifier se confundiría.
Al menos 2 casos ADVERSARIALES (típicos del corpus real: jerga, typos, instrucciones inyectadas, mensajes que SUENAN como una ruta pero son de otra).
Cada caso con un campo comment explicando qué evalúa.

Formato esperado (donde {{input}} no aplica. escribís el JSON completo directamente):

209 chars

usa {{input}} donde vaya la entrada

RUBRIC · 1 CASOS · 6 CRITERIOS

"evaluación-meta"

CASO 1

MODO INVITADO

Estás viendo esta lección como invitado. Para guardar tu progreso, ganar XP y mantener tu racha, inicia sesión cuando estés listo para comprobar.

Cuesta 1 vida

El eval set es el contrato con tu propio sistema.

Una vez que tu sistema crece. chain de 3 pasos, router con 4 rutas, RAG con generate honesto. ya no podés probarlo mentalmente. Necesitás un set de casos de prueba que demuestren que el sistema hace lo que prometés.

Ese set es el eval set. Y la habilidad de escribir uno bueno es lo que separa al ingeniero de LLMs del que arma demos.

Qué hace bueno a un eval set

Un eval set no es un puñado de casos aleatorios. Es una selección curada de inputs que cubren:

Control cases. Casos obvios que cualquier sistema decente debería pasar. Si fallan, el sistema está roto en lo básico.
Edge cases. Casos en los bordes. inputs vacíos, inputs muy largos, inputs en otro idioma, inputs ambiguos entre dos categorías.
Adversarial cases. Casos que intentan romper el sistema: typos, jerga, instrucciones inyectadas, mensajes que SUENAN como una categoría pero son de otra.

Cada caso lleva un comment: para qué está ahí. Sin comments, cuando un caso falle dentro de 6 meses, no vas a saber si era un control o un edge case que conscientemente decidiste no soportar.

El task

Echo te pide un eval set para el classifier del step 02 (4 categorías: safety, maintenance, social, other).

Al menos 10 cases, distribuidos:

4+ con cada categoría representada.
2+ ambiguos (donde un classifier mediocre se confundiría).
2+ adversariales (jerga, typos, inyección, falsos positivos).
Todos con comment explicando qué evalúa el caso.

Cómo se evalúa

6 criterios LLM-judge sobre la calidad del set:

Al menos 10 cases con shape correcto.
Cubre las 4 categorías.
Tiene cases ambiguos marcados.
Tiene cases adversariales marcados.
Comments no triviales que justifican cada case.
No es solo casos fáciles.

El test mental: si yo, leyendo solo tu eval set, podría reconstruir qué hace el classifier y dónde le cuesta. pasaste. Si parece "10 inputs random con sus labels", no pasaste.