Una vez que tu sistema crece. chain de 3 pasos, router con 4 rutas, RAG con generate honesto. ya no podés probarlo mentalmente. Necesitás un set de casos de prueba que demuestren que el sistema hace lo que prometés.
Ese set es el eval set. Y la habilidad de escribir uno bueno es lo que separa al ingeniero de LLMs del que arma demos.
Un eval set no es un puñado de casos aleatorios. Es una selección curada de inputs que cubren:
Cada caso lleva un comment: para qué está ahí. Sin comments, cuando un caso falle dentro de 6 meses, no vas a saber si era un control o un edge case que conscientemente decidiste no soportar.
Echo te pide un eval set para el classifier del step 02 (4 categorías: safety, maintenance, social, other).
Al menos 10 cases, distribuidos:
comment explicando qué evalúa el caso.6 criterios LLM-judge sobre la calidad del set:
El test mental: si yo, leyendo solo tu eval set, podría reconstruir qué hace el classifier y dónde le cuesta. pasaste. Si parece "10 inputs random con sus labels", no pasaste.