Naveo

STEP 19 / 22

A5 TASK

TU PROMPT · 1 CASOS

Echo te pide escribir el system prompt de un LLM-judge que evalúe la calidad de las respuestas del paso generate del RAG que armaste en step 05.

El judge recibe 3 cosas:

La pregunta original del usuario.
Los snippets que retrieve trajo del manual.
La respuesta que generate produjo.

Y devuelve un veredicto JSON con 4 criterios:

grounded: boolean. la respuesta se basa SOLO en los snippets, sin agregar info externa.
cites_sources: boolean. la respuesta cita las fuentes de los snippets usados.
acknowledges_gaps: boolean. si los snippets no responden la pregunta, la respuesta lo reconoce explícitamente (en vez de inventar).
clarity: number. 1 a 5, qué tan clara y concisa es la respuesta.

Tu trabajo: escribir el system prompt que produce ese veredicto.

Donde la respuesta del modelo a evaluar va, usá {{input}}. El {{input}} representa el bloque entero. la pregunta, los snippets, y la respuesta del generate. concatenados con tags claras.

698 chars

usa {{input}} donde vaya la entrada

RUBRIC · 1 CASOS · 6 CRITERIOS

"evaluación-meta"

CASO 1

MODO INVITADO

Estás viendo esta lección como invitado. Para guardar tu progreso, ganar XP y mantener tu racha, inicia sesión cuando estés listo para comprobar.

Cuesta 1 vida

El LLM-judge: tu evaluador no determinista

Para tareas con respuesta única, evaluás con checks deterministas (regex, JSON parse, etc.). Para tareas abiertas. generación, resumen, respuestas RAG. no hay una sola respuesta correcta. Necesitás un evaluador que entienda calidad.

El LLM-judge es eso: un LLM con un system prompt cuidadosamente diseñado que evalúa outputs de otro LLM contra criterios que vos defínís.

Es meta. Sí. Estás usando un LLM para evaluar un LLM. Funciona porque los criterios de calidad (¿está bien fundamentado? ¿cita fuentes? ¿reconoce sus límites?) son más fáciles de juzgar que de generar.

Cuándo usar LLM-judge

Cuando no hay una sola respuesta correcta. Generación de texto, resúmenes, respuestas a preguntas abiertas.
Cuando los criterios son legibles pero no programables. "La respuesta es coherente con los snippets" es legible pero difícil de chequear con regex.
Cuando podés calibrar. Tomás 30-50 casos, los etiquetás manualmente, comparás los veredictos del judge con los tuyos. Si concuerda >80%, el judge sirve. Si no, refinás el system prompt.

El task

Escribí el system prompt del judge para evaluar el generate del RAG. Cuatro criterios:

grounded. boolean. ¿La respuesta se basa en los snippets?
cites_sources. boolean. ¿Cita las fuentes?
acknowledges_gaps. boolean. ¿Reconoce cuando no tiene info?
clarity. 1-5 con anchors.

Más un campo rationale explicando los veredictos.

La regla del rationale

Un judge sin rationale es una caja negra. Un judge con rationale es debugueable. Cuando calibrás contra humanos, el rationale te dice por qué falló. para que ajustés el system prompt en la dirección correcta.

Cómo se evalúa

6 criterios LLM-judge sobre tu system prompt:

Define grounded con criterio concreto.
Define cites_sources claramente.
Define acknowledges_gaps con la regla "si no hay info, decilo".
Define la escala de clarity con anchors.
Pide rationale en el output.
Instruye output JSON crudo (sin preamble, sin markdown).