Evaluación de Modelos Generativos

UNED-Grados

El dataset UNED-Grados contiene 12.436 preguntas de exámenes tipo test, con cuatro opciones de respuesta, extraídas de 109 asignaturas de 22 grados universitarios de distintas áreas de conocimiento. Este dataset se desarrolla para evaluar las capacidades de los modelos de lenguaje en un entorno académico realista, basado en preguntas extraídas de exámenes reales de la UNED. A diferencia de otros benchmarks artificiales, este conjunto de datos proviene de un repositorio privado y no será publicado, permitiendo medir no solo la memorización sino también el razonamiento en distintas disciplinas.

La evaluación se realiza en un entorno zero-shot, sin entrenamiento previo en el dataset, utilizando la métrica de accuracy para medir el rendimiento en distintas disciplinas. La temperatura de los modelos es 0 para obtener respuestas más deterministas.

Los resultados muestran que Gemini-2.0 es el modelo más preciso en todas las áreas y en el promedio general (0.77), seguido por Llama-3.3 (0.71), Phi-4 (0.67) y QwQ (0.64), que tiene el peor desempeño. La precisión es mayor en Ciencias (0.81 con Gemini-2.0) y Artes y Humanidades, mientras que baja notablemente en Ciencias Sociales y Jurídicas e Ingeniería y Arquitectura, siendo esta última el área con peores resultados. En general, Gemini-2.0 destaca en todas las categorías, mientras que QwQ muestra el rendimiento más bajo en cada una.

Modelo Artes y Humanidades Ciencias Ciencias de la Salud Ciencias Sociales y Jurídicas Ingeniería y Arquitectura
Gemini-2.0 0.778 0.807 0.784 0.760 0.719
Llama-3.3 70B 0.738 0.734 0.734 0.689 0.681
Phi-4 14B 0.680 0.729 0.712 0.661 0.645
QwQ 32B 0.639 0.681 0.655 0.625 0.631