Evaluación de Modelos Generativos

UNED-ACCESO 2024

Este dataset bilingüe contiene 1003 preguntas tipo test de exámenes de acceso a la universidad de once asignaturas en español e inglés. Todas las preguntas proceden de exámenes oficiales de ámbito nacional en España, están formuladas originalmente en español y nunca se han hecho públicas. Las preguntas en inglés son una traducción profesional y manual de las preguntas en español. A diferencia de otros recursos similares como MMLU, UNED-ACCESO 2024 otorga evaluaciones con contaminación mínima, especialmente en inglés: es muy poco probable que los LLM hayan visto las preguntas y respuestas originales en español, y simplemente no es posible que las hayan visto en inglés. Para comparar los resultados globalmente y entre asignaturas, en lugar de la precisión utilizamos el coeficiente Kappa de Cohen, ya que las asignaturas difieren en el número de respuestas entre las que elegir la correcta. Siendo M el número de posibles opciones de respuesta, la Kappa de Cohen se define como:

\[ \text{Kappa} = \frac{\text{observed accuracy} - \text{expected accuracy}}{1 - \text{expected accuracy}} = \frac{\frac{\text{C}}{\text{N}} - \frac{1}{\text{M}}}{1 - \frac{1}{\text{M}}} \]

Siendo C la proporción de respuestas correctas sobre el número total de respuestas generadas N.


Sistema
Media Español
Media Inglés
Claude-3-Opus 0.81 0.79
GPT-4o 0.77 0.78
GPT-4-Turbo 0.78 0.76
Llama-3-70B-Instruct 0.67 0.65
Gemma-2-27B-Instruct 0.66 0.64
GPT-3.5-Turbo 0.55 0.60
Mixtral-8x7B-Instruct 0.57 0.56
Llama-3-8B-Instruct 0.50 0.51
Mistral-7B-Instruct 0.43 0.46
Gemma-7B-It 0.38 0.41
Llama-2-7B-Chat 0.25 0.32
Leniachat-Gemma-2B 0.11 0.15
Sistema
Media aritmética

ADE

Biología

Bioquímica

Economía

F. de Computación

Lengua Española

Literatura

Matemáticas

Matemáticas Aplicadas a las CCSS

Matemáticas Avanzadas

Psicología

Claude-3-Opus 0.81 0.86 0.96 1.00 0.90 0.98 0.67 0.84 0.69 0.63 0.44 0.89
GPT-4-Turbo 0.78 0.78 0.96 1.00 0.95 0.96 0.69 0.72 0.55 0.57 0.50 0.88
GPT-4o 0.77 0.84 0.97 1.00 0.90 0.96 0.74 0.81 0.51 0.38 0.50 0.91
Llama-3-70B-Instruct 0.67 0.83 0.89 0.95 0.79 0.94 0.39 0.66 0.38 0.46 0.25 0.82
Gemma-2-27B-Instruct 0.66 0.76 0.92 1.00 0.79 0.94 0.50 0.53 0.34 0.33 0.38 0.80
Mixtral-8x7B-Instruct 0.57 0.72 0.84 0.87 0.58 0.87 0.32 0.52 0.32 0.23 0.25 0.78
GPT-3.5-Turbo 0.55 0.64 0.80 0.90 0.53 0.87 0.32 0.44 0.20 0.20 0.38 0.74
Llama-3-8B-Instruct 0.50 0.57 0.71 0.82 0.56 0.79 0.26 0.37 0.22 0.30 0.25 0.67
Mistral-7B-Instruct 0.43 0.52 0.67 0.72 0.42 0.77 0.25 0.40 0.05 0.27 0.06 0.62
Gemma-7B-It 0.38 0.40 0.63 0.77 0.32 0.66 0.12 0.36 0.12 0.16 0.06 0.58
Llama-2-7B-Chat 0.25 0.29 0.41 0.31 0.19 0.56 0.12 0.34 0.14 0.12 -0.12 0.44
Leniachat-Gemma-2B 0.11 0.19 0.21 0.03 0.06 0.15 0.05 0.22 -0.03 0.20 -0.12 0.24
Sistema
Media aritmética

ADE

Biología

Bioquímica

Economía

F. de Computación

Lengua Española

Literatura

Matemáticas

Matemáticas Aplicadas a las CCSS

Matemáticas Avanzadas

Psicología

Claude-3-Opus 0.79 0.81 0.95 1.00 0.90 0.96 0.67 0.78 0.63 0.66 0.44 0.84
GPT-4o 0.78 0.79 0.96 1.00 0.92 0.96 0.70 0.82 0.55 0.52 0.50 0.86
GPT-4-Turbo 0.76 0.78 0.97 1.00 0.92 0.94 0.67 0.74 0.55 0.51 0.50 0.83
Llama-3-70B-Instruct 0.65 0.74 0.90 1.00 0.82 0.92 0.33 0.60 0.34 0.44 0.19 0.82
Gemma-2-27B-Instruct 0.64 0.72 0.94 1.00 0.79 0.87 0.50 0.55 0.28 0.33 0.25 0.81
GPT-3.5-Turbo 0.60 0.67 0.84 0.95 0.61 0.89 0.36 0.56 0.28 0.17 0.50 0.73
Mixtral-8x7B-Instruct 0.56 0.71 0.81 0.92 0.61 0.87 0.32 0.52 0.22 0.33 0.13 0.73
Llama-3-8B-Instruct 0.51 0.52 0.77 0.90 0.61 0.79 0.38 0.43 0.20 0.28 0.13 0.67
Mistral-7B-Instruct 0.46 0.57 0.71 0.82 0.63 0.77 0.23 0.36 0.05 0.23 0.00 0.65
Gemma-7B-It 0.41 0.41 0.67 0.85 0.56 0.75 0.18 0.22 0.20 0.14 -0.06 0.61
Llama-2-7B-Chat 0.32 0.43 0.62 0.39 0.27 0.62 0.15 0.30 0.12 0.15 0.00 0.48
Leniachat-Gemma-2B 0.15 0.29 0.32 0.24 0.03 0.13 0.05 0.22 0.08 0.07 -0.06 0.27