Evaluación de Modelos Generativos
UNED-ACCESO 2024
Este dataset bilingüe contiene 1003 preguntas tipo test de exámenes de acceso a la universidad de once asignaturas en español e inglés. Todas las preguntas proceden de exámenes oficiales de ámbito nacional en España, están formuladas originalmente en español y nunca se han hecho públicas. Las preguntas en inglés son una traducción profesional y manual de las preguntas en español. A diferencia de otros recursos similares como MMLU, UNED-ACCESO 2024 otorga evaluaciones con contaminación mínima, especialmente en inglés: es muy poco probable que los LLM hayan visto las preguntas y respuestas originales en español, y simplemente no es posible que las hayan visto en inglés. Para comparar los resultados globalmente y entre asignaturas, en lugar de la precisión utilizamos el coeficiente Kappa de Cohen, ya que las asignaturas difieren en el número de respuestas entre las que elegir la correcta. Siendo M el número de posibles opciones de respuesta, la Kappa de Cohen se define como:
\[ \text{Kappa} = \frac{\text{observed accuracy} - \text{expected accuracy}}{1 - \text{expected accuracy}} = \frac{\frac{\text{C}}{\text{N}} - \frac{1}{\text{M}}}{1 - \frac{1}{\text{M}}} \]
Siendo C la proporción de respuestas correctas sobre el número total de respuestas generadas N.
Sistema |
Media Español
|
Media Inglés
|
---|---|---|
Claude-3-Opus | 0.81 | 0.79 |
GPT-4o | 0.77 | 0.78 |
GPT-4-Turbo | 0.78 | 0.76 |
Llama-3-70B-Instruct | 0.67 | 0.65 |
Gemma-2-27B-Instruct | 0.66 | 0.64 |
GPT-3.5-Turbo | 0.55 | 0.60 |
Mixtral-8x7B-Instruct | 0.57 | 0.56 |
Llama-3-8B-Instruct | 0.50 | 0.51 |
Mistral-7B-Instruct | 0.43 | 0.46 |
Gemma-7B-It | 0.38 | 0.41 |
Llama-2-7B-Chat | 0.25 | 0.32 |
Leniachat-Gemma-2B | 0.11 | 0.15 |
Sistema
|
Media aritmética
|
ADE |
Biología |
Bioquímica |
Economía |
F. de Computación |
Lengua Española |
Literatura |
Matemáticas |
Matemáticas Aplicadas a las CCSS |
Matemáticas Avanzadas |
Psicología |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Claude-3-Opus | 0.81 | 0.86 | 0.96 | 1.00 | 0.90 | 0.98 | 0.67 | 0.84 | 0.69 | 0.63 | 0.44 | 0.89 |
GPT-4-Turbo | 0.78 | 0.78 | 0.96 | 1.00 | 0.95 | 0.96 | 0.69 | 0.72 | 0.55 | 0.57 | 0.50 | 0.88 |
GPT-4o | 0.77 | 0.84 | 0.97 | 1.00 | 0.90 | 0.96 | 0.74 | 0.81 | 0.51 | 0.38 | 0.50 | 0.91 |
Llama-3-70B-Instruct | 0.67 | 0.83 | 0.89 | 0.95 | 0.79 | 0.94 | 0.39 | 0.66 | 0.38 | 0.46 | 0.25 | 0.82 |
Gemma-2-27B-Instruct | 0.66 | 0.76 | 0.92 | 1.00 | 0.79 | 0.94 | 0.50 | 0.53 | 0.34 | 0.33 | 0.38 | 0.80 |
Mixtral-8x7B-Instruct | 0.57 | 0.72 | 0.84 | 0.87 | 0.58 | 0.87 | 0.32 | 0.52 | 0.32 | 0.23 | 0.25 | 0.78 |
GPT-3.5-Turbo | 0.55 | 0.64 | 0.80 | 0.90 | 0.53 | 0.87 | 0.32 | 0.44 | 0.20 | 0.20 | 0.38 | 0.74 |
Llama-3-8B-Instruct | 0.50 | 0.57 | 0.71 | 0.82 | 0.56 | 0.79 | 0.26 | 0.37 | 0.22 | 0.30 | 0.25 | 0.67 |
Mistral-7B-Instruct | 0.43 | 0.52 | 0.67 | 0.72 | 0.42 | 0.77 | 0.25 | 0.40 | 0.05 | 0.27 | 0.06 | 0.62 |
Gemma-7B-It | 0.38 | 0.40 | 0.63 | 0.77 | 0.32 | 0.66 | 0.12 | 0.36 | 0.12 | 0.16 | 0.06 | 0.58 |
Llama-2-7B-Chat | 0.25 | 0.29 | 0.41 | 0.31 | 0.19 | 0.56 | 0.12 | 0.34 | 0.14 | 0.12 | -0.12 | 0.44 |
Leniachat-Gemma-2B | 0.11 | 0.19 | 0.21 | 0.03 | 0.06 | 0.15 | 0.05 | 0.22 | -0.03 | 0.20 | -0.12 | 0.24 |
Sistema
|
Media aritmética
|
ADE |
Biología |
Bioquímica |
Economía |
F. de Computación |
Lengua Española |
Literatura |
Matemáticas |
Matemáticas Aplicadas a las CCSS |
Matemáticas Avanzadas |
Psicología |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Claude-3-Opus | 0.79 | 0.81 | 0.95 | 1.00 | 0.90 | 0.96 | 0.67 | 0.78 | 0.63 | 0.66 | 0.44 | 0.84 |
GPT-4o | 0.78 | 0.79 | 0.96 | 1.00 | 0.92 | 0.96 | 0.70 | 0.82 | 0.55 | 0.52 | 0.50 | 0.86 |
GPT-4-Turbo | 0.76 | 0.78 | 0.97 | 1.00 | 0.92 | 0.94 | 0.67 | 0.74 | 0.55 | 0.51 | 0.50 | 0.83 |
Llama-3-70B-Instruct | 0.65 | 0.74 | 0.90 | 1.00 | 0.82 | 0.92 | 0.33 | 0.60 | 0.34 | 0.44 | 0.19 | 0.82 |
Gemma-2-27B-Instruct | 0.64 | 0.72 | 0.94 | 1.00 | 0.79 | 0.87 | 0.50 | 0.55 | 0.28 | 0.33 | 0.25 | 0.81 |
GPT-3.5-Turbo | 0.60 | 0.67 | 0.84 | 0.95 | 0.61 | 0.89 | 0.36 | 0.56 | 0.28 | 0.17 | 0.50 | 0.73 |
Mixtral-8x7B-Instruct | 0.56 | 0.71 | 0.81 | 0.92 | 0.61 | 0.87 | 0.32 | 0.52 | 0.22 | 0.33 | 0.13 | 0.73 |
Llama-3-8B-Instruct | 0.51 | 0.52 | 0.77 | 0.90 | 0.61 | 0.79 | 0.38 | 0.43 | 0.20 | 0.28 | 0.13 | 0.67 |
Mistral-7B-Instruct | 0.46 | 0.57 | 0.71 | 0.82 | 0.63 | 0.77 | 0.23 | 0.36 | 0.05 | 0.23 | 0.00 | 0.65 |
Gemma-7B-It | 0.41 | 0.41 | 0.67 | 0.85 | 0.56 | 0.75 | 0.18 | 0.22 | 0.20 | 0.14 | -0.06 | 0.61 |
Llama-2-7B-Chat | 0.32 | 0.43 | 0.62 | 0.39 | 0.27 | 0.62 | 0.15 | 0.30 | 0.12 | 0.15 | 0.00 | 0.48 |
Leniachat-Gemma-2B | 0.15 | 0.29 | 0.32 | 0.24 | 0.03 | 0.13 | 0.05 | 0.22 | 0.08 | 0.07 | -0.06 | 0.27 |