Leaderboard ODESIA

Evaluación de modelos de lenguaje en inglés y español

Objetivo: establecer una comparación directa entre el rendimiento de modelos en inglés y español para medir la brecha de efectividad.
Método: evaluación sobre el Benchmark ODESIA, una colección de tareas de Procesamiento del Lenguaje Natural con conjuntos de datos comparables en inglés y español.

Objetivos

ODESIA Leeaderboard permite (I) medir la brecha de efectividad de los modelos de lenguaje en español respecto al inglés; (II) evaluar de forma comparada modelos de lenguaje en español. Si has desarrollado un modelo de lenguaje en español, ¡envía tus resultados!

Ver más detalles aquí

Resultados

Actualmente la brecha de efectividad promedio entre español e inglés es del 18%, con un error estándar de +-4%. Hay que destacar que la brecha es más acusada en las tareas más difíciles (hasta superar el 200% en la tarea con mayor dificultad intrínseca), y por tanto el valor promedio tiene una representatividad relativa.

Ver más detalles aquí

Tareas

Se utilizan dos conjuntos de tareas: (I) ODESIA CORE, seis tareas bilingües con datos de test privado (esto evita la contaminación, que los modelos hayan visto las claves de evaluación en la fase de pre-entrenamiento); y (II) ODESIA EXTENDED, que añade un conjunto de cinco tareas bilingües estándar y disponibles de forma pública.

Ver más detalles aquí

Metodología

ODESIA leaderboard utiliza un conjunto de 11 tareas bilingües para comparar el estado del arte en inglés y español. Sobre cada tarea (I) se estima la dificultad intrínseca aplicando varios algoritmos no lingüísticos y (II) se calibran los mejores resultados en cada idioma usando esa dificultad intrínseca.

Ver más detalles aquí

Leaderboard

Odesia Core Tasks

# Sistema EXIST 2022: Sexism detection EXIST 2022: Sexism categorisation DIPROMATS 2023 Propaganda identification DIPROMATS 2023: Coarse propaganda characterization DIPROMATS 2023 Fine propaganda characterization DIANN 2023: Detección de discapacidades SQAC-SQUAD 2024 ES EXIST 2023 TAREA 1 ES EXIST 2023 TAREA 2 ES EXIST 2023 TAREA 3 ES Media aritmética Usuario
1 TEST CORE III 0.63 0.57 0.51 0.62 0.33 0.73 0.00 0.00 0.00 0.00 0.339 nandezgarcia
2 TEST CORE II 0.75 0.55 0.53 0.34 0.19 0.88 0.00 0.00 0.00 0.00 0.324 nandezgarcia
3 TEST CORE I 0.88 0.79 0.35 0.77 0.18 0.66 0.00 0.00 0.00 0.00 0.363 jpedrosa
4 TEST CORE IV 0.83 0.55 0.49 0.42 0.17 0.77 0.00 0.00 0.00 0.00 0.323 jpedrosa
# Sistema EXIST 2022: Sexism detection (EN) EXIST 2022: Sexism categorisation (EN) DIANN 2023: Detección de discapacidades (EN) DIPROMATS 2023 Propaganda identification (EN) DIPROMATS 2023: Coarse propaganda characterization (EN) DIPROMATS 2023 Fine-grained propaganda characterization (EN) SQAC-SQUAD 2024 EN EXIST 2023 TAREA 1 EN EXIST 2023 TAREA 2 EN EXIST 2023 TAREA 3 EN Media aritmética Usuario
1 TEST CORE II 0.66 0.77 0.87 0.64 0.69 0.28 0.00 0.00 0.00 0.00 0.391 nandezgarcia
2 TEST CORE III 0.60 0.59 0.73 0.52 0.33 0.78 0.00 0.00 0.00 0.00 0.355 nandezgarcia
3 TEST CORE I 0.75 0.77 0.55 0.46 0.38 0.29 0.00 0.00 0.00 0.00 0.320 jpedrosa
4 TEST CORE IV 0.77 0.78 0.81 0.58 0.64 0.23 0.00 0.00 0.00 0.00 0.381 jpedrosa

Odesia Extended Tasks

# Sistema MLDOC - Document classification Multilingual Complex Named Entity Recognition 2022 SQAC-SQUAD 2016 EN Semantic Textual Similarity ES-ES 2017 Media aritmética Usuario
1 TEST EXTENDED I 0.73 0.82 0.75 0.83 0.783 nandezgarcia
2 TEST EXTENDED II 0.76 0.86 0.82 0.79 0.808 nandezgarcia
# Sistema MLDOC - Document classification (EN) Multilingual Complex Named Entity Recognition 2022 (EN) SQAC-SQUAD 2016 Semantic Textual Similarity EN-EN 2017 Media aritmética Usuario
1 TEST EXTENDED I 0.77 0.80 0.78 0.72 0.768 nandezgarcia
2 TEST EXTENDED II 0.82 0.76 0.83 0.77 0.795 nandezgarcia

Ver todos los resultados en el Leaderboard

Brecha Español e Inglés

Odesia Core Tasks


Tareas Mejor resultado Español Mejor resultado Inglés
Media total 0.70 0.73 23%
EXIST 2022: Sexism detection 0.88 0.77 13%
EXIST 2022: Sexism categorisation 0.79 0.78 55%
DIPROMATS 2023 Propaganda identification 0.53 0.64 65%
DIPROMATS 2023: Coarse propaganda characterization 0.77 0.69 21%
DIPROMATS 2023 Fine propaganda characterization 0.33 0.78 50%
DIANN 2023: Detección de discapacidades 0.88 0.87 24%
SQAC-SQUAD 2024 ES 0.70 0.70 0%
EXIST 2023 TAREA 1 ES 0.70 0.71 2%
EXIST 2023 TAREA 2 ES 0.70 0.70 0%
EXIST 2023 TAREA 3 ES 0.70 0.70 0%

Odesia Extended Tasks


Tareas Mejor resultado Español Mejor resultado Inglés
Media total 0.83 0.81 32.25%
MLDOC - Document classification 0.76 0.82 24%
Multilingual Complex Named Entity Recognition 2022 0.86 0.80 33%
SQAC-SQUAD 2016 EN 0.82 0.83 21%
Semantic Textual Similarity ES-ES 2017 0.86 0.77 51%

Ver todos los resultados en el Leaderboard

Participa

Puedes participar de varias maneras:

(1) Evaluando modelos de lenguaje en español o en inglés.
(2) Evaluando modelos multilenguajes en español e inglés.

Si quieres evaluar tu modelo para una úinica tarea, puedes hacerlo en Evall

Regístrate y participa enviándonos tus resultados.