FAQ Leaderboard

¿Qué es el Leaderboard ODESIA ? 

El Leaderboard ODESIA permite evaluar modelos de lenguaje con una colección diversa de tareas de Procesamiento del Lenguaje Natural, susceptibles de ser abordadas por los modelos de lenguaje  mediante el entrenamiento supervisado de la última capa de neuronas (fine-tuning). Cada tarea tiene asociada una métrica. En el leaderboard se reportan tanto los resultados para cada tarea,  como los resultados globales de cada sistema que participa en el leaderboad. La característica única de este leaderboard es que además permite comparar cuantitativamente el estado del arte en inglés y español gracias a que los datasets tienen una versión para cada lengua y son comparables.

¿Qué me aporta el Leaderboard ODESIA? 

No existe ningún leaderboard propiamente dicho para evaluar modelos de lenguaje en español. En general, cada nuevo modelo preentrenado es evaluado por sus autores de forma independiente, y la evaluación se suele incluir en el informe técnico o artículo científico que acompaña la publicación del modelo. Nuestro objetivo principal es crear un leaderboard que permita evaluar comparativamente modelos de lenguaje en inglés y en español, de  modo que se pueda estimar la distancia de rendimiento entre los modelos preentrenados de ambos idiomas en condiciones de igualdad respecto a la cantidad, calidad y comparabilidad de los datos de entrenamiento.

¿Qué tareas se evalúan? 

En el Leaderboard ODESIA, se evalúan dos grupos de tareas, tareas que disponen de datos de evaluación privados (Core Tasks) y tareas cuyos datos de evaluación son públicos (Extended Tasks).

En la Versión 1 del Leaderboard se incluyen 10 tareas con datos de evaluación privados.

  1. DIANN 2023 - Discapacity detection (etiquetado de secuencias, dominio biomédico).
  2. DIPROMATS 2023 -  Propaganda identification (clasificación , dominio de política).
  3. DIPROMATS 2023 -  Coarse propaganda characterization   (clasificación , dominio de política).
  4. DIPROMATS 2023 -  Fine propaganda characterization (clasificación , dominio de política).
  5. EXIST 2022 - Sexism detection  (clasificación, dominio social).
  6. EXIST 2022 - Sexism categorisation  (clasificación, dominio social).
  7. EXIST-2023 - Sexism identification (clasificación,  LeWiDi, dominio social).
  8. EXIST-2023 - Source intention (clasificación, LeWiDi, dominio social).
  9. EXIST-2023 - Sexism categorization (clasificación, LeWiDi, dominio social).
  10. SQUAD-SQAC 2024 -  Question-Answering (extractive) (etiquetado de secuencias, diversos dominios científicos).

Además, se incluyen cuatro tareas con datos de evaluación públicos.

  1. MLDoc - Multilingual Document Classification (clasificación, dominio de noticias).
  2. MULTICONER 2022 - Named entity recognition (etiquetado de secuencias, dominio general) .
  3. STS-2017 - Sentence similarity (regresión, noticias, subtítulos, foros).
  4. SQAC-SQUAD 2016 - Question-Answering (extractive) (etiquetado de secuencias, dominio general).

Se puede obtener información más detallada de cada tarea a partir de la página Tareas.

¿Cómo se calcula la brecha? 

Para poder realizar una comparación cualitativa entre los resultados de español e inglés, se estima primero la dificultad intrínseca de cada dataset entendida como el promedio de efectividad de varios algoritmos de aprendizaje que no manejan información lingüística. A continuación se calibran las diferencias de efectividad en ambos idiomas para eliminar la dificultad intrínseca y obtener la diferencia de rendimiento lingüístico entre un idioma y otro. Información más detallada se encuentra en la página de Metodología.

¿Cómo se calculan las baseline?

Los resultados baseline se obtienen del promedio de los resultados obtenidos por varios modelos que no usan información lingüística. Este promedio se usa como referencia para calibrar la efectividad de los modelos del lenguaje entre inglés y español. Se proporciona Información más detallada en la página de Metodología.

¿Cómo puedo publicar mis resultados? 

Para participar en el leaderboard es neceserio registrarse y rellenar el formulario que aparece en la página Participa, enviando los resultados en un archivo comprimido zip que contenga un archivo de predicciones para cada tarea e idioma. Las instrucciones se pueden encontrar en la página Participa.

¿Puedo publicar anónimamente? 

Los resultados están asociados a una cuenta de usuario que se muestra en el leaderboard, pero no hay restricciones en cuanto al nombre de usuario a utilizar. Los datos de contacto no son publicados.

¿Hay fecha límite? 

El leaderboard se actualiza constantemente, se puede participar en cualquier momento y múltiples veces.

¿Bajo que licencia se distribuyen los datasets? 

Cada dataset tiene su propia licencia, por lo que es conveniente mirar la información de cada uno para obtener esta respuesta. Para las tareas del grupo Core Tasks, las particiones de test no se distribuyen, ya que se intenta evitar la contaminación de los modelos.

¿Cómo tiene que ser el formato de los archivos de predicciones? 

La entrega de resultados de las predicciones de los modelos pre-entrenandos se realiza utilizando el formato json propuesto en la plataforma de evaluación EvALL 2.0.  Todas las predicciones deben de tener los campos "test_case", "id" y "value". El nombre de los ficheros se compone por  el nombre de la tarea, el número de tarea y el idioma.  

Por ejemplo, para hacer un envío en español, los ficheros tendrían que estar en un zip y nombrados del siguiente modo:

  • DIANN_2023_T1_es.json     
  • DIPROMATS_2023_T1_es.json     
  • DIPROMATS_2023_T2_es.json     
  • DIPROMATS_2023_T3_es.json     
  • EXIST_2022_T1_es.json     
  • EXIST_2022_T2_es.json
  • EXIST_2023_T1_es.json     
  • EXIST_2023_T2_es.json     
  • EXIST_2023_T3_es.json     
  • SQUAD-SQAC_2024_T1_es.json     
  • MLDOC_2018_es.json     
  • MULTICONER_2022_es.json     
  • SQAC_SQUAD_2016_es.json     
  • STS_2017_es.json

Aquí puedes descargar ejemplos de predicciones para los envíos en inglés, español y ambos idiomas.

¿Con qué métrica se evalúan las tareas? 

Cada tarea tiene su propia métrica en función del problema que plantea,  a partir de la cual se calcula el ranking de los sistemas. Para un mayor detalle se recomienda revisar la página de Tareas.

¿Cómo se evalúan las resultados? 

Los resultados enviados se evalúan mediante la herramienta EvALL 2.0, para más información accede a  http://evall.uned.es/