Metodología

El Leaderboard ODESIA proporciona una infraestructura de evaluación para modelos de lenguaje preentrenados en inglés y español que permite una comparación directa entre el rendimiento de modelos en uno y otro idioma y, por tanto, medir la brecha de efectividad inglés-español de los sistemas de Procesamiento del Lenguaje Natural (PLN) del estado del arte. La infraestructua consta de un benchmark sobre el cual se evalúan los modelos y un leaderboard donde se muestran los resultados.


Benchmark

Un benchmark para evaluar comparativamente modelos de lenguaje suele consistir en una colección diversa de tareas de Procesamiento del Lenguaje Natural, susceptibles de ser abordadas por los modelos de lenguaje mediante el entrenamiento supervisado de la última capa de neuronas (fine-tuning). El benchmark del Leaderboard ODESIA está formado por datasets con partición de test privada (Core Tasks) y datasets con partición de test pública (Extended Tasks).  Todos los datasets contienen un conjunto en inglés y otro en español.

Los datasets con particiones de test privadas son los siguientes:

  • DIPROMATS 2023. Este dataset fue creado desde cero para incorporarlo al Leaderboard ODESIA en la Versión 1. Se trata de un conjunto de tuits emitidos por diplomáticos de cuatro potencias mundiales (la Unión Europea, Rusia, China y Estados Unidos), anotados en función de las técnicas de propaganda que utilizan para transmitir una imagen determinada de sus países o de sus competidores a nivel global. Hay tres tareas asociadas con este dataset: identificación de propaganda, caracterización a grano grueso (cuatro técnicas) y caracterización a grano fino (15 técnicas subsumidas en las anteriores). Se trata de un problema de clasificación multiclase y multietiqueta. Se enmarca dentro de los problemas relacionados con la desinformación.
  • EXIST 2022. Este conjunto de datos contiene tuits anotados con información sobre el sexismo: una etiqueta binaria que indica si el tuit expresa sexismo o no, y una etiqueta multiclase que incide en el tipo de sexismo que se transmite. Se enmarca en el problema de la toxicidad en las redes sociales.
  • DIANN 2023. Contiene abstracts de artículos biomédicos, en los que se anotan las menciones de discapacidades. La tarea relacionada es el reconocimiento de entidades, que es una tarea de etiquetado de secuencias. 
  • EXIST 2023. Se trata de un dataset creado en su integridad para la Versión 2 del Leaderboard. Se compone de tuits etiquetados en función del tipo de sexismo expresado o descrito en ellos. Se trata, además, de un dataset desarrollado siguiendo el paradigma de "aprendizaje con desacuerdo'' (Learning with Disagreement, LeWiDi) , lo que lo convierte en el primer dataset para el entrenamiento y prueba de sistemas de detección de sexismo en textos construido conforme a este paradigma. Consta de tres particiones (entrenamiento, desarrollo, evaluación) y anotaciones para tres tareas: Detección de sexismo, categorización e identificación del emisor de sexismo. Se enmarca dentro del problema de la toxicidad en redes sociales.
  • SQUAD/SQAC 2024. Este dataset consiste en una una partición de evaluación creada para la Versión 2 del Leaderboard ODESIA. Contiene artículos de divulgación científica del CSIC para el español y de Cambridge University para el inglés anotados con preguntas y respuestas extractivas. La tarea que este dataset permite evaluar es la de comprensión de texto extractiva en sistemas de pregunta-respuesta. La tarea consiste en responder a preguntas sobre un texto, de tal manera que la respuesta sea un fragmento extraido directamente del texto. Se trata de una tarea de etiquetación de secuencias.

Para construir los datasets se ha aplicado una metodología idéntica en los dos idiomas para seleccionar los textos fuente y anotarlos manualmente, y se han definido mecanismos de calibración para compensar posibles diferencias de dificultad intrínseca entre los datasets de ambos idiomas. En todos ellos, además, el subconjunto de test se mantendrá oculto indefinidamente para evitar los efectos de sobreajuste de sistemas y para evitar la posible contaminación de los sistemas en la fase de preentrenamiento.

Los datasets con particiones públicas se listan a continuación. Para todos estos datasets utilizamos los datos públicos de entrenamiento y test.

  • Multilingual Document Classification Corpus (MLDoc) (Schwenk y Li, 2018) contiene noticias clasificadas en cuatro categorías: corporate/industrial, economics, government/social y markets.
  • MultiCONER 2022 (Malmasi et al., 2022),  es un dataset multilingüe para reconocimiento de entidades nombradas complejas con seis categorías diferentes.
  • STS-2017 (Cer et al., 2017), un dataset multilingüe de similitud textual. La tarea consiste en predecir el grado de similitud entre un par de oraciones.

Spanish Question Answering Corpus (SQUAD/SQAC) (Gutiérrez-Fandiño et al., 2021) un dataset de Question Answering extractivo para el españ, en el que, dada una pregunta y un párrafo asociado, ela tarea consiste en localizar el span más pequeño que contiene la respuesta, y SQuAD v1.1 (Rajpurkar et al., 2016), un dataset similar para el inglés.

En la página de tareas se ofrece más información sobre las tareas relacionadas con cada dataset.

Evaluación

El leaderboard utiliza las infraestructuras del toolkit de evaluación y el servicio online de evaluación EvALL 2.0. Para cada tarea se elige una métrica de evaluación pertinente, y se reportan tanto los resultados para cada tarea como el resultado agregado sobre todas ellas, que suele ser alguna forma de promedio.

En la página de tareas se indica qué métrica se ha usado para cada tarea.

Cálculo de la brecha


En breve se publicarán los detalles relativos al cálculo de la brecha.