ODESIA Challenge @ SEPLN 2024 (1 julio - 14 septiembre)

Inscripción abierta hasta el 30 de julio

CÓMO PARTICIPAR

Sistema
Media aritmética
Ixa ehu ixambert base cased 0.4748 0.6743 0.4875 0.7666 0.3796 0.0543 0.6868 0.6117 0.3890 0.3412 0.3570
Bertin roberta base spanish 0.4912 0.7280 0.4941 0.7596 0.2532 0.1782 0.6877 0.6465 0.4146 0.3331 0.4172
Xlm roberta large 0.5873 0.7663 0.5593 0.8186 0.5343 0.4527 0.7855 0.6564 0.4414 0.3995 0.4589
Xlm roberta base 0.5264 0.7395 0.4997 0.7894 0.4504 0.2668 0.7819 0.6236 0.4245 0.3195 0.3691
PlanTL GOB ES roberta large bne 0.5626 0.7241 0.5668 0.8177 0.5173 0.3894 0.6757 0.6671 0.4237 0.3798 0.4640
PlanTL GOB ES roberta base bne 0.5453 0.7356 0.5554 0.8149 0.4906 0.2944 0.7169 0.6531 0.4173 0.3688 0.4061
Distilbert base multilingual cased 0.4728 0.7222 0.4669 0.7507 0.4036 0.2222 0.6868 0.5851 0.3823 0.2874 0.2207
Dccuchile bert base spanish wwm cased 0.5408 0.7146 0.5370 0.7916 0.4874 0.2931 0.7478 0.6326 0.4182 0.3738 0.4118
CenIA distillbert base spanish uncased 0.4864 0.7203 0.5118 0.7708 0.4198 0.1782 0.6531 0.6128 0.4160 0.3324 0.2484
Bert base multilingual cased 0.5073 0.7222 0.4693 0.7821 0.4231 0.2562 0.7592 0.6136 0.3917 0.3326 0.3225
XLM-RoBERTa-large-v3 0.5462 0.7452 0.5540 0.8224 0.5425 0.4581 0.5967 0.5441 0.4384 0.3609 0.4000
XLM-RoBERTa-large-2 0.5320 0.7452 0.5540 0.8224 0.5425 0.4581 0.5967 0.5441 0.4384 0.3609 0.2581
XLM-RoBERTa-large 0.4951 0.7452 0.5540 0.8224 0.5425 0.4581 0.5967 0.5441 0.3371 0.0925 0.2581

BASES DE LA COMPETICIÓN

El objetivo de esta competición es promover el desarrollo y la evaluación de modelos de lenguaje en español utilizando el sistema de evaluación y los conjuntos de datos proporcionados por el proyecto ODESIA (Espacio de Observación del Desarrollo del Español en la Inteligencia Artificial).

La competición consiste en resolver 10 tareas discriminativas de Procesamiento del Lenguaje Natural (PLN) en español, que pertenecen al Leaderboard ODESIA y se evalúan con datos privados. Estas tareas, con datos de evaluación privados, pertenecen a la sección ODESIA-CORE del ODESIA Leaderboard. El Leaderboard ODESIA es una aplicación que proporciona una infraestructura de evaluación de modelos de lenguaje preentrenados en inglés y español que permite una comparación directa de la efectividad de modelos en las dos lenguas. Además, el leaderboard tiene otra sección, ODESIA-EXTENDED, con 4 tareas con datos de evaluación públicos preexistentes, pero éstas no forman parte de la competición. Aunque ODESIA proporciona datos bilingües (español e inglés), esta competición se centra en sólo en las tareas en español (la parte de ODESIA-CORE en español).

El equipo ganador recibirá un premio en metálico de 3,000 euros, donados por la empresa LLYC (Llorente y Cuenca Madrid, SL). Los detalles se proporcionan más abajo.

ODESIA-CORE contiene 10 tareas discriminativas con datasets de entrenamiento públicos y datasets de test privados (no se han distribuido previamente por ningún medio) creados dentro de la iniciativa ODESIA. El carácter privado de los datos de test garantiza la ausencia de contaminación en los resultados del leaderboard: los LLMs no deberían haber podido podido ver las anotaciones del test set en su fase de preentrenamiento. Este es un resumen de las tareas:

Nombre Dominio Task Tarea abstracta Métrica
DIANN 2023 Biomédico Detección de discapacidades Etiquetado de secuencias F1 Macro
DIPROMATS 2023 Política Identificación de propaganda Clasificación binaria ICM-Norm
Caracterización gruesa de propaganda Clasificación jerárquica multiclase, multietiqueta ICM-Norm
Caracterización fina de propaganda Clasificación jerárquica multiclase, multietiqueta ICM-Norm
EXIST 2022 Social Detección de sexismo Clasificación binaria Accuracy
Categorización de sexismo Clasificación multiclase F1 Macro
EXIST 2023 Social Detección de sexismo Clasificación binaria Soft-ICM-Norm
Categorización de la intención de la fuente Clasificación jerárquica multiclase Soft-ICM-Norm
Categorización de sexismo Clasificación jerárquica multiclase, multietiqueta Soft-ICM-Norm
SQUAD-SQAC 2024 Científico (diverso) Pregunta-Respuesta extractiva Etiquetado de secuencias F1

El sistema ganador será aquel que, a fecha de fin de la competición, obtenga la mejor puntuación promedio en las tareas ODESIA-CORE en español.

Se aceptarán todo tipo de sistemas de Procesamiento del Lenguaje Natural (PLN) que se apliquen de manera uniforme a todas las tareas. Es decir, cada participación debe ser un único sistema que se aplique a todas las tareas, y no una aproximación diferente para cada tarea. No será aceptable una participación en la que la solución para cada tarea se construya de manera independiente.

A modo de ejemplo, son aceptables sistemas con las siguientes características (lista no exhaustiva):

  • El sistema es un LLM (o un ensemble de LLMs) de tipo encoder, al que se le aplica un proceso de fine-tuning sobre cada una de las tareas de la competición, utilizando los datos de entrenamiento proporcionados en el paquete de descarga u otros que los miembros del equipo consideren oportunos.
  • El sistema es uno o varios LLMs generativos, combinados con una estrategia uniforme de prompting zero-shot, one-shot o few-shot
  • El sistema es uno o varios LLMs generativos combinados con una estrategia de retrieval-augmented generation sobre el training set u otros tipos de fuentes externas.
  • Cualquier combinación de los métodos anteriores, siempre que se aplique de manera uniforme a todos los datasets.

Para garantizar la originalidad de las soluciones aportadas, la organización podrá solicitar a los equipos el código que hayan empleado, junto a todos los materiales necesarios para reproducir sus resultados. El código se proporcionará en forma de enlace a un repositorio GitHub junto con una imagen Docker para facilitar su ejecución.

Los modelos o sistemas para los que no se proporcione una forma de verificación o reproducción de los resultados, si los organizadores lo requieren, constarán como participantes en la tabla de resultados, pero no podrán optar al premio del concurso.

  • Los equipos tendrán que registrarse previamente en el concurso antes de poder participar.
  • Cada equipo registrará una única cuenta en el sistema de evaluación ODESIA-Leaderboard a través del formulario habilitado a tal efecto (enlace).
  • La organización proporcionará un nombre de usuario y contraseña en la plataforma ODESIA-Leaderboard una vez que se validen los datos de registro.

  • Los resultados se enviarán a través de ODESIA Leaderboard en https://leaderboard.odesia.uned.es/leaderboard/submit , donde serán evaluados automáticamente usando las métricas correspondientes a cada tarea.
  • Para realizar cada envío, los equipos deberán formatear sus ficheros de predicciones siguiendo las especificaciones que se describen en los ficheros README de cada conjunto de datos (incluidos en el paquete de descarga).
  • Además, se deberán rellenar los siguientes campos en la página de envío de predicciones:
    • Nombre del equipo: Nombre de usuario del representante del equipo en la plataforma ODESIA, que se proporcionará al registrarse en el concurso.
    • Correo electrónico: Correo electrónico de contacto usado en el registro en el concurso.
    • Afiliación: Institución/es a la/s que pertenece/n el/los participante/s (si se aplica).
    • Nombre del sistema: Se formateará como “{nombre_del_equipo}-{número_de_envio}”, donde nombre_del_equipo será un identificador invariante para todos los envíos de un mismo participante, y donde “número_de_envío” será un número de 1 a 20 correspondiente a cada uno de los veinte envíos permitidos por equipo durante el concurso.
    • URL del modelo: (opcional) URL del modelo (por ejemplo en Hugging Face) si se aplica.
    • Descripción del sistema: Descripción de entre 300 y 500 palabras del sistema usado para generar las predicciones.
    • GitHub URL: De manera opcional, los equipos podrán añadir en este campo el enlace al código fuente utilizado para generar los resultados.
    • Leaderboard version: "Challenge" se elegirá obligatoriamente.
    • Idiomas del envío: Marcar sólo "Spanish".
    • ZIP File: Los resultados del sistema se envían mediante un fichero comprimido con las predicciones formateadas de acuerdo con el fichero indicado más arriba.
El proceso de evaluación puede tardar hasta dos minutos. Una vez completado, la aplicación de envío de ejecuciones permite comprobar los resultados de la evaluación de un envío y elegir si hacerlos públicos o no en el leaderboard. Con independencia de que se hagan públicos o no, cada envío contará para el máximo de veinte (20) por equipo permitido durante el concurso.

El Leaderboard ODESIA utiliza la librería de evaluación PyEvALL para las tareas de clasificación. PyEvALL es accesible desde el gestor de paquetes Pip y puede ser utilizada durante la fase de desarrollo de los sistemas para evaluar las tareas de DIPROMATS 2023, EXIST 2022 y EXIST 2023. Así mismo, la métrica F1 implementada para evaluar las tareas del dataset SQUAD/SQAC original ha sido adaptada para evaluar las tareas del dataset SQUAD-SQAC 2024. Su implementación original, para su uso en la fase de desarrollo, se puede encontrar en SQUAD METRIC. Por su parte, la tarea de etiquetado de secuencias DIANN 2023 utiliza la métrica Macro F1 implementada en la librería HuggingFace Evaluate que también ha sido adaptada para ser utilizada en el Leaderboard ODESIA.

Las únicas restricciones sobre los equipos participantes son:

  • Todos los miembros del equipo deben ser mayores de edad.
  • Ninguna persona puede ser miembro de más de un equipo.

  • Se establece un único premio de 3.000 euros (donados por la empresa Llorente y Cuenca Madrid, SL) para el equipo que presente el sistema con el mejor rendimiento promedio en todas las tareas de ODESIA-CORE en español.
  • Para poder optar al premio, se establecen las siguientes condiciones:
    • Los equipos deben hacer públicos sus resultados en el leaderboard de ODESIA antes de la fecha de fin del concurso.
    • El equipo ganador debe obtener una puntuación promedio superior a la de los modelos baseline proporcionados por la organización. En particular, deben superar al modelo que obtiene el mejor promedio, que es XLM-Roberta-Large con una puntuación de 0.5873.
    • Debe haber un mínimo de cinco equipos que hayan enviado resultados válidos. Si no se llega a este mínimo, la organización se reserva el derecho de aplazar la fecha límite de la competición.
    • El equipo ganador se compromete a presentar su solución en la sesión de entrega de premios del concurso (ver sección "Presentación de Resultados y Entrega del Premio").
    • Los empleados de UNED, LLyC Madrid S.L., Red.es, SEDIA y cualquier otra entidad relacionada con el proyecto ODESIA podrán participar en la competición, pero no optar al premio final en metálico.

  • Se deben respetar las reglas éticas y profesionales de sentido común. La organización se reserva el derecho de descalificar equipos que violen las reglas.
  • No se imponen límites a la cuantía de los costes derivados de la implementación de las soluciones, pero la organización podrá solicitar información sobre los mismos.
  • Los organizadores se reservan el derecho de actualizar las normas en respuesta a circunstancias imprevistas con el fin de servir mejor a la misión del concurso.
  • Los organizadores se reservan todos los derechos en cuanto al fallo final.

  • Al equipo ganador, y a aquellos equipos que presenten soluciones innovativas, se les solicitará un informe técnico en formato PDF de un mínimo de 4 páginas (excluidas las referencias) detallando su solución.
  • El informe incluirá una discusión de las estrategias adoptadas por el equipo en la confección de su propuesta y de los resultados de evaluación.
  • El informe incluirá un detalle de los costes de implementación del sistema y del uso de los conjuntos de datos utilizados, tanto aquellos proporcionados por la organización como los de terceros.
  • En caso de haber material suficiente, se considerará la opción de publicar los informes técnicos en un número especial o en un artículo conjunto de una revista del área.

  • Los resultados del concurso y entrega de premios oficial se presentarán dentro del marco del XL Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN), que se celebrará en Valladolid entre los días 24 y 27 de septiembre de 2024 (sesión programada para el miércoles 25 de septiembre a las 17:30 hora española). La aceptación del premio implica la asistencia obligatoria (presencial u online) a dicha sesión.
  • Todos los participantes recibirán certificados de participación a la finalización del concurso.

Esta competición se organiza en el marco del Proyecto ODESIA, fruto de un convenio entre la universidad pública española UNED y Red.es, Entidad Pública Empresarial adscrita al Ministerio para la Transformación Digital y la Función Pública, a través de la Secretaría de Estado de Digitalización e Inteligencia Artificial. El proyecto está parcialmente financiado por la Unión Europea (fondos NextGenerationEU) a través del "Plan de Recuperación, Transformación y Resiliencia'', por el Ministerio de Economía y Transformación Digital y por la Universidad UNED. Pertenece a las actividades del "Plan de Tecnologías del Lenguaje de la Secretaría de Estado de Inteligencia Artificial y Digitalización" de España.

  • Comité Organizativo:
    • Alejandro Benito-Santos (co-chair, UNED)
    • Roser Morante (co-chair, UNED)
    • Julio Gonzalo (UNED)
    • Jorge Carrillo-de-Albornoz (UNED)
    • Laura Plaza (UNED)
    • Enrique Amigó (UNED)
    • Víctor Fresno (UNED)
    • Andrés Fernández (UNED)
    • Adrián Ghajari (UNED)
    • Guillermo Marco (UNED)
    • Eva Sánchez (UNED)
    • Miguel Lucas (LLyC)
  • Consejo Asesor:
    • TBA

Para preguntas relacionadas con la competición, recomendamos acceder al servidor Discord: #odesia-challenge-2024. Alternativamente puede escribirse a la presidencia del comité de organización, Alejandro Benito-Santos (al.benito@lsi.uned.es) y Roser Morante (r.morant@lsi.uned.es).

  • Inicio del concurso: 1 de julio de 2024
  • Cierre de inscripciones: 30 de julio de 2024*
  • Cierre del concurso: 14 de septiembre de 2024*
  • Anuncio oficial de resultados: 16-20 de septiembre de 2024.
  • Sesión de presentación de resultados y entrega de premios: 25 de septiembre de 2024 a las 17:30 en SEPLN 2024
*23:59 AoE (Anywhere on Earth)