ODESIA Leaderboard
Evaluación de modelos de lenguaje en inglés y español
NUEVO: ODESIA CHALLENGE
-- Envía el mejor sistema sobre las tareas de ODESIA CORE y gana un premio en metálico de 3.000€
Fecha límite: 2 de Febrero, 2025.
Objetivos: establecer una comparación directa entre el rendimiento de modelos en inglés y español para medir la brecha de efectividad.
Método: evaluación sobre el Benchmark ODESIA, una colección de tareas de Procesamiento del Lenguaje Natural con conjuntos de datos comparables en inglés y español.
Objetivos
El Leaderboard ODESIA permite (I) medir la brecha de efectividad de los modelos de lenguaje en español respecto al inglés; (II) evaluar de forma comparada modelos de lenguaje en español. Si has desarrollado un modelo de lenguaje en español, ¡envía tus resultados!
Resultados
La brecha de efectividad promedio entre Español e Inglés es del 20%, con un error estándar de ±4%. Hay que destacar que la brecha es más acusada en las tareas más difíciles (hasta superar el 200% en la tarea con mayor dificultad intrínseca), y por tanto el valor promedio tiene una representatividad relativa.
Tareas
Se utilizan dos conjuntos de tareas: (I) ODESIA CORE, diez tareas bilingües con datos de test privado (esto evita la contaminación, que los modelos hayan visto las claves de evaluación en la fase de preentrenamiento); y (II) ODESIA EXTENDED,que añade un conjunto de cinco tareas bilingües estándar y disponibles de forma pública.
Metodología
ODESIA Leaderboard utiliza un conjunto de 14 tareas bilingües para comparar el estado del arte en inglés y español. Sobre cada tarea (I) se estima la dificultad intrínseca aplicando varios algoritmos no lingüísticos y (II) se calibran los mejores resultados en cada idioma usando esa dificultad intrínseca.
Leaderboard
Odesia Core Tasks
Sistema
|
Media aritmética
|
||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Ixa ehu ixambert base cased | 0.4748 | 0.6743 | 0.4875 | 0.7666 | 0.3796 | 0.0543 | 0.6868 | 0.6117 | 0.3890 | 0.3412 | 0.3570 |
Bertin roberta base spanish | 0.4912 | 0.7280 | 0.4941 | 0.7596 | 0.2532 | 0.1782 | 0.6877 | 0.6465 | 0.4146 | 0.3331 | 0.4172 |
Xlm roberta large | 0.5873 | 0.7663 | 0.5593 | 0.8186 | 0.5343 | 0.4527 | 0.7855 | 0.6564 | 0.4414 | 0.3995 | 0.4589 |
Xlm roberta base | 0.5264 | 0.7395 | 0.4997 | 0.7894 | 0.4504 | 0.2668 | 0.7819 | 0.6236 | 0.4245 | 0.3195 | 0.3691 |
PlanTL GOB ES roberta large bne | 0.5626 | 0.7241 | 0.5668 | 0.8177 | 0.5173 | 0.3894 | 0.6757 | 0.6671 | 0.4237 | 0.3798 | 0.4640 |
PlanTL GOB ES roberta base bne | 0.5453 | 0.7356 | 0.5554 | 0.8149 | 0.4906 | 0.2944 | 0.7169 | 0.6531 | 0.4173 | 0.3688 | 0.4061 |
Distilbert base multilingual cased | 0.4728 | 0.7222 | 0.4669 | 0.7507 | 0.4036 | 0.2222 | 0.6868 | 0.5851 | 0.3823 | 0.2874 | 0.2207 |
Dccuchile bert base spanish wwm cased | 0.5408 | 0.7146 | 0.5370 | 0.7916 | 0.4874 | 0.2931 | 0.7478 | 0.6326 | 0.4182 | 0.3738 | 0.4118 |
CenIA distillbert base spanish uncased | 0.4864 | 0.7203 | 0.5118 | 0.7708 | 0.4198 | 0.1782 | 0.6531 | 0.6128 | 0.4160 | 0.3324 | 0.2484 |
Bert base multilingual cased | 0.5073 | 0.7222 | 0.4693 | 0.7821 | 0.4231 | 0.2562 | 0.7592 | 0.6136 | 0.3917 | 0.3326 | 0.3225 |
Sistema
|
Media aritmética
|
||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Ixa ehu ixambert base cased | 0.5286 | 0.7563 | 0.5300 | 0.7450 | 0.7796 | 0.4430 | 0.4004 | 0.3556 | 0.5913 | 0.3622 | 0.3222 |
Xlm roberta large | 0.5723 | 0.7953 | 0.5422 | 0.7740 | 0.7931 | 0.4867 | 0.5123 | 0.3866 | 0.6135 | 0.4029 | 0.4163 |
Xlm roberta base | 0.5279 | 0.7661 | 0.5345 | 0.7438 | 0.7791 | 0.4329 | 0.3773 | 0.3487 | 0.5983 | 0.3735 | 0.3251 |
Roberta large | 0.5961 | 0.8187 | 0.5846 | 0.7982 | 0.7984 | 0.5204 | 0.5526 | 0.4026 | 0.6262 | 0.3962 | 0.4626 |
Roberta base | 0.5522 | 0.7875 | 0.5258 | 0.7612 | 0.7799 | 0.4811 | 0.4406 | 0.3774 | 0.6155 | 0.3779 | 0.3746 |
Distilbert base uncased | 0.5120 | 0.7739 | 0.5486 | 0.6966 | 0.7687 | 0.4054 | 0.3035 | 0.3676 | 0.6044 | 0.3844 | 0.2670 |
Distilbert base multilingual cased | 0.4828 | 0.7388 | 0.4792 | 0.6950 | 0.7471 | 0.3794 | 0.3592 | 0.3041 | 0.5683 | 0.3576 | 0.1994 |
Bert base cased | 0.5329 | 0.7641 | 0.5344 | 0.7364 | 0.7763 | 0.4468 | 0.4271 | 0.3659 | 0.6083 | 0.3701 | 0.2996 |
Bert base multilingual cased | 0.5171 | 0.7563 | 0.5022 | 0.7384 | 0.7709 | 0.4266 | 0.3884 | 0.3443 | 0.5876 | 0.3618 | 0.2948 |
Odesia Extended Tasks
Sistema
|
Media aritmética
|
||||
---|---|---|---|---|---|
Ixa ehu ixambert base cased | 0.7764 | 0.9579 | 0.5926 | 0.7429 | 0.8120 |
Bertin roberta base spanish | 0.7484 | 0.9605 | 0.5215 | 0.7298 | 0.7818 |
Xlm roberta large | 0.8156 | 0.9641 | 0.6801 | 0.7895 | 0.8287 |
Xlm roberta base | 0.7646 | 0.9534 | 0.6201 | 0.6988 | 0.7861 |
PlanTL GOB ES roberta large bne | 0.7922 | 0.9567 | 0.6069 | 0.7818 | 0.8232 |
PlanTL GOB ES roberta base bne | 0.7823 | 0.9570 | 0.6041 | 0.7584 | 0.8096 |
Distilbert base multilingual cased | 0.7088 | 0.9425 | 0.5580 | 0.5566 | 0.7781 |
Dccuchile bert base spanish wwm cased | 0.7661 | 0.9564 | 0.5472 | 0.7276 | 0.8330 |
CenIA distillbert base spanish uncased | 0.7182 | 0.9553 | 0.5894 | 0.5329 | 0.7951 |
Bert base multilingual cased | 0.7613 | 0.9562 | 0.5992 | 0.6976 | 0.7920 |
distilbert-base-multilingual-cased | 0.1375 | 0.5500 | 0.0000 | 0.0000 | 0.0000 |
Sistema
|
Media aritmética
|
||||
---|---|---|---|---|---|
Ixa ehu ixambert base cased | 0.8047 | 0.9756 | 0.6075 | 0.8187 | 0.8170 |
Xlm roberta large | 0.8457 | 0.9789 | 0.7007 | 0.8581 | 0.8450 |
Xlm roberta base | 0.7984 | 0.9761 | 0.6080 | 0.7998 | 0.8097 |
Roberta large | 0.8556 | 0.9832 | 0.7012 | 0.8724 | 0.8656 |
Roberta base | 0.8345 | 0.9802 | 0.6577 | 0.8427 | 0.8572 |
Distilbert base uncased | 0.8063 | 0.9726 | 0.6563 | 0.7602 | 0.8360 |
Distilbert base multilingual cased | 0.7681 | 0.9693 | 0.5693 | 0.7467 | 0.7872 |
Bert base cased | 0.8036 | 0.9749 | 0.5993 | 0.7968 | 0.8434 |
Bert base multilingual cased | 0.8035 | 0.9716 | 0.6252 | 0.8059 | 0.8112 |
Compruebe todos los resultados en el Leaderboard
Gap Español-Inglés
The overall gap between Spanish and English is 21%
Odesia Core Tasks
Tareas |
Mejor resultado en Español
|
Mejor resultado en Inglés
|
|
---|---|---|---|
Media total |
0.59
|
0.60
|
20%
|
EXIST 2022: Sexism detection | 0.77 | 0.82 | 49% |
EXIST 2022: Sexism categorisation | 0.57 | 0.58 | 30% |
DIPROMATS 2023: Propaganda identification | 0.82 | 0.80 | 25% |
DIPROMATS 2023: Coarse propaganda characterization | 0.53 | 0.52 | -1% |
DIPROMATS 2023: Fine-grained propaganda characterization | 0.45 | 0.55 | 23% |
DIANN 2023: Disability detection | 0.79 | 0.80 | 71% |
EXIST-2023: Sexism identification (soft-soft) | 0.67 | 0.63 | -5% |
EXIST-2023: Source Intention (soft-soft) | 0.44 | 0.40 | -4% |
EXIST-2023: Sexism categorization (soft-soft) | 0.40 | 0.40 | 8% |
SQAC-SQUAD 2024: Question answering | 0.46 | 0.46 | 2% |
Odesia Extended Tasks
Tareas |
Mejor resultado en Español
|
Mejor resultado en Inglés
|
|
---|---|---|---|
Total mean | 0.82 | 0.86 | 23.5% |
MLDOC 2018: Document classification | 0.96 | 0.98 | 66% |
Multilingual Complex Named Entity Recognition 2022 | 0.68 | 0.70 | -6% |
SQAC-SQUAD 2016: Question answering | 0.79 | 0.87 | 26% |
Semantic Textual Similarity 2017 | 0.83 | 0.87 | 8% |
Compruebe todos los resultados en el Leaderboard
Participa
Puedes participar de varias maneras:
(1) Evaluando modelos de lenguaje en español o en inglés.
(2) Evaluando modelos multilingües en español e inglés.
Si quieres evaluar tu modelo para una única tarea, puedes hacerlo en EvALL.
Regístrate y participa enviando tus resultados.