MLDOC 2018: Document classification

Tarea monolingüe de clasificación de documentos realizada sobre el conjunto de datos en español del Multilingual Document Classification Corpus (MLDoc) (Schwenk y Li, 2018), un conjunto de datos multilingüe de clasificación de documentos en 8 idiomas. El corpus en español consta de 14.458 artículos de noticias de Reuters clasificados en cuatro categorías: Corporativo/Industrial, Economía, Gobierno/Social y Mercados. La tarea consiste en clasificar cada documento en una de las cuatro clases.

Publicación

Holger Schwenk and Xian Li. 2018. A Corpus for Multilingual Document Classification in Eight Languages. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan. European Language Resources Association (ELRA).

Idioma

Español

URL Tarea

https://github.com/facebookresearch/MLDoc

NLP topic

clasificación de textos

Tarea abstracta

Clasificación

Año

2018

Enlace publicación

https://aclanthology.org/L18-…

Métrica Ranking

F1

Mejores resultados para la tarea

Sistema	MacroF1 Ordenar ascendente
Xlm roberta large	0.9641
Llama-3.1-8B	0.9636
Qwen2.5-7B	0.9627
Bertin roberta base spanish	0.9605
Ixa ehu ixambert base cased	0.9579
PlanTL GOB ES roberta base bne	0.9570
PlanTL GOB ES roberta large bne	0.9567
Dccuchile bert base spanish wwm cased	0.9564
Bert base multilingual cased	0.9562
Mistral-7B-v03	0.9555