MLDOC 2018: Document classification

Tarea monolingüe de clasificación de documentos realizada sobre el conjunto de datos en español del Multilingual Document Classification Corpus (MLDoc) (Schwenk y Li, 2018), un conjunto de datos multilingüe de clasificación de documentos en 8 idiomas.  El corpus en español consta de 14.458 artículos de noticias de Reuters clasificados en cuatro categorías: Corporativo/Industrial, Economía, Gobierno/Social y Mercados. La tarea consiste en clasificar cada documento en una de las cuatro clases.

Publicación
Holger Schwenk and Xian Li. 2018. A Corpus for Multilingual Document Classification in Eight Languages. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan. European Language Resources Association (ELRA).
Idioma
Español
Tarea abstracta
Año
2018
Métrica Ranking
F1

Mejores resultados para la tarea

Sistema Precisión Recall F1 Ordenar ascendente CEM Accuracy MacroPrecision MacroRecall MacroF1 RMSE MicroPrecision MicroRecall MicroF1 MAE MAP UAS LAS MLAS BLEX Pearson correlation Spearman correlation MeasureC BERTScore EMR Exact Match F0.5 Hierarchical F ICM MeasureC Propensity F Reliability Sensitivity Sentiment Graph F1 WAC b2 erde30 sent weighted f1
Xlm roberta large 0.9641 0.9641 0.9641 0.9641 0.96
Bertin roberta base spanish 0.9605 0.9605 0.9605 0.9605 0.96
Ixa ehu ixambert base cased 0.9579 0.9579 0.9579 0.9579 0.96
PlanTL GOB ES roberta base bne 0.9570 0.9570 0.9570 0.9570 0.96
PlanTL GOB ES roberta large bne 0.9567 0.9567 0.9567 0.9567 0.96
Dccuchile bert base spanish wwm cased 0.9564 0.9564 0.9564 0.9564 0.96
Bert base multilingual cased 0.9562 0.9562 0.9562 0.9562 0.96
CenIA distillbert base spanish uncased 0.9553 0.9553 0.9553 0.9553 0.96
Xlm roberta base 0.9534 0.9534 0.9534 0.9534 0.95
Distilbert base multilingual cased 0.9425 0.9425 0.9425 0.9425 0.94