Tarea monolingüe de clasificación de documentos realizada sobre el conjunto de datos en inglés del Multilingual Document Classification Corpus (MLDoc) (Schwenk y Li, 2018), un conjunto de datos multilingüe de clasificación de documentos en 8 idiomas. El corpus en inglés consta de 14.458 artículos de noticias de Reuters clasificados en cuatro categorías: Corporativo/Industrial, Economía, Gobierno/Social y Mercados. La tarea consiste en clasificar cada documento en una de las cuatro clases.
Publicación
Holger Schwenk and Xian Li. 2018. A Corpus for Multilingual Document Classification in Eight Languages. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan. European Language Resources Association (ELRA).
Idioma
Inglés
NLP topic
Tarea abstracta
Año
2018
Enlace publicación
Métrica Ranking
F1
Mejores resultados para la tarea
Sistema | Precisión | Recall | F1 Ordenar ascendente | CEM | Accuracy | MacroPrecision | MacroRecall | MacroF1 | RMSE | MicroPrecision | MicroRecall | MicroF1 | MAE | MAP | UAS | LAS | MLAS | BLEX | Pearson correlation | Spearman correlation | MeasureC | BERTScore | EMR | Exact Match | F0.5 | Hierarchical F | ICM | MeasureC | Propensity F | Reliability | Sensitivity | Sentiment Graph F1 | WAC | b2 | erde30 | sent | weighted f1 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Roberta large | 0.9832 | 0.9832 | 0.9832 | 0.9832 | 0.98 | ||||||||||||||||||||||||||||||||
Roberta base | 0.9802 | 0.9802 | 0.9802 | 0.9802 | 0.98 | ||||||||||||||||||||||||||||||||
Xlm roberta large | 0.9789 | 0.9789 | 0.9789 | 0.9789 | 0.98 | ||||||||||||||||||||||||||||||||
Xlm roberta base | 0.9761 | 0.9761 | 0.9761 | 0.9761 | 0.98 | ||||||||||||||||||||||||||||||||
Ixa ehu ixambert base cased | 0.9756 | 0.9756 | 0.9756 | 0.9756 | 0.98 | ||||||||||||||||||||||||||||||||
Bert base cased | 0.9749 | 0.9749 | 0.9749 | 0.9749 | 0.97 | ||||||||||||||||||||||||||||||||
Distilbert base uncased | 0.9726 | 0.9726 | 0.9726 | 0.9726 | 0.97 | ||||||||||||||||||||||||||||||||
Bert base multilingual cased | 0.9716 | 0.9716 | 0.9716 | 0.9716 | 0.97 | ||||||||||||||||||||||||||||||||
Distilbert base multilingual cased | 0.9693 | 0.9693 | 0.9693 | 0.9693 | 0.97 |