Multilingual Complex Named Entity Recognition 2022 (ES)

La tarea consiste en detectar y etiquetar entidades semánticamente ambiguas y complejas en contextos breves y poco contextualizados. Las entidades complejas, como los títulos de obras creativas (nombres de películas/libros/canciones/software) no son sustantivos simples y son más difíciles de reconocer. Pueden adoptar la forma de cualquier constituyente lingüístico, como una cláusula imperativa ("Dial M for Murder"), y no se parecen a las entidades tradicionales (nombres de personas, lugares, organizaciones).

La tarea se realiza sobre el conjunto de datos MultiCoNER (Malmasi et al., 2022). MultiCoNER proporciona datos de tres dominios (frases de Wikipedia, preguntas y consultas de búsqueda) en 11 idiomas diferentes, que se utilizan para definir 11 subconjuntos monolingües. Además, el conjunto de datos tiene subconjuntos multilingües y de código mixto.

Se etiquetan las siguientes entidades: nombres de personas, ubicación o instalaciones físicas, corporaciones y empresas, todos los demás grupos, productos de consumo, y títulos de obras creativas, como títulos de películas, canciones y libros.

Publicación

Shervin Malmasi, Anjie Fang, Besnik Fetahu, Sudipta Kar, and Oleg Rokhlenko. 2022. SemEval-2022 Task 11: Multilingual Complex Named Entity Recognition (MultiCoNER). In Proceedings of the 16th International Workshop on Semantic Evaluation (SemEval-2022), pages 1412–1437, Seattle, United States. Association for Computational Linguistics.

Idioma

Español

URL Tarea

https://multiconer.github.io/multiconer_1/

NLP topic

reconocimiento de entidades nombradas

Tarea abstracta

Etiquetado de secuencias

Año

2022

Enlace publicación

https://aclanthology.org/2022…

Métrica Ranking

F1

Mejores resultados para la tarea

Sistema	F1
distilbert-base-multilingual-cased	0.6100
distillbert-base-spanish-uncased	0.6100
bertin-roberta-base-spanish	0.6200
ixambert-base-cased	0.6300
PlanTL-GOB-ES-roberta-large-bne	0.6300
bert-base-spanish-wwm-cased	0.6300
PlanTL-GOB-ES-roberta-base-bne	0.6400
bert-base-multilingual-cased	0.6400
xlm-roberta-base	0.6600
xlm-roberta-large	0.7100