DIANN-2023-ES | Leaderboard

El corpus contiene resúmenes de artículos científicos de revistas de Elsevier del dominio biomédico. En concreto, los textos se recopilaron entre 2017 y 2018. El corpus se proporciona en dos particiones, una de entrenamiento y otra de evaluación. La partición de entrenamiento contiene 500 textos. Estos textos se corresponden con las particiones de entrenamiento y evaluación hechas públicas para la competición DIANN en Iberlef 2018. Además se proporciona una partición privada de test que contiene 100 textos. Puesto que esta es la partición que se usa para evaluar sistemas en el Leaderboard ODESIA, esta partición no se hará pública. En el corpus se han anotado todas las discapacidades mencionadas en los textos.

Idioma(s)

Español

Inglés

Año

2023

Dominio

Salud

Tipo Textos

Resúmenes de artículos científicos

Formato

json

NLP Topic

reconocimiento de entidades nombradas

Número de unidades

600

Tipo de unidades

Documentos

Tokens

120051

Documentos

600

Tamaño set entrenamiento

500

Tamaño set evaluación

100

Inicie sesión o registrese para enviar comentarios