SQAC

El Spanish Question Answering Corpus (SQAC) es un conjunto de datos de preguntas-respuesta  extractivas. No contiene preguntas que no tengan respuesta. Se ha creado a partir de textos extraídos de la Wikipedia en español, artículos enciclopédicos, artículos de noticias de Wikinews y la sección española del corpus AnCora, que es una mezcla de diferentes fuentes de noticias y literatura. Se creó encargando la creación de 18.817 preguntas con la anotación de sus tramos de respuesta a partir de 6.247 contextos textuales. Las directrices se adaptaron de SQuAD v1.1 (Rajpurkar et al., 2016), y los anotadores eran todos hablantes nativos de español con estudios universitarios en diversos campos relacionados con la lingüística. Siguiendo la estructura de XQuAD (Artetxe, Ruder, y Yogatama, 2019), no se recogieron respuestas adicionales.

Idioma(s)
Español
Año
2022
Dominio
General
Noticias
Tipo Textos
Entradas de enciclopedia
Noticias
Anotaciones
question-answer
Acceso a datos
Publico

Publicación
Asier Gutiérrez Fandiño, Jordi Armengol-Estapé, Marc Pàmies, Joan Llop-Palao,Joaquín Silveira-Ocampo,Casimiro Pio Carrino, Carme Armentano-Oller, Carlos Rodriguez-Penagos, Aitor Gonzalez-Agirre, Marta Villegas (2016) Procesamiento del Lenguaje Natural, Revista nº 68, marzo de 2022, pp. 39-60.
Número de unidades
8817