sistemas de pregunta-respuesta

SQUAD-SQAC 2024 EN

SQUAD/SQAC 2024 es una extensión de los datasets  SQUAD v1.1. (Stanford Question Answering Corpus) (Rajpurkar et al., 2016) para el inglés y SQAC (Spanish Question Answering Corpus) (Gutiérrez-Fandiño et al., 2021)  para el español.  El dataset contiene noticias académicas del CSIC para el español y de Cambridge University para el inglés, con preguntas y respuestas extractivas. Las noticias son de dominios variados  y suelen ser cortas, entre 712 y 2,760 palabras en inglés, y entre 514 y 2,818 palabras en Español.

SQUAD-SQAC 2024 ES

SQUAD/SQAC 2024 es una extensión de los datasets  SQUAD v1.1. (Stanford Question Answering Corpus) (Rajpurkar et al., 2016) para el inglés y SQAC (Spanish Question Answering Corpus) (Gutiérrez-Fandiño et al., 2021)  para el español.  El dataset contiene noticias académicas del CSIC para el español y de Cambridge University para el inglés, con preguntas y respuestas extractivas. Las noticias son de dominios variados  y suelen ser cortas, entre 712 y 2,760 palabras en inglés, y entre 514 y 2,818 palabras en Español.

SQAC

El Spanish Question Answering Corpus (SQAC) es un conjunto de datos de preguntas-respuesta  extractivas. No contiene preguntas que no tengan respuesta. Se ha creado a partir de textos extraídos de la Wikipedia en español, artículos enciclopédicos, artículos de noticias de Wikinews y la sección española del corpus AnCora, que es una mezcla de diferentes fuentes de noticias y literatura. Se creó encargando la creación de 18.817 preguntas con la anotación de sus tramos de respuesta a partir de 6.247 contextos textuales.

SQuAD 1.1

Un conjunto de datos de comprensión lectora compuesto por más de 100.000 preguntas formuladas por crowdworkers sobre un conjunto de artículos de Wikipedia, donde la respuesta a cada pregunta es un segmento de texto del pasaje de lectura correspondiente. SQuAD contiene 107.785 pares pregunta-respuesta sobre 536 artículos.