sistemas de pregunta-respuesta

SQUAD/SQAC 2024 es una extensión de los datasets SQUAD v1.1. (Stanford Question Answering Corpus) (Rajpurkar et al., 2016) para el inglés y SQAC (Spanish Question Answering Corpus) (Gutiérrez-Fandiño et al., 2021) para el español. El dataset contiene noticias académicas del CSIC para el español y de Cambridge University para el inglés, con preguntas y respuestas extractivas. Las noticias son de dominios variados y suelen ser cortas, entre 712 y 2,760 palabras en inglés, y entre 514 y 2,818 palabras en Español.

SQUAD-SQAC 2024 ES

Lee más sobre SQUAD-SQAC 2024 ES
Inicie sesión o registrese para enviar comentarios

SQAC

Lee más sobre SQAC
Inicie sesión o registrese para enviar comentarios

El Spanish Question Answering Corpus (SQAC) es un conjunto de datos de preguntas-respuesta extractivas. No contiene preguntas que no tengan respuesta. Se ha creado a partir de textos extraídos de la Wikipedia en español, artículos enciclopédicos, artículos de noticias de Wikinews y la sección española del corpus AnCora, que es una mezcla de diferentes fuentes de noticias y literatura. Se creó encargando la creación de 18.817 preguntas con la anotación de sus tramos de respuesta a partir de 6.247 contextos textuales.

SQuAD 1.1

Lee más sobre SQuAD 1.1
Inicie sesión o registrese para enviar comentarios

Un conjunto de datos de comprensión lectora compuesto por más de 100.000 preguntas formuladas por crowdworkers sobre un conjunto de artículos de Wikipedia, donde la respuesta a cada pregunta es un segmento de texto del pasaje de lectura correspondiente. SQuAD contiene 107.785 pares pregunta-respuesta sobre 536 artículos.