SQUAD/SQAC 2024 es una extensión de los datasets SQUAD v1.1. (Stanford Question Answering Corpus) (Rajpurkar et al., 2016) para el inglés y SQAC (Spanish Question Answering Corpus) (Gutiérrez-Fandiño et al., 2021) para el español. El dataset contiene noticias académicas del CSIC para el español y de Cambridge University para el inglés, con preguntas y respuestas extractivas. Las noticias son de dominios variados y suelen ser cortas, entre 712 y 2,760 palabras en inglés, y entre 514 y 2,818 palabras en Español. Por cada texto se incluye un mínimo de 10 preguntas. Los textos están dirigidos al público general, por lo que no usan lenguaje especializado. SQUAD/SQAC 2024 EN es el dataset en inglés.
Idioma(s)
Inglés
Año
2024
Dominio
Diversos
Tipo Textos
Publicaciones científicas
Anotaciones
Pares pregunta-respuesta extractiva
Formato
json
NLP Topic
Número de unidades
110
Tipo de unidades
Noticias
Tokens
1235638
Documentos
110
Tamaño set evaluación
110
- Inicie sesión o registrese para enviar comentarios