Evaluación de Modelos Generativos
EXIST 2024
El dataset EXIST-2024 Memes está específicamente diseñado para fomentar y facilitar la investigación sobre detección automática del sexismo en contenido visual compartido en redes sociales. Constituye la base para las tareas 4, 5 y 6 del desafío EXIST-2024, enfocándose en el análisis detallado de memes como medio para expresar, criticar o describir comportamientos sexistas. Este conjunto se compone de más de 5,000 memes etiquetados, cuidadosamente equilibrados en términos lingüísticos entre español e inglés, permitiendo un análisis comparativo intercultural y lingüístico. Los datos están distribuidos en dos particiones principales: una partición de entrenamiento con 4,044 memes y una partición de prueba con 1,053 memes, asegurando una robusta evaluación y comparación de modelos.
Las tareas propuestas sobre este dataset replican estructuralmente las planteadas originalmente para textos en tuits, pero adaptadas cuidadosamente a contenidos visuales:
- La tarea 4 aborda la identificación binaria, exigiendo a los sistemas determinar si un meme específico es sexista o no. Esta tarea establece las bases necesarias para la clasificación posterior, actuando como un filtro inicial fundamental.
- La tarea 5 profundiza en el análisis semántico y pragmático al determinar la intención subyacente tras la creación del meme sexista. Debido a la naturaleza predominantemente directa o crítica de los memes, esta tarea se limita a las categorías “DIRECT”, cuando el meme expresa sexismo explícitamente, y “JUDGEMENTAL”, cuando el meme critica o denuncia comportamientos sexistas. La categoría “REPORTED” se excluye prácticamente debido a su baja prevalencia en contenidos visuales como los memes.
- Finalmente, la tarea 6 aborda un desafío complejo de clasificación multi-etiqueta, asignando a cada meme una o más categorías que describen específicamente el tipo o tipos de sexismo representados. Las categorías disponibles son “IDEOLOGICAL-INEQUALITY”, cuando el meme deslegitima movimientos feministas o niega la desigualdad de género; “STEREOTYPING-DOMINANCE”, para memes que promueven estereotipos o supremacía masculina; “OBJECTIFICATION”, cuando el meme reduce a las mujeres a objetos o enfatiza sus atributos físicos de manera inapropiada; “SEXUAL-VIOLENCE”, si incluye sugerencias o amenazas de naturaleza sexual; y “MISOGYNY-NON-SEXUAL-VIOLENCE”, cuando expresa odio hacia las mujeres sin implicaciones sexuales explícitas.
Cada instancia del dataset EXIST-2024 Memes está representada por dos elementos principales: una imagen y un texto asociado, extraído automáticamente mediante técnicas OCR, lo que permite a los modelos emplear métodos multimodales avanzados para el análisis de contenido. La evaluación de los modelos participantes utiliza la métrica especializada Information Contrast Measure (ICM), adecuada a un contexto de evaluación soft, considerando las diferencias intrínsecas y la subjetividad potencial en las anotaciones proporcionadas por múltiples evaluadores con características sociodemográficas diversas.

Model | EXIST 2024: Sexism Identification (memes)) | EXIST 2024: Source intention (memes) | EXIST 2024: Sexism Categorization (memes) |
---|---|---|---|
claude-3.5-sonnet | 0.523 | 0.290 | 0.269 |
gemini-2.0-flash | 0.523 | 0.370 | 0.311 |
gpt-4o | 0.541 | 0.351 | 0.202 |
Model | EXIST 2024: Sexism Identification (memes)) | EXIST 2024: Source intention (memes) | EXIST 2024: Sexism Categorization (memes) |
---|---|---|---|
claude-3.5-sonnet | 0.585 | 0.253 | 0.314 |
gemini-2.0-flash | 0.541 | 0.198 | 0.228 |
gpt-4o | 0.588 | 0.258 | 0.155 |
Task | Baseline ES | Best Result ES | Baseline EN | Best Result EN | EFF EN | EFF ES | GAP |
---|---|---|---|---|---|---|---|
EXIST 2024: Sexism Identification (memes) | 0.325 | 0.541 | 0.373 | 0.588 | 0.3429 | 0.32 | 0.0668 |
EXIST 2024: Source intention (memes) | 0.188 | 0.370 | 0.208 | 0.258 | 0.0631 | 0.2241 | -0.7183 |
EXIST 2024: Sexism Categorization (memes) | 0.081 | 0.311 | 0.067 | 0.314 | 0.2647 | 0.2503 | 0.0546 |