Evaluación de Modelos Generativos

EXIST 2024

El dataset EXIST-2024 Memes está específicamente diseñado para fomentar y facilitar la investigación sobre detección automática del sexismo en contenido visual compartido en redes sociales. Constituye la base para las tareas 4, 5 y 6 del desafío EXIST-2024, enfocándose en el análisis detallado de memes como medio para expresar, criticar o describir comportamientos sexistas. Este conjunto se compone de más de 5,000 memes etiquetados, cuidadosamente equilibrados en términos lingüísticos entre español e inglés, permitiendo un análisis comparativo intercultural y lingüístico. Los datos están distribuidos en dos particiones principales: una partición de entrenamiento con 4,044 memes y una partición de prueba con 1,053 memes, asegurando una robusta evaluación y comparación de modelos.

Las tareas propuestas sobre este dataset replican estructuralmente las planteadas originalmente para textos en tuits, pero adaptadas cuidadosamente a contenidos visuales:

La tarea 4 aborda la identificación binaria, exigiendo a los sistemas determinar si un meme específico es sexista o no. Esta tarea establece las bases necesarias para la clasificación posterior, actuando como un filtro inicial fundamental.
La tarea 5 profundiza en el análisis semántico y pragmático al determinar la intención subyacente tras la creación del meme sexista. Debido a la naturaleza predominantemente directa o crítica de los memes, esta tarea se limita a las categorías “DIRECT”, cuando el meme expresa sexismo explícitamente, y “JUDGEMENTAL”, cuando el meme critica o denuncia comportamientos sexistas. La categoría “REPORTED” se excluye prácticamente debido a su baja prevalencia en contenidos visuales como los memes.
Finalmente, la tarea 6 aborda un desafío complejo de clasificación multi-etiqueta, asignando a cada meme una o más categorías que describen específicamente el tipo o tipos de sexismo representados. Las categorías disponibles son “IDEOLOGICAL-INEQUALITY”, cuando el meme deslegitima movimientos feministas o niega la desigualdad de género; “STEREOTYPING-DOMINANCE”, para memes que promueven estereotipos o supremacía masculina; “OBJECTIFICATION”, cuando el meme reduce a las mujeres a objetos o enfatiza sus atributos físicos de manera inapropiada; “SEXUAL-VIOLENCE”, si incluye sugerencias o amenazas de naturaleza sexual; y “MISOGYNY-NON-SEXUAL-VIOLENCE”, cuando expresa odio hacia las mujeres sin implicaciones sexuales explícitas.

Cada instancia del dataset EXIST-2024 Memes está representada por dos elementos principales: una imagen y un texto asociado, extraído automáticamente mediante técnicas OCR, lo que permite a los modelos emplear métodos multimodales avanzados para el análisis de contenido. La evaluación de los modelos participantes utiliza la métrica especializada Information Contrast Measure (ICM), adecuada a un contexto de evaluación soft, considerando las diferencias intrínsecas y la subjetividad potencial en las anotaciones proporcionadas por múltiples evaluadores con características sociodemográficas diversas.

Model	EXIST 2024: Sexism Identification (memes))	EXIST 2024: Source intention (memes)	EXIST 2024: Sexism Categorization (memes)
claude-3.5-sonnet	0.523	0.290	0.269
gemini-2.0-flash	0.523	0.370	0.311
gpt-4o	0.541	0.351	0.202

Model	EXIST 2024: Sexism Identification (memes))	EXIST 2024: Source intention (memes)	EXIST 2024: Sexism Categorization (memes)
claude-3.5-sonnet	0.585	0.253	0.314
gemini-2.0-flash	0.541	0.198	0.228
gpt-4o	0.588	0.258	0.155

Task	Baseline ES	Best Result ES	Baseline EN	Best Result EN	EFF EN	EFF ES	GAP
EXIST 2024: Sexism Identification (memes)	0.325	0.541	0.373	0.588	0.3429	0.32	0.0668
EXIST 2024: Source intention (memes)	0.188	0.370	0.208	0.258	0.0631	0.2241	-0.7183
EXIST 2024: Sexism Categorization (memes)	0.081	0.311	0.067	0.314	0.2647	0.2503	0.0546