Evaluación de Modelos Generativos

EXIST 2024

El dataset EXIST-2024 Memes está específicamente diseñado para fomentar y facilitar la investigación sobre detección automática del sexismo en contenido visual compartido en redes sociales. Constituye la base para las tareas 4, 5 y 6 del desafío EXIST-2024, enfocándose en el análisis detallado de memes como medio para expresar, criticar o describir comportamientos sexistas. Este conjunto se compone de más de 5,000 memes etiquetados, cuidadosamente equilibrados en términos lingüísticos entre español e inglés, permitiendo un análisis comparativo intercultural y lingüístico. Los datos están distribuidos en dos particiones principales: una partición de entrenamiento con 4,044 memes y una partición de prueba con 1,053 memes, asegurando una robusta evaluación y comparación de modelos.

Las tareas propuestas sobre este dataset replican estructuralmente las planteadas originalmente para textos en tuits, pero adaptadas cuidadosamente a contenidos visuales:

  • La tarea 4 aborda la identificación binaria, exigiendo a los sistemas determinar si un meme específico es sexista o no. Esta tarea establece las bases necesarias para la clasificación posterior, actuando como un filtro inicial fundamental.
  • La tarea 5 profundiza en el análisis semántico y pragmático al determinar la intención subyacente tras la creación del meme sexista. Debido a la naturaleza predominantemente directa o crítica de los memes, esta tarea se limita a las categorías “DIRECT”, cuando el meme expresa sexismo explícitamente, y “JUDGEMENTAL”, cuando el meme critica o denuncia comportamientos sexistas. La categoría “REPORTED” se excluye prácticamente debido a su baja prevalencia en contenidos visuales como los memes.
  • Finalmente, la tarea 6 aborda un desafío complejo de clasificación multi-etiqueta, asignando a cada meme una o más categorías que describen específicamente el tipo o tipos de sexismo representados. Las categorías disponibles son “IDEOLOGICAL-INEQUALITY”, cuando el meme deslegitima movimientos feministas o niega la desigualdad de género; “STEREOTYPING-DOMINANCE”, para memes que promueven estereotipos o supremacía masculina; “OBJECTIFICATION”, cuando el meme reduce a las mujeres a objetos o enfatiza sus atributos físicos de manera inapropiada; “SEXUAL-VIOLENCE”, si incluye sugerencias o amenazas de naturaleza sexual; y “MISOGYNY-NON-SEXUAL-VIOLENCE”, cuando expresa odio hacia las mujeres sin implicaciones sexuales explícitas.

Cada instancia del dataset EXIST-2024 Memes está representada por dos elementos principales: una imagen y un texto asociado, extraído automáticamente mediante técnicas OCR, lo que permite a los modelos emplear métodos multimodales avanzados para el análisis de contenido. La evaluación de los modelos participantes utiliza la métrica especializada Information Contrast Measure (ICM), adecuada a un contexto de evaluación soft, considerando las diferencias intrínsecas y la subjetividad potencial en las anotaciones proporcionadas por múltiples evaluadores con características sociodemográficas diversas.

Model EXIST 2024: Sexism Identification (memes)) EXIST 2024: Source intention (memes) EXIST 2024: Sexism Categorization (memes)
claude-3.5-sonnet 0.523 0.290 0.269
gemini-2.0-flash 0.523 0.370 0.311
gpt-4o 0.541 0.351 0.202
Model EXIST 2024: Sexism Identification (memes)) EXIST 2024: Source intention (memes) EXIST 2024: Sexism Categorization (memes)
claude-3.5-sonnet 0.585 0.253 0.314
gemini-2.0-flash 0.541 0.198 0.228
gpt-4o 0.588 0.258 0.155
Task Baseline ES Best Result ES Baseline EN Best Result EN EFF EN EFF ES GAP
EXIST 2024: Sexism Identification (memes) 0.325 0.541 0.373 0.588 0.3429 0.32 0.0668
EXIST 2024: Source intention (memes) 0.188 0.370 0.208 0.258 0.0631 0.2241 -0.7183
EXIST 2024: Sexism Categorization (memes) 0.081 0.311 0.067 0.314 0.2647 0.2503 0.0546