Este corpus contiene todas las locuciones de dos episodios de South Park (voces para América Latina) y dos episodios de Archer (voces para España). Cada locución ha sido anotado si contiene sarcasmo o no, y también las locuciones sarcásticas tienen anotaciones según varias teorías de ironía y pragmática. El orden de las locuciones ha sido mezclado.
Este corpus es interesante porque se basa en lo audiovisual en vez de texto puro. También contiene muchos ejemplos negativos de locuciones que son humorísticas o bien exagerantes, pero no sarcásticas. Por lo tanto, es una fuente de datos más cercanos a la vida real para un sistema computacional.
Este conjunto de datos ha sido elaborado como una parte de mi tesina de máster. Si lo usas, por favor, no te olvides de citarlo:
Hämäläinen, Mika (2016). Reconocimiento automático del sarcasmo: ¡Esto va a funcionar bien!. Helsinki: University of Helsinki, Department of Modern Languages.