El mejor conjunto de datos para identificación del sarcasmo

Dataset

PID

Este corpus contiene todas las locuciones de dos episodios de South Park (voces para América Latina) y dos episodios de Archer (voces para España). Cada locución ha sido anotado si contiene sarcasmo o no, y también las locuciones sarcásticas tienen anotaciones según varias teorías de ironía y pragmática. El orden de las locuciones ha sido mezclado.

Este corpus es interesante porque se basa en lo audiovisual en vez de texto puro. También contiene muchos ejemplos negativos de locuciones que son humorísticas o bien exagerantes, pero no sarcásticas. Por lo tanto, es una fuente de datos más cercanos a la vida real para un sistema computacional.

Este conjunto de datos ha sido elaborado como una parte de mi tesina de máster. Si lo usas, por favor, no te olvides de citarlo:

Hämäläinen, Mika (2016). Reconocimiento automático del sarcasmo: ¡Esto va a funcionar bien!. Helsinki: University of Helsinki, Department of Modern Languages.

Identifier
PID	http://hdl.handle.net/11304/6f217754-7c90-4c7c-aded-ed127dbb93d8
Metadata Access	https://b2share.eudat.eu/api/oai2d?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:b2share.eudat.eu:b2rec/80901821ef414179a6022785e3431ecc

Provenance
Creator	Hämäläinen, Mika
Publisher	CLARIN
Publication Year	2020
Rights	info:eu-repo/semantics/openAccess; CC BY 4.0
OpenAccess	true

Representation
Discipline	Linguistics