El mejor conjunto de datos para identificación del sarcasmo

PID

Este corpus contiene todas las locuciones de dos episodios de South Park (voces para América Latina) y dos episodios de Archer (voces para España). Cada locución ha sido anotado si contiene sarcasmo o no, y también las locuciones sarcásticas tienen anotaciones según varias teorías de ironía y pragmática. El orden de las locuciones ha sido mezclado.

Este corpus es interesante porque se basa en lo audiovisual en vez de texto puro. También contiene muchos ejemplos negativos de locuciones que son humorísticas o bien exagerantes, pero no sarcásticas. Por lo tanto, es una fuente de datos más cercanos a la vida real para un sistema computacional.

Este conjunto de datos ha sido elaborado como una parte de mi tesina de máster. Si lo usas, por favor, no te olvides de citarlo:

Hämäläinen, Mika (2016). Reconocimiento automático del sarcasmo: ¡Esto va a funcionar bien!. Helsinki: University of Helsinki, Department of Modern Languages.

Identifier
PID http://hdl.handle.net/11304/6f217754-7c90-4c7c-aded-ed127dbb93d8
Metadata Access https://b2share.eudat.eu/api/oai2d?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:b2share.eudat.eu:b2rec/80901821ef414179a6022785e3431ecc
Provenance
Creator Hämäläinen, Mika
Publisher CLARIN
Publication Year 2020
Rights info:eu-repo/semantics/openAccess; CC BY 4.0
OpenAccess true
Representation
Discipline Linguistics