The SALSA corpus is based on the TIGER corpus. The TIGER corpus (Version 2.1) consists of app. 900,000 tokens (50,000 sentences) of German newspaper text, taken from the Frankfurter Rundschau. The corpus was semi-automatically POS-tagged and annotated with syntactic structure. Moreover, it contains morphological and lemma information for terminal nodes. (cf. TIGER corpus website) SALSA provides an additional annotation layer to the TIGER corpus: FrameNet semantic roles.
Das SALSA-Korpus basiert auf dem Tiger-Korpus. Letzteres besteht aus ca. 900.000 Token (50.000 Sätzen) deutschen Zeitungstextes aus der Frankfurter Rundschau. Das Korpus wurde semi-automatisch syntaktisch annotiert und enthält außerdem POS, Lemma und morphologische Information. (s.a. TIGER-Korpus-Webseite) SALSA fügt der TIGER-Annotation eine weitere Annotationsebene mit semantischen Rollen (FrameNet) hinzu.