A3: Desambiguierung von Diskurskonnektoren mit korpusinduzierten semantischen Relationen

Diskurskonnektoren wie nachdem, während oder aber weisen einen hohen Grad an Bedeutungsvariabilität auf, der sich nur in Abhängigkeit vom jeweiligen Diskurskontext auflösen lässt. Ausgehend von klassischen Annahmen zur Strukturierung eines Diskurses, wie sie in der Textlinguistik u.a. von Halliday & Hasan (1976) unter dem Begriff der Kohäsion subsumiert werden, hat das Projekt zum Ziel, diese genuin sprachwissenschaftlichen Konzepte mithilfe von maschinellen Lernverfahren datenorientiert zu approximieren. Eine derartige Approximation bildet eine geeignete Grundlage, um die Bedeutungsvariabilität von Diskurskonnektoren im Kontext abzubilden.
Projektleitung:
Prof. Dr. Erhard W. Hinrichs
Seminar für Sprachwissenschaft
Universität Tübingen
Wilhelmstr. 19
72074 Tübingen
Telefon: +49(0) 7071-29-75446
Telefax: +49(0) 7071-29-5214
E-Mail:eh(at)sfs.uni-tuebingen.de
Mitarbeiter/innen:
Dr. Yannick Versley
Sonderforschungsbereich 833
Nauklerstr. 35
72074 Tübingen
Telefon: +49(0) 7071-29-77155
E-Mail: versley(at)sfs.uni-tuebingen.de
Seminar für Sprachwissenschaft
Universität Tübingen
Wilhelmstr.19
72074 Tübingen
Phone:+49(0) 7071-29-73972
E-Mail: rbarkey(at)sfs.uni-tuebingen.de
assoziiert:
Ehemalige Mitarbeiter/innen:
Stefanie Simon (M.A.)
Sabrina Schulze (M.A.)
Anne Brock (M.A.)
Studentische Hilfskräfte:
Anna Gastel
Nadine Balbach
ehemalige stud. Hilfskräfte
Holger Gauza
Janne Berlacher
Melike Heubach
Korpora
Als Datengrundlage des Projekts wurden zwei Teilkorpora annotiert, die der wissenschaftlichen Öffentlichkeit mit dem Release 8 der TüBa-D/Z-Baumbank zur Verfügung stehen:
- Eine Annotationsebene enthält Lesarteninformation für ausgewählte ambige Konnektoren, insbesondere nachdem (298 Vorkommen), während (531 Vorkommen), sobald (28 Vorkommen), seitdem (13 Vorkommen), als (169 Vorkommen), aber (161 Vorkommen), und bevor (119 Vorkommen).
Zu den Annotationsrichtlnien siehe Simon et al. (2011). - Die zweite Annotationsebene enthält strukturelle Information sowie implizite Diskursrelationen für einen Subkorpus, der 41 annotierte Zeitungsartikel (21.817 Tokens) enthält und 1.458 (explizite und implizite) Diskursrelationen umfasst. Zum Schema und zu Agreement-Zahlen siehe Gastel et al. (2011)
Die Annotationen sind im ExportXMLv2-Format des Release 8 der TüBa-D/Z enthalten und unterliegen denselben Lizenzbedingungen.

