A3: Desambiguierung von Diskurskonnektoren mit korpusinduzierten semantischen Relationen

Diskurskonnektoren wie nachdem, während oder aber weisen einen hohen Grad an Bedeutungsvariabilität auf, der sich nur in Abhängigkeit vom jeweiligen Diskurskontext auflösen lässt. Ausgehend von klassischen Annahmen zur Strukturierung eines Diskurses, wie sie in der Textlinguistik u.a. von Halliday & Hasan (1976) unter dem Begriff der Kohäsion subsumiert werden, hat das Projekt zum Ziel, diese genuin sprachwissenschaftlichen Konzepte mithilfe von maschinellen Lernverfahren datenorientiert zu approximieren. Eine derartige Approximation bildet eine geeignete Grundlage, um die Bedeutungsvariabilität von Diskurskonnektoren im Kontext abzubilden.

 

 

Projektleitung:

Prof. Dr. Erhard W. Hinrichs

Seminar für Sprachwissenschaft

Universität Tübingen

Wilhelmstr. 19

72074 Tübingen

 

Telefon: +49(0) 7071-29-75446

Telefax: +49(0) 7071-29-5214

E-Mail:eh(at)sfs.uni-tuebingen.de

 

Mitarbeiter/innen:

Dr. Yannick Versley

Sonderforschungsbereich 833

Nauklerstr. 35

72074 Tübingen

 

Telefon: +49(0) 7071-29-77155

E-Mail: versley(at)sfs.uni-tuebingen.de

 

 

Reinhild Barkey

Seminar für Sprachwissenschaft

Universität Tübingen

Wilhelmstr.19

72074 Tübingen

 

Phone:+49(0) 7071-29-73972

E-Mail: rbarkey(at)sfs.uni-tuebingen.de

 

assoziiert:

Verena Henrich

Corina Dima

 

Ehemalige Mitarbeiter/innen:

Stefanie Simon (M.A.)
Sabrina Schulze (M.A.)
Anne Brock (M.A.)

 

Studentische Hilfskräfte:

Anna Gastel

Nadine Balbach

 

ehemalige stud. Hilfskräfte

Holger Gauza

Janne Berlacher

Melike Heubach

Korpora

Als Datengrundlage des Projekts wurden zwei Teilkorpora annotiert, die der wissenschaftlichen Öffentlichkeit mit dem Release 8 der TüBa-D/Z-Baumbank zur Verfügung stehen:

  • Eine Annotationsebene enthält Lesarteninformation für ausgewählte ambige Konnektoren, insbesondere nachdem (298 Vorkommen), während (531 Vorkommen), sobald (28 Vorkommen), seitdem (13 Vorkommen), als (169 Vorkommen), aber (161 Vorkommen), und bevor (119 Vorkommen).
    Zu den Annotationsrichtlnien siehe Simon et al. (2011).
  • Die zweite Annotationsebene enthält strukturelle Information sowie implizite Diskursrelationen für einen Subkorpus, der 41 annotierte Zeitungsartikel (21.817 Tokens) enthält und 1.458 (explizite und implizite) Diskursrelationen umfasst. Zum Schema und zu Agreement-Zahlen siehe Gastel et al. (2011)

Die Annotationen sind im ExportXMLv2-Format des Release 8 der TüBa-D/Z enthalten und unterliegen denselben Lizenzbedingungen.