Signaling coherence relations in text generation: A case study of German temporal discourse markers – Brigitte Grote

Existierende Textgenerierungssysteme sind nicht besonders flexibel in der Wahl von lexikalischen Einheiten wie weil, deshalb, nachdem (sogenannten Diskursmarkern), die Kohärenzrelationen signalisieren. Stattdessen realisieren sie den "eine-Relation-ein-Marker"-Ansatz oder ziehen überhaupt nur eine kleine Menge von Diskursmarkern in Betracht. Es stehen aber in der Regel verschiedene Diskursmarker zur Verfügung, um eine bestimmte Kohärenzrelation auszudrücken. Diese Diskursmarker unterscheiden sich bzgl. der pragmatischen und semantischen Bedeutungen, die sie zusätzlich zur Kohärenzrelation ausdrücken. Werden die feinkörnigen Unterschiede zwischen den Diskursmarkern außer Acht gelassen, so wird nicht nur die Ausdrucksfähigkeit eines Textgenerators stark eingeschränkt, es kann auch zu verminderter Lesbarkeit eines Textes führen und sogar die korrekte Interpretation eines Textes gefährden. Die Wahl eines angemessenen Diskursmarkers in einem gegebenen Kontext fordert detaillierte Kenntnisse über die Funktion und die Form einer großen Menge von Diskursmarkern, und darüber hinaus eine Generierungsarchitektur, die es ermöglicht, dieses Wissen in ihre Entscheidungen bzgl. der Diskursmarkerwahl einzubinden und in den gesamten Generierungsprozess zu integrieren. Weder verfügbare Studien zum Gebrauch von Diskursmarkern noch existierende Textgenerierungssysteme bieten hier momentan befriedigende Lösungen. Die vorliegende Dissertation befasst sich mit diesen beiden Themen und leistet Beiträge auf dem Gebiet der deskriptiven Linguistik und der automatischen Textgenerierung.

Zunächst wird ein Überblick über den Stand der Forschung im Bereich der Repräsentation und Wahl von Diskursmarkern und den Ansätzen zur Diskursrepräsentation in der mehrsprachigen Textgenerierung gegeben. Anschließend werden methodische Fragen diskutiert, hier vor allem die Frage nach der eindeutigen Identifizierung der lexikalischen Einheiten, die im Text als Diskursmarker fungieren. Es wird ein Verfahren zur Bestimmung von Diskursmarkern in deutschsprachigen Texten vorgestellt. Schließlich wird der Fokus der Arbeit – temporale Diskursmarker des Deutschen – motiviert; englische Diskursmarker werden am Rande diskutiert.

Der zweite Teil der Dissertation widmet sich der linguistischen Analyse und der Repräsentation von Diskursmarkern. Zunächst werden die Eigenschaften identifiziert, die für eine umfassende Beschreibung von Funktion und Form von temporalen Diskursmarkern des Deutschen erforderlich sind. Unter Verwendung dieser Eigenschaften wird für die 27 häufigsten deutschen temporalen Marker eine ausführliche Analyse ihrer semantischen, pragmatischen und syntaktischen Eigenschaften durchgeführt. Die Ergebnisse dieser Analyse werden zu einer einzigen funktionalen Repräsentation zusammengeführt, hierbei handelt es sich um eine funktionale Klassifikation der deutschen temporalen conjunctive relations in Form eines Systemnetzwerks. Ein detaillierter Vergleich mit Netzwerken für das Englische und Niederländische schließt sich an. Dieser Vergleich bildet die Grundlage für eine zu erstellende mehrsprachige Repräsentation wie sie in der mehrsprachigen Textgenerierung angestrebt wird.

Diskursmarker markieren im Text eine Kohärenzrelation, deshalb nimmt man an, dass diese Kohärenzrelationen die Hauptfaktoren bei der Wahl von Diskursmarkern sind. In der vorliegenden Dissertation wird argumentiert, dass die Annahme "atomarer" Relationen – wie beim in der Textgenerierung sehr populären Beschreibungsansatz der Rhetorical Structure Theory – nicht ausreicht, um die Kohärenzrelationen, die zwischen Teilen eines Textes halten, in all ihren Facetten zu beschreiben, und dass sie nicht den Anforderungen von Repräsentation und Wahl von Diskursmarkern entsprechen. Es wird gezeigt, dass drei Dimensionen – ideationell, interpersonell, textuell – in der Beschreibung berücksichtigt werden müssen. In dieser Dissertation wird eine paradigmatische Repräsentation von Kohärenzrelationen entlang dieser drei Dimensionen vorgestellt. Kohärenzrelationen in diesem Verständnis sind zusammengesetzte Relationen (composite relations). Es wird weiterhin ein Vorgehen beschrieben, wie diese paradigmatische Repräsentation systematisch aus einem Textkorpus hergeleitet werden kann.

Der letzte Teil der Dissertation befasst sich mit der lexikalischen Modellierung und der automatischen Wahl von Diskursmarkern in der (mehrsprachigen) Textgenerierung. Es wird argumentiert – ausgehend von der Annahme, dass die Wahl eines Diskursmarkers eine der Aufgaben der Satzplanung ist – dass die Repräsentation von Wissen über Diskursmarker in einem Lexikon den Anforderungen der motivierten Wahl von Diskursmarkern in der (mehrsprachigen) Textgenerierung am ehesten entspricht. Das Diskursmarkerlexikon als generische Ressource zur Repräsentation von Wissen über Form und Funktion von Diskursmarkern wird beschrieben; es werden

Aussagen zur globalen Organisation des Lexikons und dem Aussehen eines Lexikoneintrags gemacht. Hierbei folgt die Dissertation den Vorschlägen der Expert advisory group on language engineering standards (EAGLES) für lexikalisch-semantische Kodierung. Es werden Beispieleinträge für deutsche und englische temporale Diskursmarker gegeben. Ferner werden eine Generierungsarchitektur, die dieses Diskursmarkerlexikon in der Satzplanung nutzt, und ein implementierbares Modell für die Wahl von Diskursmarkern präsentiert. Mehrere (bilinguale) Beispiele illustrieren, wie der Wahlmechanismus – unter Ausnutzung des Diskursmarkerlexikons als zentraler Ressource - in Abhängigkeit vom Kontext alternative Verbalisierungen für eine temporale Kohärenzrelation, die zwischen zwei Situationen besteht, erzeugen kann.