Computerlinguistik

Bezeichnung 'Computerlinguistik' (CL) hat sich in jüngerer Zeit als relativ diffuser Sammelbegriff für eine Vielzahl diversester Projekte und Programme etabliert, bei denen es im weitesten Sinne um die Verarbeitung von Sprache und sprachlichen Daten auf Computern geht. Darunter fallen so unterschiedliche Anwendungen wie Erzeugung und Analyse gesprochener Sprache; Programme zur maschinellen Übersetzung; Programme zur Modellierung sprachlicher Kompetenz auf den verschiedenen sprachlichen Ebenen wie z.B. Morphologie oder Syntax und so weiter. Für ein Teilgebiet der CL findet sich auch die Bezeichnung 'linguistische Datenverarbeitung', wobei der Computer im wesentlichen als Hilfsmittel zur Verarbeitung von Sprachdaten dient, beispielsweise zur Erstellung von Wortlisten (z.B. als Konkordanzen oder Häufigkeitswörterbüchern) oder zur statistischen Analyse und Beschreibung von sprachlichen Ausdrücken in Texten.

In unserer Veranstaltung ist der Schwerpunkt allerdings anders gelagert: Hier soll die CL als Teildisziplin der Linguistik verstanden werden, deren Ziel die Umsetzung linguistischer Theorien oder Teiltheorien auf Computern ist. Was soll das heißen? Nun, ein ganz konkretes Beispiel dafür wäre die Umsetzung einer Phrasenstrukturgrammatik auf dem Computer, und genau damit werden wir uns – neben anderen Dingen – in der LV auch beschäftigen.

In diesem Zusammenhang ist die CL ein wissenschaftlicher Ansatz, der im Spannungsfeld von Disziplinen wie der Linguistik, der Informatik und der künstlichen Intelligenz, der Wissens­repräsentation und den Kognitions­wissenschaften usw. angesiedelt ist

Eine genaue Trennung – wie die Graphik sie vielleicht suggeriert – ist bei diesen Fachrichtungen allerdings nicht möglich, da die Grenzen zwischen ihnen fließend sind.

Was nun ist die primäre Zielsetzung der Computerlinguistik in diesem Sinne, welchem Zweck also dient die Umsetzung linguistischer Theorien auf Computern? Im Grunde werden zwei primäre Aufgabenbereiche verfolgt:

  • Zum einen geht es um das eher praktische Ziel, auf der Basis von bestimmten Grammatiktypen und -fragmenten Programmsysteme zur maschinellen Sprachverarbeitung zu entwickeln, die zu einem bestimmten Nutzen eingesetzt werden und beispielsweise auch kommerziell vertrieben werden können. Dazu gehören ua. Systeme zur maschinelle Übersetzung, Frage-Antwort-Systeme , Systeme für die computergestützte Lexikographie, Systeme zur Stil- und Strukturanalyse, automatisches Erstellen von Inhaltsangaben und so weiter. Dieser Aufgabenbereich wird gemeinhin zur 'angewandten' Computerlinguistik gezählt.
  • Zum anderen, im Bereich der 'theoretischen' Computerlinguistik, geht es darum, diejenigen (im wesentlichen algorithmischen) linguistischen Theorien und Modelle, die die Grundlage der Implementierung darstellen, auf ihre Adäquatheit hin zu überprüfen und sie im Sinne der Modellverbesserung zu modifizieren. Das klingt etwas hochtrabend, gemeint ist, dass man den Computer hier als Werkzeug einsetzt, beispielsweise um seine Hypothesen über die syntaktische Struktur einer Sprache zu überprüfen. Hier erfüllt der Computer eine wichtige Funktion, da auch recht komplexe Modelle zu entsprechend aufbereiteten Datenmengen wie beispielsweise Lexika in Beziehung gesetzt und mit diesen gestestet und ausprobiert werden können. Nicht zu vergessen ist bei diesem Ansatz die Tatsache, dass er einen zwingt, präzise und systematisch zu arbeiten: es ist hier nicht möglich, bestimmte möglicherweise unbequeme Probleme im Formalismus zu vernachlässigen oder deren Lösung 'auf später' zu verschieben – der Computer ist eben nicht so geduldig wie Papier.

Wir werden im Kurs mit dem letzen der genannten Punkte zu tun haben, insofern ein praktisches Ziel des Seminares darin besteht, die Grundzüge der Prolog-Implementierung von Phrasenstrukturgrammatiken kennenzulernen.