| |
| Projekte aus der Sprachtechnologie
/ Blockseminar SoSe 2008 |
In diesem Seminar wollen wir auf
der Grundlage des NLTK (Natural Language Toolkit) einige
Projekte aus dem Bereich der Sprachtechnologie in der Programmiersprache
Python
umsetzen. Während des Seminares erarbeiten wir unser erstes
Projekt gemeinsam. Es heißt schlicht Tagging
und wir werden damit beginnen, einzelne Tokens in Texten zu taggen
um anschließend, beim tokenübergreifenden Taggen, einen
sehr eingeschränkten
Shift-Reduce-Parser zu bauen, der auf der Methode des Chunk-Parsing
per regulärer Ausdrücke basiert. Neben der Einführung
einiger grundlegender Python-Strategien dient dieses Projekt auch
dazu, Ihnen (a) einen
Einblick in die interessante Welt der computerlinguistischen Fragestellungen
zu verschaffen und (b) Ihnen einige der für die Linguistik
relevanten Konzepte (Klassen und Mengen, Regeln, Types vs Tokens,
Shallow vs Deep
Parsing etc.) durch konkrete Anwendungen näher zu bringen.
Um das Projekt zu realisieren, erhalten Sie auf dieser Site Hintergrundinformationen
über die linguistischen Grundlagen und die möglichen Algorithmen,
die hierfür nötig sind. Außerdem bekommen Sie Übungen,
die gezielt auf die Methoden hinarbeiten, die Sie für das Projekt
implementieren müssen. Über die Navigationsleiste links
kommen Sie an diese Materialien.
Wichtig ist, dass Sie auf die Seite
des NLTK gehen. Dort finden
Sie nicht nur die für diesen Kurs nötigen Progamme und Daten (Link
Downloads) sondern auch das NLTK-Book (Link Book),
in dem für uns im wesentlichen die Kapitel 2, 3 und 7 relevant
sind und
die
Sie
für
dieses Blockseminar
durcharbeiten sollten. |
|
|