Übersicht

Projekte aus der Sprachtechnologie / Blockseminar SoSe 2008

In diesem Seminar wollen wir auf der Grundlage des NLTK (Natural Language Toolkit) einige Projekte aus dem Bereich der Sprachtechnologie in der Programmiersprache Python umsetzen. Während des Seminares erarbeiten wir unser erstes Projekt gemeinsam. Es heißt schlicht Tagging und wir werden damit beginnen, einzelne Tokens in Texten zu taggen um anschließend, beim tokenübergreifenden Taggen, einen sehr eingeschränkten Shift-Reduce-Parser zu bauen, der auf der Methode des Chunk-Parsing per regulärer Ausdrücke basiert. Neben der Einführung einiger grundlegender Python-Strategien dient dieses Projekt auch dazu, Ihnen (a) einen Einblick in die interessante Welt der computerlinguistischen Fragestellungen zu verschaffen und (b) Ihnen einige der für die Linguistik relevanten Konzepte (Klassen und Mengen, Regeln, Types vs Tokens, Shallow vs Deep Parsing etc.) durch konkrete Anwendungen näher zu bringen.

Um das Projekt zu realisieren, erhalten Sie auf dieser Site Hintergrundinformationen über die linguistischen Grundlagen und die möglichen Algorithmen, die hierfür nötig sind. Außerdem bekommen Sie Übungen, die gezielt auf die Methoden hinarbeiten, die Sie für das Projekt implementieren müssen. Über die Navigationsleiste oben kommen Sie an diese Materialien.

Wichtig ist, dass Sie auf die Seite des NLTK gehen. Dort finden Sie nicht nur die für diesen Kurs nötigen Progamme und Daten (Link Downloads) sondern auch das NLTK-Book (Link Book), in dem für uns im wesentlichen die Kapitel 2, 3 und 7 relevant sind und die Sie für dieses Blockseminar durcharbeiten sollten.