Grundlagen

Hintergrundtexte

Sprachwissenschaftliche Grundlagen des Seminares

Uns geht es im Seminar im Zusammenhang mit Tokenizern, Stemmern, Taggern & Co. vermehrt um die lexikalische Analyse, ergo bietet es sich an, die entsprechende Begrifflichkeit parat zu haben. Der nachstehende (für ein anderes Seminar geschriebene) Text führt in einige der für uns relevanten morphologischen Termini ein.

Sprachtechnologische Grundlagen des Seminares

Wie kann eine Maschine, die weder über das sprachliche noch über das Weltwissen eines Menschen verfügt, dazu gebracht werden, bestimmte Aussagen über einen sprachlichen Input zu treffen; Aussagen, die denen eines Menschen entsprechen?

Für Sprecher des Deutschen ist es kein Problem, ein Wort wie z.B. 'Segmentierung' in die Silben zu zerlegen, aus denen es sich konstituiert: Seg-men-tie-rung. Grundlage dafür ist die phonologische Form dieses Wortes und das intuitive Wissen über Silbenstrukturen. Wie aber macht das eine Maschine, der dieses Wort nicht in akustischer, sondern orthographischer Form vorliegt, und die über keinerlei intuitive Vorstellung vom Konzept 'Silbe' verfügt? Und wie läuft das beim POS-Tagging, bei dem auch ohne vorhandene Lexika Aussagen getroffen werden sollen wie z.B. In dem Satz 'John bought the last round' ist 'round' ein Nomen, während es in 'The ball is round' ein Adjektiv ist?

Der nachstehende Text behandelt ganz grundlegend die Frage, welche Probleme im Zusammenhang mit der automatischen Segmentierung und Klassfizierung auftreten können, und zeigt exemplarisch (z.B. für Silbentrennung, Stemming und Tagging) Lösungswege auf.

Diverse Hintergrundinformationen

Die nachstehenden, kürzeren Texte dienen der Vertiefung einiger der im NLTK-Book verwendeten Methoden und Konzepte, die für uns besonders interessant sind. Sie werden nur soweit eingeführt, wie es für unsere Aufgabenstellungen nötig ist. Es geht also darum, die wesentlichen Grundprinzipien zu verdeutlichen, nicht darum, die Konzepte in Gänze darzustellen. Orientieren Sie sich für vertiefte Information bitte entweder auf entsprechenden Seiten im Internet oder aber über die einschlägige Fachliteratur.