Lexikographische Lemmata

… und was diese mit Passwörtern zu tun haben. (13.03.2018)

Förderjahr 2017 / Stipendien Call #12 / ProjektID: 2180 / Projekt: Automatisierte Generierung von personenbezogenen Passwortlisten

Ein Ausflug zurück in den Deutschunterricht

Im letzten Blogpost habe ich erläutert, welche Schritte notwendig sind, um aus gesammelten Postings von Social Media Profilen jene Wörter zu extrahieren, die für die Erstellung von Passwörtern relevant sein könnten. Ein wichtiger Prozess ist dabei die Lemmatisierung von deutschen Wörtern, auf welchen jedoch aus Platzgründen nicht genauer eingegangen werden konnte. In diesem Blogpost möchte ich diese Erklärung nachholen und erläutern, was diesen Prozess so schwierig macht und warum Lemmatisierung ein wichtiger Schritt für die Erstellung von Passwortlisten ist.

Grundform von Verben, Adjektiven und Nomen

In der Lexikographie bezeichnet man jene Form eines Wortes, die in einem Nachschlagewerk - wie einem Wörterbuch - eingetragen wird, als das Lemma oder die Grundform eines Wortes. Bei Verben ist dies der Infinitiv Präsens Aktiv („gehen“, „spielen“), bei Nomen der Nominativ Singular („Haus“, „Ball“) und bei Adjektiven die ungebeugte, ungesteigerte („Positiv“) Form („heiß“, „langsam“).

Der Vorgang von einem beliebigen Wort diese Grundform zu bestimmen wird Lemmatisierung genannt. Für Personen, die Deutsch als Muttersprache beherrschen, ist dieser Vorgang trivial. Eine automatisierte Verarbeitung von Wörtern bedarf jedoch ein Programm, das eine Lemmatisierung mit hoher Sicherheit durchführen kann. Folgt die deutsche Grammatik zwar an manchen Stellen klaren Regeln, was die Deklination beziehungsweise Konjugation von Wörtern betrifft, so ist sie auch von vielen Ausnahmen geprägt, was diesen Prozess besonder schwierig macht.

Part-of-Speech Tagging

Eine Grundvoraussetzung für eine automatische Lemmatisierung ist die Bestimmung eines POS-Tags für ein Wort. Das sogenannte Part-of-Speech Tagging bezeichnet den Vorgang die Wörter eines Satzes in grammatikalische Kategorien wie Subjekt, Prädikat, Artikel usw. einzuteilen. Erst wenn das Programm weiß, dass der Begriff „Häuser“ ein Nomen ist, kann es bestimmte Regeln anwenden, um es in die Grundform „Haus“ zurückzuführen.

Im Zuge der Arbeit wurde ein Tagger, der diese Aufgabe erfüllen kann mit Hilfe der Klasse „ClassifierBasedGermanTagger“ von Phillipp Nolte für die Sprachverarbeitungsbibliothek NLTK umgesetzt, trainiert und anschließend in serialisierter Form gespeichert. Als Trainingsdaten wurde der „TIGER Corpus“ vom Insitut für Maschinelle Sprachverarbeitung der Universität Stuttgart herangezogen, der aus etwa 50.000 deutschen Sätzen, die Zeitungen entnommen sind und zu deren Wörtern die jeweiligen Lemmata hinzugefügt wurden, besteht.

Umsetzung der Lemmatisierung

Der fertig trainierte Tagger wird anschließend in Kombination mit dem von Markus Konrad vom „WZB Berlin Social Science Center“ entwickelten Paket „Germalemma“ verwendet. Die Wörter des zu analysierenden Satzes werden zuerst mit einem POS-Tag versehen. Die Tupel bestehend aus Wort und POS-Tag werden anschließend in Germalemma nach bestimmten Mustern je nach Art des Wortes lemmatisiert.

Lemmatisierung und Passwörter

Manche Leserin oder mancher Leser mag sich an dieser Stelle vielleicht die Frage stellen, warum diese Lemmatisierung notwendig ist, um personenbezogene Passwörter zu generieren.

In dieser Arbeit wird davon ausgegangen, dass Wörter, die besonders häufig in Postings in sozialen Netzwerken erwähnt werden, für die Person besonders wichtig sind und daher gute Kandidaten für Passwörter sind. Um eine Reihung der Wörter vorzunehmen, ist es daher unter anderem wichtig, die Vorkommnisse eines jeden Begriffs zu zählen. Dabei sollte jedoch nicht zwischen verschiedenen grammatikalischen Formen unterschieden werden. So ist es aus forensischer Sicht nicht wichtig, dass eine Person 10 Mal von „Hunden“ geschrieben hat und 18 mal von einem „Hund“. Insgesamt wurde 28 Mal der Begriff erwähnt und die Lemmatisierung führt dazu, dass das Wort die Bedeutung für die Person zugesprochen bekommt, die es auch tatsächlich einnimmt.

Referenzen

TIGER Corpus. http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.html. Aufgerufen am 12. Februar 2018.

Sabine Brants, Stefanie Dipper, Peter Eisenberg, Silvia Hansen-Schirra, Esther König, Wolfgang Lezius, Christian Rohrer, George Smith, and Hans Uszkoreit. Tiger: Linguistic interpretation of a german corpus. Research on language and computation, 2(4):597–620, 2004.

germalemma. https://github.com/WZBSocialScienceCenter/germalemma. Aufgerufen am 12. Februar 2018.

ClassifierBasedGermanTagger. https://github.com/ptnplanet/NLTK-Contributions/tree/master/ClassifierB…. Aufgerufen am 12. Februar 2018.