Förderjahr 2019 / Stipendien Call #14 / ProjektID: 4407 / Projekt: Mail authorship verification and phishing recognizing with machine learning on iOS
Die Sprache ist ein sehr mächtiger und vielfältiger Weg der Kommunikation. Die Wissenschaft der Forensischen Linguistik befasst sich mit der Beziehung von Menschen zu der Sprache, die sie verwenden.
Die Anfänge der forensischen Linguistik gehen auf das Jahr 1968 zurück, als Jan Svartik anhand der Verhörprotokolle eines zuvor verurteilten und hingerichteten Mörders belegen konnte, dass dieser Mann unschuldig war. Denn Jan Svartik verglich die Verhörprotokolle mit den anderen Texten und Interviews des angeblichen Mörders und entdeckte dabei signifikante Unterschiede im Gebrauch der Grammatik. Heutzutage betreibt zum Beispiel das BKA in Deutschland eine eigene Abteilung, die Ermittlungen mit Hilfe von forensischer Linguistik unterstützt. Die Fragestellungen in der forensischen Linguistik lauten üblicherweise:
- Hat ein Verdächtiger einen gewissen Text geschrieben (Authorship Verification)?
- Welche Personen-spezifischen Merkmale des Autors lassen sich aus einem Text schließen (Authorship Attribution)?
- Wurden zwei (oder mehr) Dokumente von der selben (ev. unbekannten) Person verfasst?
Um die Fragen zu beantworten, ist eine detaillierte Analyse der vorliegenden Texte nötig. Ein wichtiger Aspekt für die Beantwortung der oben genannten Fragen, ist das verwendete Vokabular. Manche Wörter sind nur in bestimmten Regionen, Bildungsschichten oder in gewissen zeitlichen Abschnitten gebräuchlich. Im Deutschen kann der Unterschied zwischen 'die Trottel' und 'die Trotteln' einen Hinweis geben, ob der Autor aus dem bayrischen Raum stammt. Im Englischen kann man anhand der unterschiedlichen Schreibweisen von ‚color‘ und ‚colour‘ zwischen amerikanischen und britischen Autor unterscheiden, wobei in diesem Fall oftmals eine Standardisierung durch Verleger oder Autokorrektur-Programmen, die Hinweise weniger aussagekräftig erscheinen lassen. Gerade auch im deutschen Sprachraum sind Begriffe regional gänzlich unterschiedlich (Erdäpfel/Kartoffeln). Neben diesen regionalen und zeitlichen Aspekten des Vokabulars, können auch Fehler in der Anwendung der Grammatik oder Orthographie Hinweise auf einen Autor und eventuell dessen Bildung liefern. Auch die durchschnittliche Satzlänge oder bevorzuge Grammatikformen (z.B. eher passiv oder aktiv) lassen Rückschlüsse auf den Autor eines Dokuments zu.
All diese Hinweise und noch einige weitere, erlauben es Linguisten einen Wahrscheinlichkeitswert zu bestimmen, mit dem ein Text einer Person zuzuordnen ist. Manche Experten, wie Hsinchun Chen von der University of Arizona, behaupten sogar, dass jeder Mensch einen eigenen linguistischen Fingerabdruck besitzt. Jedoch gibt es auch einige Gegenstimmen. So wird argumentiert, dass Studien von literarischen Werken zeigten, dass sich der Sprachstil einer Person im Laufe seines Leben stark verändern kann. Ein tatsächlicher Fingerabdruck bleibt dagegen während des ganzen Lebens im Großen und Ganzen gleich. Des Weiteren sehen Linguistik Experten es für äußerst schwierig genügend Texte und Informationen über eine Person zu sammeln, um daraus einen möglichst all umfassenden Fingerabdruck abzuleiten, der alle Aspekte des Sprachgebrauches einer Person repräsentiert.
Nichtsdestotrotz, erlaubt die Forensische Linguistik die Autorschaft von Texten zu verifizieren. Dieser Ansatz soll in einem Masterarbeit mittels Machine Learning versucht werden zu automatisieren, sodass Mails, in denen sich eine Person als eine andere ausgibt, aufgedeckt werden.