Förderjahr 2019 / Stipendien Call #14 / ProjektID: 4407 / Projekt: Mail authorship verification and phishing recognizing with machine learning on iOS
In meiner Masterarbeit untersuche ich ob die Durchführung von einer Autorschaft-Verifizierung vom E-Mails zu Erkennung von Phishing-Attacken verwendet werden kann. Dazu erlernen die verwenden Maschine Learning Algorithmen, anhand alter E-Mails, wie Personen schreiben. Die Frage ist aber natürlich im Zuge der Masterarbeit, wie kann dieser Ansatz sinnvoll evaluiert werden.
Im Endeffekt habe ich mich dazu entschlossen, dass entwickelte System mit drei verschiedenen Datensets zu evaluieren. Auf diese Art und Weise sollen ganz unterschiedliche Szenarien nachgestellt werden, um so den zu untersuchenden Ansatz in unterschiedlichen Kontexten auf die Probe zu stellen.
Der erste Datensatz ist auf Basis von freiwilligen Personen entstanden, welche zu vorgegebenen Szenarien E-Mails auf Deutsch und Englisch verfasst haben. Jede Person verfasste sechs deutsche und sechs englische E-Mails. Ingesamt haben elf Personen E-Mails verfasst. Von jeder Person wurden fünf E-Mails jeder Sprache für das Training des Machine Learnings verwendet. Die jeweils sechste E-Mail diente der Verifizierung, ob eine legitime E-Mail der Person wieder korrekt zugeordnet wird. Darüberhinaus wurden auch zehn Fake-E-Mails verfasst, welche vorgaben von einer der anderen Personen zu stammen, um anhand dieser E-Mail zu evaluieren ob die Werte des Machine Learnings einen Hinweis auf diese Phishing-Attacken liefern.
Nach der ersten Testrunde, wurde erkannt, dass der Einfluss der Namen, die in E-Mails vorkommen ein sehr großer zu scheinen sein. Konkret betrifft das primär die Autoren-Namen in den Grußformlen. Daher wurden die Autor-Namen aus allen E-Mails für einen zweiten Durchlauf entfernt. Dabei kamen gänzlich andere Ergebnisse zu Stande als im ersten Testdurchlauf.
Das zweite Datenset besteht aus deutschen E-Mails von vier Personen, die alle in dem selben Unternehmen arbeiten. Von jeder Person wurden 50 E-Mails erlernt und zehn weitere zur Verifizierung herangezogen. Auch in mit diesem Datenset wurde ein Durchgang mit den Autoren-Namen und einer Durchgang ohne Autoren-Namen evaluiert. Wie auch mit dem ersten Datenset wurden zusätzlich Fake-Mails verfasst und dem Machine Learning zu Klassifizierung vorgelegt.
Das dritte Datenset besteht aus dem veröffentlichen E-Mails von Hillary Clinton mit mehr als 6500 E-Mails von mehr als 80 Personen. Hiervon wurden alle mehr als 6000 E-Mails erlernt und 200 E-Mails zur Verifizierung verwendet. Auch in diesem Fall wurden wieder Fake-E-Mails ins System eingespeist. In diesem Fall waren es 80 Fake-E-Mails.
Die Ergebnisse dieser Evaluierungen zeigten bei allen drei Datenset sehr ähnliche Ergebnisse. Wurden die E-Mails inklusive Autor-Namen erlernt, war die Zuordnung von legitimen E-Mails mit einer Trefferquote von mehr als 80% durchaus erfolgreich. Jedoch wurden auch Fake-E-Mails jenen Personen, deren Namen in der Grußformel dieser E-Mails stand zuordnet ohne einen Hinweis darauf, dass diese E-Mails eventuell von einer anderen Person verfasst wurden.
Wurden die E-Mails ohne Namen erlernt und klassifierziert, wurden legitime E-Mails zu rund 50-60 Prozent korrekt zugeordnet. Auch Fake-E-Mails wurden deutlich häufiger einer anderen Person zugeordnet als die Absender-Information es nahelegte.
Jedoch bleibt am Ende das Fazit, dass dieser Ansatz der Nutzung von Machine Learning zur Verifizierung von E-Mail-Autorschaften zur Phishing-Erkennung keine ausreichende Zuverlässigkeit bietet, um in der Praxis Phishing-E-Mails als solche zu erkennen und legitime E-Mails zuverlässig den korrekten Personen zu zuordnen.