Maschinen sind nicht immer besser als Menschen

Antwort auf die Frage, ob Machine-Learning-basiertes Verifizieren von Autorschaften Phishing erkennen kann (10.05.2020)

Förderjahr 2019 / Stipendien Call #14 / ProjektID: 4407 / Projekt: Mail authorship verification and phishing recognizing with machine learning on iOS

Diese Masterarbeit setzte sich zum Ziel zu untersuchen ob und wie gut Machine-Learning Autorschaften von Mails verifizieren kann und ob sich dieser Ansatz zum Erkennen von Spear-Phishing-Mails eignet. Dazu wurde zuerst eine mobile App (iOS) entwickelt und dann dieser Ansatz mit Hilfe von drei verschiedenen Datensets evaluiert (wie in den letzten Blog-Beiträgen beschrieben).

Nun ist diese Evaluierung abgeschlossen und die Resultate zeigen, dass Computer mittels Machine-Learning (CoreML und uClassify) zumindest in dieser Untersuchung keine Verifizierung der Autorschaften mit einer praktikablen Genauigkeit durchführen können. Konkret kann man festhalten, dass, wenn man die ganze Mail (also inklusive Grußformel mit dem Namen des Absenders) zum Erlernen und Verifizieren der Autorschaften heranzieht, dass die Zuordnung der Mails zu den Personen in nahezu allen Fällen korrekt ist. Jedoch ist auch für einen Angreifer in diesem Fall das System leicht zu umgehen. Es muss nur der Name des vorgetäuschten Absenders in der Mail enthalten sein, um mit großer Wahrscheinlichkeit als legitime Mail klassifiziert zu werden. Aufgrund dieser Problematik wurden die Mails auch ohne Grußformeln und Absender-Namen erlernt und klassifiziert. In diesem Fall ist die Zuordnung legitimier Mails zu Personen in 50 bis 60 Prozent aller Fälle korrekt. Gleichzeitig werden auch Phishing-Mails nun deutlich weniger oft der Person zugeordnet, die ein Angreifer versucht hat zu imitieren. Jedoch bedeutet eine unzuverlässige Zuordnung von legitimen Mails, dass dieses System in der vorliegenden Form kaum praktikabel ist.

Somit kann der Schluss gezogen werden, dass das vorliegende System noch nicht gut genug funktioniert und in der Praxis nicht verwendbar ist. Man müsste also einen viel Linguistik-spezifischeren Algorithmus entwickeln, der vor dem eigentlichen Machine-Learning die Mails so aufbereitet, dass die Autor-spezifischen Merkmale extrahiert werden und nur diese verglichen werden. Ein solcher Ansatz, am besten in einem interdisziplinären Team entwickelt, könnte vielleicht den grundlegenden Ansatz Autorschaften von Mails zu verifizieren, um Spear-Phishing zu erkennen, noch zu einer praxis-tauglichen Lösung werden lassen.

Für die Masterarbeit und damit auch (vorerst) für mich endet mit dieser Feststellung die Forschung zu diesem Thema. Aber vielleicht komme ich ja in Zukunft nochmal auf diesen Ansatz zurück. Nun gilt es jedoch, die fertig geschriebene Arbeit noch in Papierform zu bringen und die letzten formalen Dokumente auszufüllen und dann schlussendlich mit Ende Juni das Studium IT- and Mobile Security mit der Masterprüfung zu vollenden.

Christian Finker

Website: https://christianfinker.eu

Skills:

Webentwicklung

mobile Apps iOS

Machine Learning

PHP

Weitere Blogbeiträge

Förderjahr 2019 / Stipendien Call #14 / ProjektID: 4407 / Projekt: Mail authorship verification and phishing recognizing with machine learning on iOS

Christian Finker

Skills:

Weitere Blogbeiträge

Das Ende der Arbeit naht

Schreibstille Personen zuordnen mittels Machine Learning. Geht das?

Machine Learning und iOS

Gibt es einen linguistischen Fingerabdruck?

E-Mails können gefährlich sein!