Förderjahr 2022 / Stipendien Call #17 / ProjektID: 6300 / Projekt: Neural Networks for Countering German Online-Hate
Transformer als revolutionäre KI. Aber wieso eignen sie sich so gut für Text?
Was ist Text-Klassifikation überhaupt?
Bei der automatischen Klassifizierung von Text geht es im Grunde genommen darum, Texte aufgrund bestimmter Merkmale im Text, den so genannten „Features“ einer Klasse zuzuordnen. Diese Verfahren werden auf Grund der Digitalisierung und der immer größer werdenden Datenmengen immer bedeutsamer. Deshalb finden sich diese Verfahren bereits in einer Vielzahl von Anwendungen wieder. Neben dem filtern von beispielsweise Hass- oder Gegenrede im Internet werden diese Methoden auch zur Detektion von Spam-E-Mails, zur Erkennung von Fake-News, der Klassifizierung von Nachrichten oder auch zur Sentiment-Analyse von Texten eigesetzt, mit dem Ziel herauszufinden ob es sich etwa um einen Text mit positiver, negativer oder neutraler Intention handelt.
Von traditionellen Verfahren zu Neuronalen Netzwerken
Viele der klassischen Klassifikationsverfahren sind statistische Verfahren welche auf einfachen mathematischen Modellen basieren. Eines der bekanntesten Verfahren ist beispielsweise Naive Bayes, welches das Bayes-Theorem als Grundlage hat. Das Modell berechnet eine gewisse Wahrscheinlichkeit, dass ein Satz oder Text einer gewissen Klasse zugehört. Diese Wahrscheinlichkeit ist abhängig von der Häufigkeit von vorhandenen Merkmalen im Text. Ein weiteres, traditionelles Verfahren sind Support Vector Machines (SVMs). Dieses mathematische Verfahren versucht etwa eine Trennlinie, mit möglichst großem Abstand zwischen den zu trennenden Klassen zu ziehen.
Mit dem Aufkommen von Neuronalen Netzwerken hat sich auch das Themenfeld der Text Klassifikation stark verändert und revolutioniert. Eine der bekanntesten Methoden, die sich sehr gut für sequentielle Daten eignet ist etwa Long Short-Term Memory (LSTM), welches auf der Architektur von Recurrent Neural Networks (RNNs) basiert. Diese Verfahren haben den Vorteil, dass sie die Reihenfolge und die Struktur von Wörtern in einem Text berücksichtigen können. Bei der sequentiellen Verarbeitung von Text mittels RNNs werden etwa Informationen der vorherigen Wörter behalten. Somit ist es möglich, Muster in Texten zu erkennen. LSTMs haben zusätzlich den Vorteil, dass sie Informationen für länger Zeit bzw. längere Zeitabschnitte speichern können als RNNs. Das macht LSTMs gerade für längere Texte interessant.
Transformer - die Game-Changer der Zukunft
Zu den derzeitigen state-of-the-art Modellen bezüglich Textklassifikation gehören die sogenannten Transformer. Eines der bekanntesten Modell ist hier wohl BERT (Bidirectional Encoder Representations from Transformers). Anders als traditionelle Verfahren die einen Text nur sequentiell verarbeiten können sind Transformer in der Lage, Sätze in beide Richtungen zu verarbeiten. Somit zeigen sie ein viel besseres Verständnis für die verwendeten Texte und den Zusammenhang der einzelnen Wörter. BERT ist durch seine Struktur also in der Lage, auch ein gewisses semantisches Verständnis für Texte zu entwickeln. Gerade für die Klassifikation von Text ist diese Fähigkeit von enormer Bedeutung, da in der Sprache oft nicht nur einzelne Worte, sondern die Kombination einzelner Wörter oft als Maßgebende Einheit für die Bedeutung eines Satzes eine Rolle spielen.
Das besondere an BERT ist außerdem die Fähigkeit „transfer learning“ zu unterstützen. Transfer learning ist die Fähigkeit, dass ein Modell das bereits für eine gewisse Aufgabenstellen trainiert wurde auch für andere Aufgaben verwendet werden kann, ohne neu trainiert zu werden. Dies ist aber sehr stark davon abhängig wie sehr sich die Aufgabenstellungen voneinander unterscheiden. Grundsätzlich gilt aber, dass es sehr wohl sinnvoll ist und solche Modelle bessere Ergebnisse erzielen, wenn sie auf den spezifischen Use-Case trainiert wurden.
Allen in allem ist die Klassifikation von Text eine enorm große uns spannender Teil der Disziplin des Natural Language Processings. Transformer Modelle wir BERT, mit der Fähigkeit, semantische Bedeutungen von Wörtern in Bezug auf den Kontext des Textes zu verstehen sind revolutionär und bieten eine Vielzahl an Anwendungsmöglichkeiten.
Jaqu Böck
Problemen welche die voranschreitende Digitalisierung mit sich bring. Die „User-generierte
Gegenrede“ (Counterspeech) durch Nutzer:innen zeigt großes Potential, um gegen Hass im
Internet zu agieren. Im Rahmen meiner Masterarbeit soll eine Methode basierend auf Algorithmen des
Machine Learning verwendet werden, die es schafft deutsche Hasspostings sowie deren
Gegenrede zu detektieren und die dahinter stehenden Verfasser:innen der Gegenrede aktiv zu
unterstützten.
Die Klassifikations-Entscheidungen solcher Algorithmen sind für den Menschen
oftmals nicht erklärbar und/oder nachvollziehbar. Auf Grund dessen ist es Ziel der Arbeit, einen
Detektor für deutsche Gegenrede zu entwickeln der nicht nur die Gegenrede selbst im Netz
findet, sondern auch für den Menschen verständlich aufzeigt, welche Aspekte des Beitrags den
verwendeten Algorithmus dazu bewegen einen Beitrag als Gegenrede zu klassifizieren