Counter Speech-Klassifizierung: Einblick in das Training des Classifiers

Anpassung von BERT-Modellen für präzise Erkennung von Counter Speech (02.09.2023)

Förderjahr 2022 / Stipendien Call #17 / ProjektID: 6300 / Projekt: Neural Networks for Countering German Online-Hate

In diesem Beitrag teile ich meine Erfahrung beim Anpassen eines vortrainierten Modells zur Erkennung von Counter Speech.

In meinem zweiten Beitrag habe ich bereits einen tiefen Einblick in die Textklassifikation und die Rolle von Neuronalen Netzwerken im Bereich der Sprachverarbeitung gegeben. Ein besonderer Fokus lag auf dem Verständnis, wie KI-Modelle wie BERT (Bidirectional Encoder Representations from Transformers [1]) den Kontext in Sprache erkennen und so ein semantisches Verständnis für Texte entwickeln. Heute tauchen wir tiefer in das Herzstück von BERT ein und schauen uns seine spezifischen Trainingstechniken an. Außerdem werde ich zeigen, wie ein ein vortrainiertes BERT-Modell genutzt und es speziell auf bestimmten Datensätzen weiterverfeinert haben, um Counter Speech in Texten zu erkennen.

Das Zweistufige Trainingsverfahren von BERT: Pre-training und Fine-tuning

Eines der Geheimnisse hinter BERTs Erfolg ist sein zweistufiges Trainingsverfahren, bestehend aus Pre-training und Fine-tuning.

1. Pre-training:

In dieser ersten Phase wird das BERT-Modell auf riesigen Textmengen (wie Wikipedia) trainiert, ohne spezifische Aufgaben (wie beispielsweise die Textklassifikation) als Ziel. Es verwendet dazu zwei Haupttechniken:

Masked Language Model (MLM): Wörter in Sätzen werden zufällig „maskiert“ oder versteckt, und das Modell versucht, sie basierend auf ihrem Kontext zu erraten. Dabei werden sowohl vorherige als auch nachfolgende Wörter berücksichtigt.
Next Sentence Prediction (NSP): BERT wird darauf trainiert, die Beziehungen zwischen zwei Sätzen zu verstehen, und vorherzusagen, ob der zweite Satz logisch auf den ersten folgt.

Nachdem das Modell auf diese Weise „allgemeines Wissen“ über Sprache erworben hat, kann es auf spezifische Aufgaben zugeschnitten werden. Dies führt uns zum zweiten Schritt.

2. Fine-tuning:

Für meine Arbeit griff ich auf ein bereits vortrainiertes BERT-Modell zurück und passte dieses für spezifische Textklassifikations-Aufgaben an. Drei individuelle Modelle wurden trainiert: Zwei konzentrierten sich auf die Erkennung von Counter Speech und Hate Speech, während das dritte Modell dazu diente, zwischen den Sprachen Englisch und Deutsch zu unterscheiden. Diese Sprachunterscheidungs-Aufgabe war im Verhältnis zur Erkennung von Hate- und Counter Speech einfach und sollte sicherstellen, dass das Training prinzipiell funktionierte. Sollten bei den Counter Speech-Modellen Performance-Probleme auftreten, konnte ich so leichter einschätzen, ob die Schwierigkeiten im spezifischen Aufgabenbereich oder im Trainingsprozess begründet waren.

Anwendung des Fine-tuning auf spezielle Datensätze

Mit dem bereits vortrainierten BERT-Modell machte ich mich daran, dieses mittels Fine-tuning auf drei verschiedene Datensätze anzupassen:

Thou Shalt Not Hate (TSNH) Datensatz [2]: Dieser englischsprachige Datensatz stammt von YouTube und beinhaltet Kommentare, die in zwei Hauptklassen unterteilt sind: Counter Speech (CS) und Non-Counter Speech (non-CS).
HateCounter Datensatz [3]: Der HateCounter Datensatz bietet eine einzigartige Sammlung von Hassreden und Gegenreden, die aus Twitter stammen. Er besteht aus Paaren von Hassreden und Gegenreden sowie Paaren, bei denen sowohl Kontext als auch Antwort Hassreden sind. Für meine Experimente wurden nur die Antworten verwendet.
Europarl Datensatz [4]: Der Europarl Datensatz ist eine Zusammenfassung der Verhandlungen des Europäischen Parlaments. Für meine Arbeit konzentrierte ich mich auf die deutschen und englischen Teile des Datensatzes. Es wurde kleiner Datensatz mein einer ausgeglichenen Klassenverteilung zwischen zwischen den deutschen und englischen Texten erstellt.

In meiner Forschung haben die eigens trainierten BERT-Modelle verhältnismäßig gute Ergebnisse erzielt. Um genau zu sein, hat mein TSNH-BERT-Modell, das auf dem TSNH-Datensatz trainiert wurde, eine Genauigkeit von 72,68% erreicht. Dies übertrifft das XGBoost-Modell, das in der Originalarbeit [2] mit dem gleichen Datensatz trainiert wurde und eine Genauigkeit von 71,6% aufwies.

Ähnlich verhält es sich beim HC-Datensatz. Mein HC-BERT-Modell überzeugt mit einer Genauigkeit von 86,18%. Im Vergleich dazu erreichte das CatBoost-Modell, das auf dem gleichen Datensatz in der Originalarbeit [3] trainiert wurde, eine niedrigere Genauigkeit von 78%.

Obwohl es hier kein Referenzmodel in der Originalarbeit gibt, hat das EP-BERT-Modell auf dem Testdatensatz eine beeindruckende Genauigkeit von 99,67% erreicht, wenn es darum geht, zwischen Englisch und Deutsch zu unterscheiden. Dieses Verhalten war jedoch zu erwarten, da diese Aufgabe im Vergleich zum Erkennen von Hate Speech und Counter Speech deutlich einfacher ist und der Datensatz eine gute Klassenbalance hatte. Ich hatte dieses spezielle Modell eingesetzt, um zu sehen, ob das Training grundsätzlich funktioniert.

Die Ergebnisse verstehen als nächster Schritt..

Die Resultate von BERT in der Textklassifikation zeigen nur die Oberfläche dessen, was hinter den Kulissen geschieht. Obwohl die Stärken bei der Textanalyse und -klassifikation gut zu sehen sind, ist es wichtig, zu verstehen, wie BERT zu seinen Schlussfolgerungen kommt. In meinem nächsten Blogbeitrag werden wir tiefer eintauchen und uns die Erklärbarkeitsmethoden, die im Zuge der Arbeit gewählt wurden genauer anschauen.

[1] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, ‘BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding’. arXiv, May 24, 2019. Accessed: Sep. 05, 2022. [Online]. Available: http://arxiv.org/abs/1810.04805 [2] B. Mathew et al., ‘Thou shalt not hate: Countering Online Hate Speech’, 2018, doi: 10.48550/ARXIV.1808.04409. [3] B. Mathew, N. Kumar, Ravina, P. Goyal, and A. Mukherjee, ‘Analyzing the hate and counter speech accounts on Twitter’, 2018, doi: 10.48550/ARXIV.1812.02712. [4] P. Koehn, ‘Europarl (European Parliament Proceedings Parallel Corpus)’, 2005. https://www.statmt.org/europarl/index.html (accessed Jul. 22, 2023).

Adrian Jaques Böck

Drohungen, Beleidigungen, Hetze und hasserfüllte Postings – sie zählen zu den größten
Problemen welche die voranschreitende Digitalisierung mit sich bring. Die „User-generierte
Gegenrede“ (Counterspeech) durch Nutzer:innen zeigt großes Potential, um gegen Hass im
Internet zu agieren. Im Rahmen meiner Masterarbeit soll eine Methode basierend auf Algorithmen des
Machine Learning verwendet werden, die es schafft deutsche Hasspostings sowie deren
Gegenrede zu detektieren und die dahinter stehenden Verfasser:innen der Gegenrede aktiv zu
unterstützten.
Die Klassifikations-Entscheidungen solcher Algorithmen sind für den Menschen
oftmals nicht erklärbar und/oder nachvollziehbar. Auf Grund dessen ist es Ziel der Arbeit, einen
Detektor für deutsche Gegenrede zu entwickeln der nicht nur die Gegenrede selbst im Netz
findet, sondern auch für den Menschen verständlich aufzeigt, welche Aspekte des Beitrags den
verwendeten Algorithmus dazu bewegen einen Beitrag als Gegenrede zu klassifizieren

Skills:

Programming

Python

Data Science

Natural Language Processing

Social Media

AI | KI

Machine Learning

Design

Web-Design

Weitere Blogbeiträge

Förderjahr 2022 / Stipendien Call #17 / ProjektID: 6300 / Projekt: Neural Networks for Countering German Online-Hate

Das Zweistufige Trainingsverfahren von BERT: Pre-training und Fine-tuning

Anwendung des Fine-tuning auf spezielle Datensätze

Die Ergebnisse verstehen als nächster Schritt..

Adrian Jaques Böck

Skills:

Weitere Blogbeiträge

Vom Code zur Klarheit: Neurale Netzwerke und die Erklärbarkeit dahinter

Bewertung von Explainable AI (XAI): Fokus auf Verständlichkeit und Transparenz

Bessere Verständlichkeit von Transformer-Modellen

Technologien in der Textklassifikation

Wie gegen Hass im Netz vorgehen?