Vom Code zur Klarheit: Neurale Netzwerke und die Erklärbarkeit dahinter
Die Ergebnisse meiner Arbeit (22.10.2023)
Förderjahr 2022 / Stipendien Call #17 / ProjektID: 6300 / Projekt: Neural Networks for Countering German Online-Hate

In vorherigen Beiträgen sprach ich über den Einsatz von BERT-Modellen gegen Hassreden und ihre Erklärbarkeit. Wie haben sich die Erklärbarkeitsmethoden bewährt? Heute fokussiere ich mich auf die Ergebnisse meiner Arbeit.

Im Zuge der digitalen Revolution, die uns immer wieder neue, fortschrittliche Modelle beschert, habe ich mich intensiv mit Erklärbarkeitsmethoden beschäftigt. In vorherigen Blogbeiträgen habe ich bereits darüber berichtet, wie BERT Transformer-Modelle gegen Herausforderungen wie Hassreden eingesetzt werden können und wie solche Modelle für den Menschen nachvollziehbarer bzw. erklärbarer gemacht werden können. Heute möchte ich genauer auf die Ergebnisse und Erkenntnisse meiner Arbeit eingehen.

Ergebnisse im Detail

Alle meiner trainierten BERT Modelle waren fähig Hass-und Gegenrede in Texten ausreichend gut zu erkennen. Das bildete den Grundstein für weitere Untersuchung bezüglich verschiedener Erklärbarkeitsmethoden. Nach der eingehenden Evaluierung vier ausgewählter Erklärbarkeitsmethoden (ProtoTEx, LIME, GlobEnc, Integrated Gradients) für BERT-Klassifikatoren ergaben sich folgende Schlüsselerkenntnisse:

  • ProtoTEx: Trotz des Potenzials, das in dieser Methode steckte, stellte sie sich als nicht optimal für meine Studie heraus. Das ideale Szenario wäre gewesen, dass die Methode gelernte Trainingsdaten wiedergibt ("Prototypen") die ähnlich der vorhergesagten Klasse während der Klassifikation des Input Textes sind. Ein zentrales Problem war die Tatsache, dass die ausgewählten Prototypen oft nicht zu dieser tatsächlich vorhergesagten Klasse des Modells passten, was für die Erklärbarkeit für den Menschen nicht intuitiv ist. Auf Grund dessen wurde diese Methode verworfen. 

  • Integrated Gradients und GlobEnc: Auch wenn sie in der Theorie überzeugend wirkten, erfüllten sie in der Praxis die Kriterien nicht ausreichend genug um als Nützlich für den Menschen angesehen zu werden. 

  • LIME: Im Gegensatz dazu zeigte LIME vielversprechendere Resultate. Vor allem in den Bereichen Verständlichkeit und Genauigkeit schnitt diese Methode besser ab.

Blick in die Zukunft

Es ist offensichtlich, dass trotz aller Fortschritte noch einiges an Verbesserungsbedarf besteht. Die immer komplexeren Transformer-Modelle erfordern ausgefeilte Tools und Ansätze für ihre Interpretation und Erklärbarkeit. Meine Arbeit zeigte, dass gerade die Erklärbarkeit für Modelle die mit schwierigen Aufgabenstellungen wie des erkennen von Hass- und Gegenrede nicht ausreichend sind um in realen Settings verwendet zu werden. Außerdem könnte Zukünftig ein spannender Weg sein, verschiedene Methodiken miteinander zu kombinieren, um deren Vorteile zu bündeln. Ein weiterer Fokus sollte auf einer nutzerzentrierten Forschung liegen, um Interfaces zu kreieren, die wirklich den Bedürfnissen der Nutzer:innen entsprechen, sowie das in Betracht ziehen von mehr Kontext rund um die Texte, um den Sinn und Zweck der Sätze besser nachvollziehen zu können.

Abschließend bleibt zu sagen: Es ist noch viel zu tun bezüglich von Sicherheit im Netz und Erklärbarkeit von KI Modellen. Die (meine) Forschung geht jedenfalls weiter!

Tags:

Machine Learning Artificial Intelligence Natural Language Processing

Jaqu Böck

Profile picture for user Jaqu Böck
Drohungen, Beleidigungen, Hetze und hasserfüllte Postings – sie zählen zu den größten
Problemen welche die voranschreitende Digitalisierung mit sich bring. Die „User-generierte
Gegenrede“ (Counterspeech) durch Nutzer:innen zeigt großes Potential, um gegen Hass im
Internet zu agieren. Im Rahmen meiner Masterarbeit soll eine Methode basierend auf Algorithmen des
Machine Learning verwendet werden, die es schafft deutsche Hasspostings sowie deren
Gegenrede zu detektieren und die dahinter stehenden Verfasser:innen der Gegenrede aktiv zu
unterstützten.
Die Klassifikations-Entscheidungen solcher Algorithmen sind für den Menschen
oftmals nicht erklärbar und/oder nachvollziehbar. Auf Grund dessen ist es Ziel der Arbeit, einen
Detektor für deutsche Gegenrede zu entwickeln der nicht nur die Gegenrede selbst im Netz
findet, sondern auch für den Menschen verständlich aufzeigt, welche Aspekte des Beitrags den
verwendeten Algorithmus dazu bewegen einen Beitrag als Gegenrede zu klassifizieren

Skills:

Programming
,
Python
,
Data Science
,
Natural Language Processing
,
Social Media
,
AI | KI
,
Machine Learning
,
Design
,
Web-Design
CAPTCHA
Diese Frage dient der Überprüfung, ob Sie ein menschlicher Besucher sind und um automatisierten SPAM zu verhindern.
    Datenschutzinformation
    Der datenschutzrechtliche Verantwortliche (Internet Privatstiftung Austria - Internet Foundation Austria, Österreich) würde gerne mit folgenden Diensten Ihre personenbezogenen Daten verarbeiten. Zur Personalisierung können Technologien wie Cookies, LocalStorage usw. verwendet werden. Dies ist für die Nutzung der Website nicht notwendig, ermöglicht aber eine noch engere Interaktion mit Ihnen. Falls gewünscht, können Sie Ihre Einwilligung jederzeit via unserer Datenschutzerklärung anpassen oder widerrufen.