Bewertung von Explainable AI (XAI): Fokus auf Verständlichkeit und Transparenz

Ein Einblick in die Evaluation verschiedener XAI-Methoden (02.09.2023)

Förderjahr 2022 / Stipendien Call #17 / ProjektID: 6300 / Projekt: Neural Networks for Countering German Online-Hate

Dieser Blogbeitrag widmet sich der Bewertung von Explainable AI (XAI) Methoden im Rahmen meiner Masterarbeit. Hier werfen wir einen Blick auf die angewandten Ansätze, Herausforderungen und gewonnene Erkenntnisse im Bereich der XAI-Evaluierung.

Heutzutage sind Künstliche Intelligenz (KI) und Maschinelles Lernen allgegenwärtig, aber durch ihre komplexen Entscheidungsprozesse mangelt es oft an Transparenz. Hier kommt Explainable AI (XAI) ins Spiel, ein Ansatz, der darauf abzielt, KI-Entscheidungen verständlicher zu machen. Dieser Blogbeitrag widmet sich dem Bewertungsansatz der verschiedene XAI-Methoden die im Zuge meiner Masterarbeit untersucht werden.

Verwendete XAI-Methoden: LIME, Integrated Gradients, GlobEnc und ProtoTEx

Die Masterarbeit verwendet vier Erklärbarkeitsmethoden die Anhand zuvor trainierter BERT-Classifier evaluiert werden: LIME [1], Integrated Gradients [2], GlobEnc [3] und ProtoTEx [4]. Diese Methoden ermöglichen das Verstehen der Beiträge einzelner Merkmale der Texte (Wörter oder Wortteile (Tokens) zu Modellvorhersagen, wodurch das Verständnis für KI-Entscheidungsfindung verbessert wird.

Bewertungsansatz für Transparenz

Der Bewertungsansatz meiner Arbeit konzentriert sich darauf, XAI-Methoden anhand von Aspekten wie Plausibilität, Verständlichkeit, Vertrauenswürdigkeit und Nutzen zu bewerten. Dies wird durch eine qualitative Benutzerstudie erreicht. Zusätzlich wird das Axiom der Treue durch eine quantitative Ablationsstudie bewertet.

Bewertung von ProtoTEx: Herausforderungen und Ergebnisse

Ein wesentlicher Aspekt der Masterarbeit war die Bewertung der ProtoTEx-Methode zur Verbesserung der KI-Erklärbarkeit. Es wurden mehrere Experimente mit zwei Datensätzen (ein Counter Speech Datensatz und ein Datensatz zum Unterscheiden von deutscher und englischer Sprache) durchgeführt, um festzustellen, ob die generierten Prototypen (mehr Infos dazu in diesem Blogbeitrag) der ProtoTEx-Methode dazu beitragen können, die Erklärbarkeit der trainierten BERT-Modelle zu verbessern.

Die Bewertung der ProtoTEx-Methode erwies sich als herausfordernd. Die Methode hatte zum Ziel, Sätze aus Trainingsdaten zu identifizieren, die den vorhergesagten Prototypen nahestehen. Die Ergebnisse zeigten jedoch oft, dass die nächsten Testbeispiele zu den Prototypen einer anderen Klasse angehörten als das ursprüngliche Testbeispiel. Ähnliche Beobachtungen wurden bereits in der vorhandenen Literatur gemacht. Aufgrund dieser Schwierigkeiten wurde die Methode für den Menschen als nicht nützlich eingestuft und von weiteren Bewertungen ausgeschlossen.

Quantitative Bewertung durch Ablationsstudie

Die quantitative Bewertung konzentrierte sich auf das Axiom der Treue und wurde durch eine Ablationsstudie durchgeführt. Diese Studie hatte zum Ziel zu untersuchen, wie sich die Vorhersagewahrscheinlichkeit des Modells ändert, wenn wichtige Wörter oder Tokens, die von Erklärbarkeitsidentifiziert wurden, entfernt werden.

Qualitative Benutzerstudie

Eine qualitative Benutzerstudie wurde durchgeführt, um die Axiome der Plausibilität, Verständlichkeit, Ausreichendheit, Vertrauenswürdigkeit, Zufriedenheit und Nützlichkeit zu bewerten. Die Studie bestand aus zwei Teilaufgaben:

Teilaufgabe 1: Vorwärtssimulation/Vorhersage

In dieser Teilaufgabe wurden Attributionswerte für fünf Sätze für jede der drei Methoden (LIME, Integrated Gradients, GlobEnc) berechnet. Attributionswerte sind Werte, die von XAI-Methoden berechnet werden, um den Beitrag einzelner Merkmale (Wörter oder Tokens) zur Vorhersage eines KI-Modells zu quantifizieren. Höhere Werte deuten auf eine größere Relevanz für die Vorhersage hin. Die Relevanten Wortteile wurden im Rahmen der Evaluierung mit Hilfe einer farblichen Markierung, abhängig der Attributionswerte hervorgehoben. Die Teilnehmenden sollten die Vorhersage des Modells basierend auf den Erklärungen und hervorgehobenen Wörtern oder Tokens vorhersagen. Die Intensität der Farben in der generierten Visualisierung zeigte die positive oder negative Zuordnung zur Modellvorhersage.

Teilaufgabe 2: Vergleichsstudie

In dieser Teilaufgabe wurden den Teilnehmenden fünf Sätze zusammen mit den Originalerklärungen aller drei Methoden (IG, LIME und GlobEnc) gezeigt. Die ursprünglichen, echten und die vorhergesagten Labels des Modells wurden ebenfalls bereitgestellt. Die Teilnehmenden beantworteten Fragen zur Verständlichkeit, wie ausreichend die Erklärung war, zur Vertrauenswürdigkeit, Zufriedenheit und Nützlichkeit der Erklärungen.

Ein Blick in die Zukunft

Aktuell befinde ich mich mitten im Prozess des Dokumentierens und Evaluierens der Ergebnisse meiner Arbeit. Die umfangreiche Bewertung der verschiedenen XAI-Methoden sowie die Auswertung der qualitativen Benutzerstudien sind derzeit in vollem Gange. Die Fertigstellung meiner Masterarbeit rückt näher, und ich freue mich darauf, bald die Erkenntnisse dieser Forschung teilen zu können.

[1] M. T. Ribeiro, S. Singh, and C. Guestrin, ‘“Why Should I Trust You?”: Explaining the Predictions of Any Classifier’. arXiv, Aug. 09, 2016. doi: 10.48550/arXiv.1602.04938. [2] M. Sundararajan, A. Taly, and Q. Yan, ‘Axiomatic Attribution for Deep Networks’. arXiv, Jun. 12, 2017. Accessed: Mar. 23, 2023. [Online]. Available: http://arxiv.org/abs/1703.01365 [3] A. Modarressi, M. Fayyaz, Y. Yaghoobzadeh, and M. T. Pilehvar, ‘GlobEnc: Quantifying Global Token Attribution by Incorporating the Whole Encoder Layer in Transformers’, in Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Seattle, United States: Association for Computational Linguistics, Jul. 2022, pp. 258–271. doi: 10.18653/v1/2022.naacl-main.19. [4] A. Das, C. Gupta, V. Kovatchev, M. Lease, and J. J. Li, ‘ProtoTEx: Explaining Model Decisions with Prototype Tensors’. arXiv, May 22, 2022. doi: 10.48550/arXiv.2204.05426.

Adrian Jaques Böck

Drohungen, Beleidigungen, Hetze und hasserfüllte Postings – sie zählen zu den größten
Problemen welche die voranschreitende Digitalisierung mit sich bring. Die „User-generierte
Gegenrede“ (Counterspeech) durch Nutzer:innen zeigt großes Potential, um gegen Hass im
Internet zu agieren. Im Rahmen meiner Masterarbeit soll eine Methode basierend auf Algorithmen des
Machine Learning verwendet werden, die es schafft deutsche Hasspostings sowie deren
Gegenrede zu detektieren und die dahinter stehenden Verfasser:innen der Gegenrede aktiv zu
unterstützten.
Die Klassifikations-Entscheidungen solcher Algorithmen sind für den Menschen
oftmals nicht erklärbar und/oder nachvollziehbar. Auf Grund dessen ist es Ziel der Arbeit, einen
Detektor für deutsche Gegenrede zu entwickeln der nicht nur die Gegenrede selbst im Netz
findet, sondern auch für den Menschen verständlich aufzeigt, welche Aspekte des Beitrags den
verwendeten Algorithmus dazu bewegen einen Beitrag als Gegenrede zu klassifizieren

Skills:

Programming

Python

Data Science

Natural Language Processing

Social Media

AI | KI

Machine Learning

Design

Web-Design

Förderjahr 2022 / Stipendien Call #17 / ProjektID: 6300 / Projekt: Neural Networks for Countering German Online-Hate

Verwendete XAI-Methoden: LIME, Integrated Gradients, GlobEnc und ProtoTEx

Bewertungsansatz für Transparenz

Bewertung von ProtoTEx: Herausforderungen und Ergebnisse

Quantitative Bewertung durch Ablationsstudie

Qualitative Benutzerstudie

Teilaufgabe 1: Vorwärtssimulation/Vorhersage

Teilaufgabe 2: Vergleichsstudie

Ein Blick in die Zukunft

Tags:

Adrian Jaques Böck

Skills:

Weitere Blogbeiträge

Vom Code zur Klarheit: Neurale Netzwerke und die Erklärbarkeit dahinter

Counter Speech-Klassifizierung: Einblick in das Training des Classifiers

Bessere Verständlichkeit von Transformer-Modellen

Technologien in der Textklassifikation

Wie gegen Hass im Netz vorgehen?