Förderjahr 2020 / Project Call #15 / ProjektID: 5198 / Projekt: Open AudioSearch
Wie bei allen KI-getriebenen Projekten ist die Qualität der Ergebnisse sehr von den zugrunde liegenden Modellen und damit eben auch den Trainings- & Evaluationsdaten abhängig. Im Rahmen des Projektes OpenAudioSearch hatten wir uns auch vorgenommen strukturierte Informationen aus den automatisch erstellten Transkripten zu extrahieren. In einem ersten Schritt nutzen wir die Natural Language Processing Library spaCy um Named Entities, also die vorkommenden Eigennamen von Personen, Organisationen und Orten zu identifizieren.
Das von uns genutzte frei-verfügbare spaCy Modell de_core_news_lg ist mit einem Textkorpus aus deutschsprachigen, schriftlichen Nachrichtenbeiträgen trainiert und unterscheidet sich deshalb in Satzbau, Syntax & auch genutzten Begriffen sehr von unseren Transkripten, sehr unterschiedlicher Radio-Formate. Die Ergebnisse enthalten deshalb sehr viele falsch-positiv erkannte und auch einige falsch-negative Eigennamen.
SpaCy unterstützt zwar das einfache nachtrainieren einmal erstellter Modelle und stellt auch umfangreiche Skripte zur Erstellung eigener Modelle bereit, jedoch fehlen uns noch dementsprechend annotierte Trainingsdaten um ein eigenes Modell zu trainieren, beziehungsweise existierende Modelle anzupassen.
Wir haben uns entschieden in einem ersten Schritt, die fehlerhaften Resultate der Named Entity Recognition zu minimieren, in dem wir eine Suche auf der deutschsprachigen Wikipedia durchführen und nur die Entities übernehmen, die auch ein Ergebnis liefern. Zu jedem Entity zu dem es ein Ergebnis gibt, werden im User-Interface die drei höchst gerankten Ergebnisse dieser Wikipediasuche ausgegeben, ebenso werden die jeweiligen Wikidata-IDs angezeigt. In einem späteren Entwicklungsschritt wird man diese Lösung durch eigene oder angepasste Named Entity Recognition Modelle und eine Named Entity Disambiguation optimieren wollen, was dank spaCy und ähnlicher Softwarebibliotheken weniger ein Problem der entsprechenden Softwarekomponenten, als vielmehr eines entsprechender und domänenspezifischer Trainingsdaten ist.