
Förderjahr 2023 / Stipendien Call #18 / ProjektID: 6822 / Projekt: Efficiently Perform Open-Book Question Answering Purely in the User’s Web Browser
Dieser Beitrag markiert den Beginn unserer Reise zu einem rein im Webbrowser laufenden Open-Book-Question-Answering-System. Dabei beleuchten wir unsere Motivation, den Forschungsstand, unsere Projektziele, angewandte Methoden sowie unseren Zeitplan.
Bei vielen Anwendungen von Large-Language-Models (LLMs) stehen wir vor der Herausforderung, Antworten aus einem gegebenen Kontext zu extrahieren, anstatt eine möglicherweise falsche und veraltete Replik auf Basis des dem LLM zugrundeliegenden Wissens zu generieren. Aufbauend auf etablierten Techniken des Extractive-Question-Answering (QA) bzw. Open-Book-QA als Form des Natural-Language-based QA [5], können wir die sogenannte Retrieval-Augmented-Generation (RAG) [1] einsetzen, um derartige kontextsensitive Antworten auf Fragen in Bezug auf eine Wissensbasis – wie z. B. Textdokumente – automatisiert zu geben.
Vor diesem Hintergrund möchten wir mit der Entwicklung eines unter anderem für den Bildungsbereich konzipierten und rein im Webbrowser laufenden Open-Book-QA-Systems einerseits den Zugang zu innovativen Technologien weitestgehend unabhängig von finanziellen oder technischen Ressourcen weiter demokratisieren und andererseits die Potenziale aufkommender Webstandards [2] [3] exemplarisch als Proof-of-Concept erschließen.
Forschungsstand
Als Generative-AI-Technik zur Inhaltserstellung mithilfe überwiegend kommerzialisierter Produkte [1] zielt Natural-Language-based QA darauf ab, Antworten in natürlicher Sprache als Reaktion auf textuelle Fragen automatisiert bereitzustellen [5]. Neben etlichen, im Bereich des Open-Book-QA bereits etablierten Techniken [5] ruft Deep-Learning (DL) QA [1] relevantes, zunächst nicht-parametrisches LLM-Wissen ab und ergänzt dieses in weiterer Folge direkt im Kontext der an das LLM gerichteten Frage [5]. Damit können wir RAG, wie etliche aktuelle Studien aufzeigen [1], verwenden, um ohne zusätzliches Training sogenanntes LLM-Fine-Tuning vorzunehmen und bessere Antworten zu genieren [1].
Exemplarisch haben Feng et al. [3] „TensorIR“ als universelle Deployment-Solution aufbauend auf Apaches Machine-Learning-Compiler-Framework „TVM“ [2] entwickelt, mit der wir Open-Source-Pre-trained-Language-Models (PLMs) einsetzende Software – wie z. B. Open-Book-QA – effizient auf Endverbrauchergeräten native ausführen können [3] [4].
Ziele der Arbeit
Mit der Implementierung eines direkt im Webbrowser ausführbaren Open-Book-QA-Systems verfolgen wir als Hauptziel meiner Masterarbeit die Entwicklung eines Proof-of-Concept des von Feng et al.’s vorgelegten Ansatzes der „Machine Learning Compilation for LLMs“ [4]. Dabei bauen wir als theoretische Grundlage auf dem bereits angeführten neuartigen, jedoch bereits erprobten DL QA [1] [5] auf und greifen als experimentellen Aspekt auf adäquate, frei verfügbare PLMs zurück.
Darüber hinaus streben wir als ein weiteres Ziel an, dass das entstehende Open-Book-QA-System dezidiert im Bildungsbereich Anwendung finden soll, indem wir es nach Fertigstellung meiner Masterarbeit sowohl für Lehrende als auch für Schüler*innen bzw. Studierende langfristig öffnen. Damit möchten wir einerseits Lehrer*innen die Möglichkeit bieten, PLM-basierte (Lern-)Software im Lehrbetrieb einzusetzen, die andererseits von Lernenden ohne weitere Installation und Abhängigkeit von proprietären Produkten verwendet werden kann.
Angewandte Methoden
Aufbauend auf unserer bereits durchgeführten überblicksartigen Literaturrecherche führen wir eine systematische Literatursuche nach Wohlins „Snowballing“-Ansatz durch, um den aktuellen Stand der Forschung im Bereich DL QA [1] [5] gründlich zu beleuchten.
Durch den Einsatz der Softwareentwicklungsmethode des sogenannten evolutionären Prototypings implementieren wir schrittweise eine funktionstüchtige Version unseres direkt im Webbrowser ausführbaren Open-Book-QA-Systems, dessen vollen Anforderungsumfang wir erst während der Entwicklung durch kontinuierlich durchgeführte, von Langevin et al. vorgeschlagene heuristische Evaluierungen von Conversational-User-Interfaces mit Usability-Expert*innen erschließen.
Unter Rückgriff auf den Datensatz „OpenBookQA“ von Mihaylov et al. testen wir das Antwortverhalten unseres entwickelten Open-Book-QA-Systems, indem wir dessen Kombinationsfähigkeit von Open-Book-Fakten mit parametrischem LLM-(Allgemein-)Wissen analysieren.
Grober Zeitplan
Unserem groben Zeitplan – der sich von Anfang März bis Ende September 2025 erstreckt – folgend, verschaffen wir uns bis Mitte April 2025 einen umfassenden Überblick über den aktuellen Forschungsstand im Bereich DL QA [1] [5] und evaluieren parallel dazu Einsatzmöglichkeiten neu aufkommender Webstandards [4].
Zwischen Mitte April und Ende Juli 2025 konzipieren und implementieren wir unser rein im Webbrowser laufendes Open-Book-QA-System, das wir zwischen Juli und August 2025 umfangreich testen. Von Anfang April bis Mitte Mai 2025 untersuchen wir unterschiedliche, identifizierte Deep-Learning-Question-Answering-Strategien [1] anhand ausgewählter, zu diesem Zeitpunkt verfügbarer Open-Source-PLMs.
Ab Mitte Juli 2025 verfassen wir ausgehend von den gewonnenen Erkenntnissen der letzten fünf Monate die eigentliche Masterarbeit, die wir Ende September 2025 fertigstellen. Einerseits mit dem Zusammenfassen und Verteidigen der Masterarbeit sowie andererseits der Öffnung des Open-Book-QA-Systems schließen wir das Stipendium Ende September 2025 ab.
Wesentliche Literatur
[1] Cao, Y., … & Sun, L. (2023). A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT. arXiv preprint arXiv:2303.04226.
[2] Chen, T., ... Krishnamurthy, A. (2018). TVM: An automated End-to-End optimizing compiler for deep learning. In 13th USENIX Symposium on Operating Systems Design and Implementation (OSDI 18) (pp. 578–594).
[3] Feng, S., ... Chen, T. (2023). TensorIR: An Abstraction for Automatic Tensorized Program Optimization. In Proceedings of the 28th ACM International Conference on Architectural Support for Programming Languages and Operating Systems, Volume 2 (pp. 804–817).
[4] MLC Team (2024). MLC-LLM. github.com/mlc-ai/mlc-llm
[5] Rejimoan, R., … Jayasudha, J. S. (2023). A Comprehensive Review on Deep Learning Approaches for Question Answering and Machine Reading Comprehension in NLP. In 2023 2nd Edition of IEEE Delhi Section Flagship Conference (DELCON) (pp. 1–6). IEEE.