Überblick | netidee

This image shows the combinatorial consistency testing pipeline for LLMs.

Überblick

Worum geht es? (08.12.2024)

Förderjahr 2024 / Projekt Call #19 / ProjektID: 7409 / Projekt: KomMKonLLM

Hier geben wir einen Überblick über unser Projekt KomMKonLLM: Kombinatorische Methoden für Konsistenztests von Large Language Models

Wer sind wir?

Manuel Leithner, Ludwig Kampel und Bernhard Garn sind Forscher in Informationssicherheit (MATRIS Research Group, SBA Research) und interessieren sich – unter anderem - für Stärken und Schwächen von künstlicher Intelligenz, insbesondere für Large Language Models (LLMs), welche die IT-Landschaft verändern und neue Kompetenzen von Benutzern verlangen.

Für wen ist KomMKonLLM?

Unsere Arbeit über die Konsistenz von Large Language Models hat als Zielgruppe nicht nur Wissenschaft und Forschung, sondern insbesondere auch Unternehmen, die LLMs in ihre Produktentwicklung oder Dienstleistungen integrieren (wollen) bzw. verwenden und sicherstellen wollen, dass ein gewisses Maß an Konsistenz – und in weiterer Hinsicht Akkuratheit – der Resultate gegeben ist.

Was bedeutet Konsistenztesten?

Das Konsistenztesten von LLMs adressiert das Problem, sicherzustellen, dass LLMs zuverlässig auf verschiedene Eingaben reagieren. Da LLMs oft komplexe und undurchsichtige Strukturen haben, können sie inkonsistente oder unerwartete Antworten auf ähnliche Eingaben geben. Diese Inkonsistenzen erschweren es, LLMs in Anwendungen einzusetzen, wo Verlässlichkeit entscheidend ist. Die Herausforderung liegt darin, geeignete Testmethoden zu entwickeln, die systematisch die Konsistenz der Modelle bewerten.

Herausforderungen:

Besonders beim Testen der semantischen Komplexität von LLMs ist es äußerst herausfordernd, die vielen möglichen Variationen von Formulierungen von Eingabeabfragen abzudecken. Wir werden daher automatisierte Methoden des kombinatorischen Testens verwenden, welche den Vorteil mit sich bringen, den modellierten Eingaberaum (in diesem Fall ein geschriebener Satz und die Arten diesen zu formulieren) bis zu einem gewissen vorgegebenen Grad - in einem bestimmten kombinatorischen Sinn - abzudecken.

Wie funktioniert es?

Wir wollen eine Serverlösung erstellen welche Konsistenztests für LLMs mit Hilfe von kombinatorischen Methoden automatisch erstellt, über offene Schnittstellen auf LLM-Instanzen ausführt und auch die Ergebnisse aufbereitet darstellen kann. Zusammen mit einem integrierten Repository von Testfällen bietet dies eine Lösung für das kombinatorische Testen der Konsistenz von LLMs.

Zusammengefasst schaut der gesamte Test-Prozess so aus:

This image shows the combinatorial consistency testing pipeline for LLMs.

Besondere Bedeutung hat unser Projekt für:

Internet-Technologie/-Infrastruktur
Wirtschaftliche und/oder wissenschaftliche Kooperationen

Mehrwert für Internet-Technologie/-Infrastruktur:

Suchmaschinen und Chatbots sind integrale Teile der Internettechnologie und deren Interaktion mit Benutzern steht an zentraler Stelle. Die Integration von LLMs bietet neue Möglichkeiten zu intuitiveren Benutzerinteraktionen, dazu ist die Qualität der verwendeten LLMs sicherzustellen.

Mehrwert wirtschaftliche/wissenschaftliche Kooperationen:

Wissenschaftliche Studien können mit Hilfe der entwickelten Serverlösung LLMs auf Konsistenz testen und auch bei Bedarf entsprechend weiterentwickeln. Die generierten Testdaten können in Benchmarks integriert werden.

Projektergebnis:

Eine Server-Software, welche Konsistenztests für LLMs mit Hilfe von kombinatorischen Methoden automatisch erstellt, über offene Schnittstellen auf LLM-Instanzen ausführt und auch die Ergebnisse aufbereitet darstellen kann.
Kombinatorisch generierte Testfälle zur Konsistenzevaluierung von LLMs in einem repository.

Bernhard Garn

Homepage: https://matris.sba-research.org/bernhard-garn/
Google Scholar: https://scholar.google.at/citations?user=Afk5HBQAAAAJ&hl=en&oi=ao

Bernhard Garn is a research scientist in applied mathematics; senior researcher at the MATRIS Research Group (https://matris.sba-research.org/) at SBA Research (https://www.sba-research.org/).

Research Interests
At the core of Bernhard’s research is the application of discrete mathematics, in particular design theory, to scientific fields. With his background in mathematics, he is especially interested in the application of theoretical results to practical problems, effectively bridging the gap between mathematics and application domains.

His research interests include combinatorial mathematics for software testing, mathematical aspects of information security as well as discrete mathematics for disaster research.

He has developed further the underlying discrete mathematical structures used in combinatorial testing for software from a theoretical perspective using combinatorial and computer algebra techniques. He has also applied combinatorial security testing to several major modern issues in information security, thereby covering different layers of the software stack. In particular, Bernhard has developed CST approaches for web security (XSS, SQLi) and the security and reliability of operating systems. In the domain of online privacy, he has demonstrated how combinatorial methods can be used for browser fingerprinting.

Bernhard is further interested in disaster research, ranging from natural, cyber disasters in critical infrastructure to financial disasters, with the goal of strengthening preparedness and resilience.

Bio
Bernhard received a Bachelor of Science and a Diplomingineur in Technical Mathematics, as well as a Doctoral degree in technical sciences (Informatics) from TU Wien.

Weitere Blogbeiträge

Example source code taken from the KomMKonLLM implementation

Förderjahr 2024 / Projekt Call #19 / ProjektID: 7409 / Projekt: KomMKonLLM

Bernhard Garn

Weitere Blogbeiträge

Konsistenztesten von LLMs: Die praktische Implementierung

Kombinatorisches Testen in aller Kürze

Beispiel für das Erzeugen kombinatorischer Konsistenzfragen

Methodik von KomMKonLLM (Teil 2 von 2)

Methodik von KomMKonLLM (Teil 1 von 2)

Architektur & Technologien