Grundlagen zu Sprachmodellen

Große Sprachmodelle kurz erklärt. (11.06.2024)

Förderjahr 2023 / Projekt Call #18 / ProjektID: 6716 / Projekt: shrinkwrap.legal

Die Browser-Erweiterung Shrinkwrap.Legal fasst mit Hilfe von KI die veröffentlichten Urteile, Beschlüsse oder Erkenntnisse aus dem RIS zusammen, damit das Wichtigste in kompakter Form erfasst werden kann. Diese Zusammenfassungen werden mit einem großen Sprachmodell (LLM Large Language Model) generiert.

Die wissenschaftliche Grundlage für diese KI Modelle bildet die Arbeit von Google “Attention Is All You Need”. Ein Text wird zuerst in einzelne Tokens zerlegt, diese Tokens sind einzelne Wörter oder Teile von Wörtern. Anschließend wird dieser Token über eine Transformer Architektur (Deep Learning Modell) in einen Vektor umgewandelt. Allgemein wird die Umwandlung von Texten zu Vektoren als Wort-Einbettung (word embedding) bezeichnet. Im Training werden viele Texte in Vektoren umgewandelt und anschließend können dann arithmetische Operationen durchgeführt werden. Die Kosinus-Ähnlichkeit liefert uns Information darüber, wie ähnlich die Vektoren sind und auch somit, ob die Wörter einen Zusammenhang aufweisen.

Beispielsweise bekommen die Wörter Hund und Katze einen ähnlichen Vektor zugeordnet, da diese Wörter häufig im Zusammenhang von Haustieren auftreten und teilweise gleiche Eigenschaften besitzen.

Eine Neuheit daran war, dass die Tokens bezogen auf den Kontext davor und danach in das Modell eingebettet wurden und dadurch können auch Mehrdeutigkeiten von Wörtern aufgelöst werden.

Durch die Gestaltung der Architektur der Transformer kann der Umfang der Sprachmodelle bestimmt werden. Je nachdem wie viele Schichten (Layer), welche Kontextlänge und wie viele Dimensionen der Vektor hat, desto umfangreicher ist ein Sprachmodell und desto länger dauert die Trainingszeit, aber dafür liefert es auch detaillierte Ergebnisse.

Das Training mit einer großen Menge an Eingabedaten erzeugt ein allgemeines Sprachmodell, welches Aufgaben wie Übersetzen, Erstellen von Texten und Zusammenfassen ausführen kann.

Es gibt mehrere Sprachmodelle, welche als Open Source Modell veröffentlicht sind und für eigene Anwendungen auf eigener Hardware ausgeführt werden können.

Beispiele dafür sind LLaMA von Meta und Mistral 7B von Mistral.

Im nächsten Blog werden wir beschreiben, wie wir Sprachmodelle zur Erstellung von Zusammenfassungen anbinden.

Bernhard Jungwirth

Skills:

Java

Backend Entwicklung

React

Weitere Blogbeiträge

Förderjahr 2023 / Projekt Call #18 / ProjektID: 6716 / Projekt: shrinkwrap.legal

Tags:

Bernhard Jungwirth

Skills:

Weitere Blogbeiträge

HuggingFace

Das Java Ökosystem und große Sprachmodelle

Österreichisches Sentence Splitting

Grundlagen der Gerichtsbarkeit

shrinkwrap.legal - Kick-Off