Netidee Blog Bild
Grundlagen zu Sprachmodellen
Große Sprachmodelle kurz erklärt. (11.06.2024)
Förderjahr 2023 / Projekt Call #18 / ProjektID: 6716 / Projekt: shrinkwrap.legal

Die Browser-Erweiterung Shrinkwrap.Legal fasst mit Hilfe von KI die veröffentlichten Urteile, Beschlüsse oder Erkenntnisse aus dem RIS zusammen, damit das Wichtigste in kompakter Form erfasst werden kann. Diese Zusammenfassungen werden mit einem großen Sprachmodell (LLM Large Language Model) generiert.

Die wissenschaftliche Grundlage für diese KI Modelle bildet die Arbeit von Google  “Attention Is All You Need”. Ein Text wird zuerst in einzelne Tokens zerlegt, diese Tokens sind einzelne Wörter oder Teile von Wörtern. Anschließend wird dieser Token über eine Transformer Architektur (Deep Learning Modell) in einen Vektor umgewandelt. Allgemein wird die Umwandlung von Texten zu Vektoren als Wort-Einbettung (word embedding) bezeichnet. Im Training werden viele Texte in Vektoren umgewandelt und anschließend können dann arithmetische Operationen durchgeführt werden. Die Kosinus-Ähnlichkeit liefert uns Information darüber, wie ähnlich die Vektoren sind und auch somit, ob die Wörter einen Zusammenhang aufweisen. 

Beispielsweise bekommen die Wörter Hund und Katze einen ähnlichen Vektor zugeordnet, da diese Wörter häufig im Zusammenhang von Haustieren auftreten und teilweise gleiche Eigenschaften besitzen. 

Eine Neuheit daran war, dass die Tokens bezogen auf den Kontext davor und danach in das Modell eingebettet wurden und dadurch können auch Mehrdeutigkeiten von Wörtern aufgelöst werden. 

Durch die Gestaltung der Architektur der Transformer kann der Umfang der Sprachmodelle bestimmt werden. Je nachdem wie viele Schichten (Layer), welche Kontextlänge und wie viele Dimensionen der Vektor hat, desto umfangreicher ist ein Sprachmodell und desto länger dauert die Trainingszeit, aber dafür liefert es auch detaillierte Ergebnisse. 

Das Training mit einer großen Menge an Eingabedaten erzeugt ein allgemeines Sprachmodell, welches Aufgaben wie Übersetzen, Erstellen von Texten und Zusammenfassen ausführen kann.

Es gibt mehrere Sprachmodelle, welche als Open Source Modell veröffentlicht sind und für eigene Anwendungen auf eigener Hardware ausgeführt werden können. 

Beispiele dafür sind LLaMA von Meta und Mistral 7B von Mistral.

Im nächsten Blog werden wir beschreiben, wie wir Sprachmodelle zur Erstellung von Zusammenfassungen anbinden. 

 

Tags:

LLM Sprachmodelle

Bernhard Jungwirth

Profile picture for user bernhardjungwirth

Skills:

Java
,
Backend Entwicklung
,
React
CAPTCHA
Diese Frage dient der Überprüfung, ob Sie ein menschlicher Besucher sind und um automatisierten SPAM zu verhindern.
    Datenschutzinformation
    Der datenschutzrechtliche Verantwortliche (Internet Privatstiftung Austria - Internet Foundation Austria, Österreich) würde gerne mit folgenden Diensten Ihre personenbezogenen Daten verarbeiten. Zur Personalisierung können Technologien wie Cookies, LocalStorage usw. verwendet werden. Dies ist für die Nutzung der Website nicht notwendig, ermöglicht aber eine noch engere Interaktion mit Ihnen. Falls gewünscht, können Sie Ihre Einwilligung jederzeit via unserer Datenschutzerklärung anpassen oder widerrufen.