
Förderjahr 2023 / Projekt Call #18 / ProjektID: 6716 / Projekt: shrinkwrap.legal
In der KI Szene und vor allem im Bereich von Sprachverarbeitung (NLP) und großen Sprachmodellen (LLM) führt der Weg oft zur Seite von Hugging Face www.huggingface.com.
Hugging Face ist eine Open-Source Plattform, wo vor allem KI-Modelle geteilt und weiterentwickelt werden können.
Der Hub von HuggingFace bietet folgende Services an:
- Code Repositories ähnlich wie GitHub zum Teilen und Austauschen von Code
- Modelle, welche für spezifische Aufgaben trainiert sind
- Datensätzen für Texte, Bilder und Audio, um basierend auf gemeinsamen Daten weitere Modelle zu trainieren und die Ergebnisse zu vergleichen
- Spaces als Webanwendungen für Demos seiner Modelle und Algorithmen. Dabei Handelt es sich um Anwendungscontainer welche Ressourcen wie CPU Zeit, Grafikkarten Zeit und Arbeitsspeicher zugewiesen bekommen. Es gibt eine Basisvariante gratis und leistungsstärkere Container sowie Container mit Grafikkarten sind kostenpflichtig
Eine weitere wichtige Komponente von Hugging Face sind Transformers. Dabei handelt es sich um eine Python Bibliothek damit über eine einfache Schnittstelle vorab trainierte Transformer Modelle verwendet werden können. Die Modelle sind für bestimmte Aufgaben in der natürlichen Sprachverarbeitung trainiert, wie beispielsweise die Textklassifikation oder Textzusammenfassung. Diese Bibliothek ist kompatibel mit den verbreiteten Machine Learning Bibliotheken wie PyTorch, TensorFlow und JAX.
Im Sinne des Teilens von Modellen und Datensätzen haben wir auf HuggingFace eine Seite für Shrinkwrap (https://huggingface.co/Shrinkwrap-Legal) erstellt, wo wir unseren Datensatz an Judikaturdaten aus dem RIS teilen werden, damit dieser für andere KI Projekte einfach eingebunden werden kann.
Später werden wir hier auch veranschaulichen, wie unsere Pipeline zur Verarbeitung der Texte aus dem RIS aufgebaut ist.
In einem ersten Schritt haben wir die Metadaten und Text-Inhalte von 1000 Judikatur Einträgen aus dem RIS geladen und in einem JSON Datensatz für HuggingFace aufbereitet:
Dieser Datensatz kann hier eingesehen werden: https://huggingface.co/datasets/j3ernhard/ris-justiz-demo1
Zusätzlich haben wir einen Space mit einer Demo-Anwendung eingerichtet, welche diesen Datensatz lädt und nach Auswahl den Inhalt des Datensatzes anzeigt: https://huggingface.co/spaces/j3ernhard/Judikatur-Daten