HuggingFace | netidee

HuggingFace

Open-Source-Plattform für KI Modelle und Datensätze (03.02.2025)

Förderjahr 2023 / Projekt Call #18 / ProjektID: 6716 / Projekt: shrinkwrap.legal

In der KI Szene und vor allem im Bereich von Sprachverarbeitung (NLP) und großen Sprachmodellen (LLM) führt der Weg oft zur Seite von Hugging Face www.huggingface.com.

Hugging Face ist eine Open-Source Plattform, wo vor allem KI-Modelle geteilt und weiterentwickelt werden können.

Der Hub von HuggingFace bietet folgende Services an:

Code Repositories ähnlich wie GitHub zum Teilen und Austauschen von Code
Modelle, welche für spezifische Aufgaben trainiert sind
Datensätzen für Texte, Bilder und Audio, um basierend auf gemeinsamen Daten weitere Modelle zu trainieren und die Ergebnisse zu vergleichen
Spaces als Webanwendungen für Demos seiner Modelle und Algorithmen. Dabei Handelt es sich um Anwendungscontainer welche Ressourcen wie CPU Zeit, Grafikkarten Zeit und Arbeitsspeicher zugewiesen bekommen. Es gibt eine Basisvariante gratis und leistungsstärkere Container sowie Container mit Grafikkarten sind kostenpflichtig

Eine weitere wichtige Komponente von Hugging Face sind Transformers. Dabei handelt es sich um eine Python Bibliothek damit über eine einfache Schnittstelle vorab trainierte Transformer Modelle verwendet werden können. Die Modelle sind für bestimmte Aufgaben in der natürlichen Sprachverarbeitung trainiert, wie beispielsweise die Textklassifikation oder Textzusammenfassung. Diese Bibliothek ist kompatibel mit den verbreiteten Machine Learning Bibliotheken wie PyTorch, TensorFlow und JAX.

Im Sinne des Teilens von Modellen und Datensätzen haben wir auf HuggingFace eine Seite für Shrinkwrap (https://huggingface.co/Shrinkwrap-Legal) erstellt, wo wir unseren Datensatz an Judikaturdaten aus dem RIS teilen werden, damit dieser für andere KI Projekte einfach eingebunden werden kann.

Später werden wir hier auch veranschaulichen, wie unsere Pipeline zur Verarbeitung der Texte aus dem RIS aufgebaut ist.

In einem ersten Schritt haben wir die Metadaten und Text-Inhalte von 1000 Judikatur Einträgen aus dem RIS geladen und in einem JSON Datensatz für HuggingFace aufbereitet:

Dieser Datensatz kann hier eingesehen werden: https://huggingface.co/datasets/j3ernhard/ris-justiz-demo1

Zusätzlich haben wir einen Space mit einer Demo-Anwendung eingerichtet, welche diesen Datensatz lädt und nach Auswahl den Inhalt des Datensatzes anzeigt: https://huggingface.co/spaces/j3ernhard/Judikatur-Daten

Bernhard Jungwirth

Skills:

Java

Backend Entwicklung

React

Weitere Blogbeiträge

Förderjahr 2023 / Projekt Call #18 / ProjektID: 6716 / Projekt: shrinkwrap.legal

Tags:

Bernhard Jungwirth

Skills:

Weitere Blogbeiträge

Das Java Ökosystem und große Sprachmodelle

Österreichisches Sentence Splitting

Grundlagen zu Sprachmodellen

Grundlagen der Gerichtsbarkeit

shrinkwrap.legal - Kick-Off