Netidee Blog Bild
HuggingFace
Open-Source-Plattform für KI Modelle und Datensätze (03.02.2025)
Förderjahr 2023 / Projekt Call #18 / ProjektID: 6716 / Projekt: shrinkwrap.legal

In der KI Szene und vor allem im Bereich von Sprachverarbeitung (NLP) und großen Sprachmodellen (LLM) führt der Weg oft zur Seite von Hugging Face www.huggingface.com.

Hugging Face ist eine Open-Source Plattform, wo vor allem KI-Modelle geteilt und weiterentwickelt werden können. 

Der Hub von HuggingFace bietet folgende Services an:

  • Code Repositories ähnlich wie GitHub zum Teilen und Austauschen von Code
  • Modelle, welche für spezifische Aufgaben trainiert sind  
  • Datensätzen für Texte, Bilder und Audio, um basierend auf gemeinsamen Daten weitere Modelle zu trainieren und die Ergebnisse zu vergleichen 
  • Spaces als Webanwendungen für Demos seiner Modelle und Algorithmen. Dabei Handelt es sich um Anwendungscontainer welche Ressourcen wie CPU Zeit, Grafikkarten Zeit und Arbeitsspeicher zugewiesen bekommen. Es gibt eine Basisvariante gratis und leistungsstärkere Container sowie Container mit Grafikkarten sind kostenpflichtig

Eine weitere wichtige Komponente von Hugging Face sind Transformers. Dabei handelt es sich um eine Python Bibliothek damit über eine einfache Schnittstelle vorab trainierte Transformer Modelle verwendet werden können. Die Modelle sind für bestimmte Aufgaben in der natürlichen Sprachverarbeitung trainiert, wie beispielsweise die Textklassifikation oder Textzusammenfassung. Diese Bibliothek ist kompatibel mit den verbreiteten Machine Learning Bibliotheken wie  PyTorch, TensorFlow und JAX.

Im Sinne des Teilens von Modellen und Datensätzen haben wir auf HuggingFace eine Seite für Shrinkwrap (https://huggingface.co/Shrinkwrap-Legal) erstellt, wo wir unseren Datensatz an Judikaturdaten aus dem RIS teilen werden, damit dieser für andere KI Projekte einfach eingebunden werden kann.

Später werden wir hier auch veranschaulichen, wie unsere Pipeline zur Verarbeitung der Texte aus dem RIS aufgebaut ist. 

In einem ersten Schritt haben wir die Metadaten und Text-Inhalte von 1000 Judikatur Einträgen aus dem RIS geladen und in einem JSON Datensatz für HuggingFace aufbereitet: 

Dieser Datensatz kann hier eingesehen werden: https://huggingface.co/datasets/j3ernhard/ris-justiz-demo1

Zusätzlich haben wir einen Space mit einer Demo-Anwendung eingerichtet, welche diesen Datensatz lädt und nach Auswahl den Inhalt des Datensatzes anzeigt: https://huggingface.co/spaces/j3ernhard/Judikatur-Daten

 

 

 

Tags:

HuggingFace LLM

Bernhard Jungwirth

Profile picture for user bernhardjungwirth

Skills:

Java
,
Backend Entwicklung
,
React
CAPTCHA
Diese Frage dient der Überprüfung, ob Sie ein menschlicher Besucher sind und um automatisierten SPAM zu verhindern.
    Datenschutzinformation
    Der datenschutzrechtliche Verantwortliche (Internet Privatstiftung Austria - Internet Foundation Austria, Österreich) würde gerne mit folgenden Diensten Ihre personenbezogenen Daten verarbeiten. Zur Personalisierung können Technologien wie Cookies, LocalStorage usw. verwendet werden. Dies ist für die Nutzung der Website nicht notwendig, ermöglicht aber eine noch engere Interaktion mit Ihnen. Falls gewünscht, können Sie Ihre Einwilligung jederzeit via unserer Datenschutzerklärung anpassen oder widerrufen.