Git als Verwaltungstool für Trainingsdaten und Experimente beim ML

Wir beginnen in diesem Teil der Artikelserie über MLOps mit Informationen, die den meisten von euch bekannt sein werden: Mit den Basics von Git. Um jedoch eine andere Sichtweise auf das bekannte Tool aufzuzeigen, bieten diese Grundlagen die Basis, um die Funktion und Vorteile von Git für das maschinelle Lernen (ML) und den Unterschied bei der Verwaltung von Trainingsdaten zu betonen.

Denn verglichen zur normalen Softwareentwicklung ergeben sich andere nützliche Ansätze, die für eure Arbeit bei ML mit vielen Daten entscheidend sind. Weshalb es oft ausreicht, bekannte Tools wie Git zur Code- und Datenverwaltung heranzuziehen, zeigen wir euch in diesem Beitrag.

Im Rahmen von Machine Learning brauchen wir Code und Daten für das Training und Code für die Anwendung von Modellen. Nach und nach erhalten wir verschiedene Versionen des trainierten Modells, die sich oft in kleinen, aber wichtigen Details unterscheiden. Es entstehen allmählich ganz viele Versionen und Branches. Eine große Herausforderung ist, diese vielen Versionen zu verwalten und bestehen zu lassen. Darin liegt der Kern bei der unterschiedlichen Anwendung von Git im Kontext eines ML-Projekts: Statt einer weitestgehend linearen Prozessentwicklung, wie es bei normaler Softwareentwicklung üblich ist, zweigen wir bei ML experimentell ab und führen dann die Features manchmal zusammen - aber nicht immer. Daher ist das Datenmanagement und das Experimentenmanagement so wesentlich bei ML. Insbesondere der Bestand dieser Experimentier-Branches ist essentiell - warum, das zeigen wir euch jetzt. Data as code ist in diesem Zusammenhang ein wichtiger Schlüsselbegriff, der ausdrückt, wie bedeutungsvoll die Speicherung einer eindeutigen Versionierung der verwendeten Trainingsdaten für eure Projekt-Verwaltung bei Git ist. Ihr wisst nie, wann ihr auf eine alte Version von Daten zurückgreifen müsst, zum Beispiel wegen eines neuen Papers, bei dem alte Daten plötzlich einen Sinn ergeben - oder um vergleichen zu können, wie sich eine Änderung der Daten auf euer Modell auswirkt. Mit Hilfe der eindeutigen Verknüpfung durch den Git-Hash könnt ihr bequem zu allen Zwischenschritten und Modellvarianten zurückgelangen. Durch Speichern des Hashs mit dem Trainingsergebnis habt ihr immer die eindeutige Zuordnung eurer Trainingsdaten - keine Version geht verloren.

Git zur Verwaltung der Trainingsdaten

In jedem normalen ML-Entwicklungsprojekt kommen immer wieder neue Daten hinzu - Bilder, Texte oder andere Assets. Mit Git könnt ihr all eure Ordner mit den zugehörigen Daten mitführen - Git vergisst nichts. Solange es nicht zu viele Daten sind, könnt ihr Git gut dafür nutzen. Bei ML haben wir es auch manchmal mit vielen Daten und schnellen Änderungen zu tun. Da kann Git auch mal an seine Grenzen stoßen. Faustregel ist daher: bei bis zu einigen hundert MB reicht Git für die Arbeit mit Trainingsdaten. Welche Wege ihr dann gehen könnt, um mit noch mehr Daten zu arbeiten, zeigen wir euch in einem der nächsten Artikel, in denen es auch um Beispiele zur Verwendung mit shares geht, wie NAS (Network Attached Storage) oder um Erweiterungen von Git, um mit größeren Datenmengen klar zu kommen.

Git zur Verwaltung von Experimenten

Normalerweise werden Feature- und Bugfix-Branches nach einiger Zeit gelöscht, nachdem ihr sie in den Hauptbranch gemerged habt - sie werden für gewöhnlich nicht mehr gebraucht. Auch wenn wir also immer wieder abzweigen, ergibt sich doch nach einem Merge eine “lineare” Entwicklungsgeschichte. Bei ML experimentieren wir öfter, wir probieren aus, Änderungen können übernommen werden oder auch nicht. Wichtig ist jedoch, auch verworfene Experimente zu archivieren und nicht vollständig zu löschen. Denn manchmal kann es sein, dass eine Idee Monate später wieder aufgegriffen wird, oder man möchte zumindest einen alten Stand als Referenz aufheben, um nachvollziehen zu können, warum eine Idee nicht funktioniert hat.

Da Git alle Branches vom Prinzip her gleich behandelt, ist es eine organisatorische Frage in eurem Team, wie ihr Branches richtig kennzeichnet, die dann gemerged und gelöscht oder archiviert werden, indem ihr ihnen sprechende Namen gebt (beispielsweise “experiment/gelu_activactions”). Herkömmliche Feature-Branches, Bugfix-Branches etc. werden, wie bei herkömmlicher Softwareentwicklung üblich, gemerged und gelöscht. Branches mit Experimenten hingegen sollten aus den oben genannten Gründen langfristig aufbewahrt werden. Je nachdem, wie ihr euren zentralen Git-Server hostet (z.B. auf Github, mit bitbucket, GitLab oder anderen Lösungen), können Einstellungen am Repository oder Commit-Hooks neben organisatorischen Maßnahmen dafür sorgen, dass Experimentier-Branches aufbewahrt werden. So kann Git als automatisches Backup eurer Trainingsversionen dienen, sodass nichts gelöscht wird.

Texte, Assets, Logos - aber auch Trainingsdaten - alles in Git

Wie wir eben beschrieben haben, könnt ihr im Prinzip alles in Git machen. Es erlaubt euch eine 80-20-Lösung, die euch einfach und effizient in eurer Arbeit unterstützt, ohne gleich aufwändigere, zusätzliche Tools in euren Workflow einzubeziehen. Bevor ihr über große Maschinerien nachdenkt, probiert aus, welche Möglichkeiten euch mit Git zur Verfügung stehen. Wenn ihr euer Modell mit Texten, Bildern oder anderen Daten trainieren möchtet, oder Ein- und Ausgaben vergleichen wollt und iterativ trainiert, Git kann genauso Daten wie Code verwalten. Ob ein Bild, wie bei herkömmlicher Web-Entwicklung einfach ein Logo oder ein Trainingsdatum ist, ist Git egal - warum also gleich zu einem neuen Tool greifen? Wichtig ist dabei stets eine sprechende Benennung, um die organisatorische Struktur nicht zu gefährden. Hier einige Beispiele aus unserer täglichen Arbeit, um zu entscheiden, wann ihr eure Daten zusammen mit den Trainings-, Validierungs- und Testdaten bequem mit dem dazugehörigen Code in Git verwalten könnt - und wann nicht:

Transfer-Training mit Texten: Der Vorteil neuer, vortrainierter Sprachmodelle ist, dass immer weniger Daten für die eigentliche Anpassung an eine spezielle Aufgabe benötigt werden. Die speziellen Trainingsdaten für unsere NLP/NLG-Engine “Sokratext” z.B. sind nur wenige, handkurierte MB Text. Diese können am bequemsten direkt in Git mit dem Trainingscode gespeichert werden - wir machen das schon lange so und sparen so viel Zeit in unseren Workflow.
Transfer-Training für einen Bild-Classifier mit einigen hundert oder tausend Bildern: auch einige hundert Megabyte sind in diesem Fall für Git kein Problem, solange nur langsam neue Daten hinzukommen. So wisst ihr genau, welcher Code-Stand mit welchem Datensatz trainiert wurde.
Training für kleinere neuronale Netze auf wenigen MB Zeitreihendaten: auch hier gilt: Die Art der Daten ist egal, solange euer Repo nicht zu sehr anwächst, ist ein eindeutiger Git-Hash die perfekte Referenz für die verwendeten Trainingsdaten, um nachzuvollziehen, womit ein Modell trainiert wurde.
Wächst die Datenmenge allerdings zu sehr, z.B. bei einem umfangreichen Pretraining auf Wikipedias, großen Web-Scraping Datensätzen oder Videodaten, dann erst stößt man mit Git an seine Grenzen.

In der Praxis benötigt ihr also oft kein zusätzliches Tool, das ihr euch antrainieren (und ggfs. bezahlen) müsst, um ML zu betreiben. Das bedeutet einen enormen Vorteil hinsichtlich Zeitersparnis, da ihr bereits alle Kniffe und Züge zur Verwaltung des Codes kennt - und diese einfach auch auf Daten anwendet. Vielleicht hilft euch diese Orientierung bei euren Experimenten und in eurer Einschätzung, wann Git eine gute Methode zur Datenverwaltung für euer Projekt ist. Wie hat euch Git in der Entwicklung am besten unterstützt und wobei nicht? Schreibt uns gern euer Feedback - wir freuen uns über eure Erfahrung! Ihr könnt außerdem auch auf die kommenden Artikel gespannt sein - unter anderem steigen wir mehr in das Thema DJL als Framework ein und wie ihr Maven in den Entwicklungsprozess einbezieht.

25 Feb. 2025
Arbeiten mit Ollama, Teil 2
Im ersten Teil unseres Artikels über Ollama haben wir gezeigt, wie man Ollama und zugehörige Modelle installiert. Im zweiten Teil des Artikels wird die fortgeschrittene Nutzung von Ollama durch Anpassung von Modelfiles und die Integration mit dem Frontend AnythingLLM behandelt. Es wird gezeigt, wie diese Tools die Verwaltung und Nutzung von KI-Modellen effizienter gestalten.
weiterlesen
24 Feb. 2025
Arbeiten mit Ollama, Teil 1
Im ersten Teil unseres Zweiteilers “Arbeiten mit Ollama” geben wir eine Einführung in die quelloffene Multi-Plattform-Lösung Ollama, die die Nutzung und Verwaltung von KI-Modellen vereinfacht.
weiterlesen
08 Apr. 2024
Whisper 3 Large für JAVA
Für einen internen Produktprototyp haben wir OpenAIs Whisper 3 Modell von Huggingface getraced und per DJL unter JAVA nutzbar gemacht.
weiterlesen
14 Juni 2023
ChatGPT für Teams: Datenschutzkonforme Nutzung im Unternehmen
In der heutigen digitalen Geschäftswelt sind KI-gestützte Kommunikationsplattformen wie ChatGPT unverzichtbar, um beispielsweise komplexe Code-Fragen zu beantworten oder erstklassige Texte für Angebote zu erstellen. Doch gerade in Unternehmen, in denen sensible Kundendaten im Spiel sind, kann die Verwendung von ChatGPT zu einem Datenschutz-Dilemma führen. Obwohl ChatGPT eine Option bietet, um die Verwendung von Chatkonversationen für Trainingszwecke zu verhindern, gibt es damit gewisse Einschränkungen. Außerdem gibt es bisher (Stand: Juni 2023) keine Möglichkeit, mehrere Teammitglieder oder Benutzer über einen Firmenaccount zu verwalten. Jeder Nutzer muss sich einzeln registrieren und dazu eine eigene Email, Telefonnummer und Kreditkarte verwenden. Will man chatGPT+ nutzen, kann man z.B. nicht alle Nutzer über eine Kreditkarte bezahlen. Auch landen die einzelnen Rechnungen bei den einzelnen Nutzern. Ein organisatorischer und buchahlterischer Albtraum. Auch wir bei DIVISO haben uns mit dieser Problematik auseinandergesetzt und uns auf die Suche nach einer Lösung gemacht.
weiterlesen
02 Aug. 2021
MLOps: Etablierung und Betrieb einer KI
Mit Machine Learning Operations (MLOps) stellen wir sicher, dass Daten durch regelmäßiges und automatisiertes Training effizient und strategisch in die unternehmerischen Abläufe eingebunden werden und somit zur Umsatzsteigerung beitragen. Die Herausforderung besteht darin, diese automatisierten Prozesse zu etablieren und instand zu halten.
weiterlesen
29 Juni 2020
NLP, NLU und NLG: KI und Text
Bisher haben wir bei unseren Praxisbeispielen für das Grundverständnis von KI in der Regel einen großen Bogen um die Bereiche Textverständnis und Texterzeugung durch ML gemacht. Aus gutem Grund haben wir uns in erster Linie auf zwei Arten von Problemen konzentriert: Die Klassifikation von Bildern und die Vorhersage von Zahlwerten.
weiterlesen
12 Mai 2020
Deep Java Learning Einführung - Teil 1: NDManager & NDArray
Nach unserer ersten Vorstellung von Amazons neuem Deep Learning Frameworks für Java, DJL, wollen wir nun in einer Reihe von Anfängerposts Schritt für Schritt die Grundlagen von Deep Learning unter Java mit DJL vorstellen. Hierbei soll es nicht um das schnelle Kopieren von Code Snippets, sondern um das wirkliche Verständnis des Frameworks und der Konzepte gehen.
weiterlesen
28 Apr. 2020
Amazon DJL – ein neues Deep Learning Framework für Java
Wer auf der JVM und insbesondere in Java mit neuronalen Netzen und Deep Learning experimentieren wollte, für die gab es bisher nur wenig Auswahl. Wer ausschließlich auf Java setzen wollte, kam bisher an DL4J nicht vorbei. Wenn es die JVM, aber nicht unbedingt Java sein muss, kommt auch noch das Scala Frontend von MXNet in Frage. Wen schließlich ein wenig Python nicht schreckt, die kann eine Hybrid Lösung aus TensorFlow und Java probieren, wie wir bereits in früheren Artikeln erläutert haben.
weiterlesen
06 März 2020
Arten von Künstlichen Neuronalen Netzen
In unserem Praxis-Beispiel haben wir zur Erkennung von handgeschriebenen Ziffern ein “feed-forward neural network” genutzt. Dieses ist die wohl einfachste Form eines NN. In der Praxis gibt es jedoch hunderte Arten von mathematischen Formeln, die über Addition und Multiplikation hinaus benutzt werden, um Schritte in einem Neuronalen Netz zu berechnen, viele verschiedene Arten, die Schichten anzuordnen, und viele mathematische Ansätze das Netz zu trainieren.
weiterlesen
06 März 2020
Die häufigsten Irrtümer über Neuronale Netze
KI und insbesondere Neuronale Netze und Deep Learning sind seit einigen Jahren das technologische Hype Thema. Da die Materie aber recht abstrakt ist – man könnte sagen, für die meisten ist es Neuland – wollen wir hier einige Irrtümer bereinigen, denen wir in unserer Arbeit häufiger begegnen.
weiterlesen
06 März 2020
Was sind Neuronale Netze und wie funktionieren sie?
Nachdem es in den letzten Beiträgen überwiegend um die Grundlagen der derzeitigen KI-Forschung ging und wir versucht haben, diese für Nicht-ITler verständlich zu beleuchten, wagen wir uns heute an das aktuell wohl „heißeste“ KI-Thema, die Neuronalen Netze (NN).
weiterlesen
22 Okt. 2019
Deep Fakes - Woran man Fake-Bilder erkennen kann
Eine (relativ) neue Art neuronaler Netze, sogenannte Generative Adversarial Networks (zu deutsch etwa ‚erzeugende gegnerische Netzwerke’) oder GANs, sind heutzutage in der Lage, täuschend echte Bilder von Menschen zu erzeugen, die es gar nicht gibt. Diese Fake Bilder sind auf den ersten Blick von echten Fotos nicht mehr zu unterscheiden – aber zum Glück auf den zweiten Blick schon.
weiterlesen
26 Juni 2019
Recap zur ML Konferenz 2019 in München
Am 17.06. war es wieder so weit: die halbjährlich stattfindende ML Conference startete mit einem Workshoptag, der allen Teilnehmerinnen durch gemeinsames Live-Coding einen verständlichen Einstieg in die Themen Machine Learning und Deep Learning erlaubte.
weiterlesen
24 Mai 2019
KI leicht erklärt - Teil 5: Überwachtes & unüberwachtes Lernen im ML
Im vorigen Artikel haben wir Grundbegriffe des Machine Learning (ML) kennengelernt und anhand eines einfachen aber praxisrelevanten Algorithmus’ nachvollzogen, wie das Training eines Machine Learning Modells abläuft. Als nächstes wollen wir uns nun die verschiedenen Arten des Machine Learning näher anschauen.
weiterlesen
14 Mai 2019
Fachtagung des BGL 2019 – Vortrag 'KI und Magie'
“Jede hinreichend fortgeschrittene Technologie ist von Magie nicht mehr zu unterscheiden.” - Arthur C. Clark Die JAX 2019 ist gerade erst vorbei, da steht Christoph auch schon für den nächsten Vortrag auf dem Podium. Auf der Fachtagung des Bundesverbandes der Photo-Großlaboratorien geht es in seinem Vortrag um “KI und Magie – Wie funktioniert Künstliche Intelligenz?”
weiterlesen
29 Apr. 2019
Jax 2019 Recap
Die JAX in Mainz rückt näher und auch Christoph ist wieder als Speaker mit an Bord. Dieses Jahr spricht er in seinen Vorträgen über Neuronale Netze und das TensorFlow-Training auf der JVM.
weiterlesen
24 Apr. 2019
KI leicht erklärt - Teil 4: Die Grundlagen des Machine Learning
Nachdem wir uns im vorigen Artikel damit beschäftigt haben, wie die klassische KI funktioniert, wollen wir diesmal einen Blick auf das Machine Learning (maschinelles Lernen, auch abgekürzt als ML) werfen.
weiterlesen
08 Apr. 2019
KI leicht erklärt - Teil 3: Methoden der klassischen KI
Im vorherigen Beitrag haben wir unsere anfängliche Definition von künstlicher Intelligenz um zwei Unterscheidungen erweitert: Unterschieden wird einerseits zwischen starker und schwacher KI (Terminator & Science Fiction vs. Status Quo), sowie zwischen klassischer KI und dem Machine Learning.
weiterlesen
21 März 2019
KI leicht erklärt - Teil 2: Klassische KI, Neuronale Netze und Deep Learning
Die Künstliche Intelligenz (KI) ist so alt wie die Informatik selbst. Rechnen, das Ziehen logischer Schlüsse, das Durchführen komplexer Anweisungen… all das war vor der Erfindung des Computers dem Menschen vorbehalten.
weiterlesen
07 März 2019
KI leicht erklärt - Teil 1: Was ist KI?
Was ist Künstliche Intelligenz? Oder vielmehr: Wie funktioniert eigentlich KI? Vom Haushaltshelfer bis zum Endzeitszenario - bei kaum einem Thema klaffen öffentliche Wahrnehmung, Forschungsstand und Realität so weit auseinander wie bei der KI.
weiterlesen
06 Aug. 2018
DL4J Workshop auf dem ML Summit in Berlin
Am 1. und 2. Oktober findet in Berlin der erste ML Summit statt. In 12 Worshops in drei parallelen Tracks vermitteln Experten Praxiswissen zu den Themen Applications for Business, Machine Learning Basics & Tools und Specialized Topics.
weiterlesen
23 Apr. 2018
JAX 2018 - Recap | Deeplearning4Java
Christoph hält auf der diesjährigen JAX in Mainz zwei Vorträge zum Thema maschinelles Lernen und Java.
weiterlesen
29 Jan. 2018
Enterprise TensorFlow 4 - Eine TensorFlow Session in Java ausführen
Eine TensorFlow Session wird in Java genauso ausgeführt wie in Python. Dieser Post zeigt wie.
weiterlesen
23 Jan. 2018
Enterprise TensorFlow 3 - Ein SavedModel in Java laden
Teil in der Serie über Java / TensorFlow Interoperabilität, der zeigt, wie man ein TensorFlow SavedModel in Java lädt.
weiterlesen
23 Jan. 2018
Enterprise Tensorflow: Code Beispiele
Ein Überblick über die Beispielprojekte zum Thema TensorFlow / Java Integration
weiterlesen
22 Jan. 2018
Enterprise TensorFlow 2 - Wie man ein trainiertes Modell speichert
Teil 2 in der Serie über Java / TensorFlow Interoperabilität, in dem es darum geht ein Modell so zu speichern, dass es in anderen Umgebungen wiederverwendet werden kann.
weiterlesen
11 Jan. 2018
TensorFlow und Java - Ein Interview mit entwickler.de
Auf der ML Konferenz 2017 in Berlin ist unser CTO zum Thema TensorFlow / Java Interoperabilität interviewt worden.
weiterlesen
30 Nov. 2017
Enterprise Tensorflow Teil 1 - Python vs. Java
Dies ist der erste Teil einer Reihe von Posts über Java und Tensorflow Interop. Es ist eine ausführlichere Version meines Vortrags auf der ML Conference 2017 in Berlin.
weiterlesen
15 Nov. 2017
ML Konferenz 2017 in Berlin
Eine Ankündigung für meine Präsentation auf der ML Konferenz 2017 in Berlin
weiterlesen

Git als Verwaltungstool für Trainingsdaten und Experimente beim ML

Git zur Verwaltung der Trainingsdaten

Git zur Verwaltung von Experimenten

Texte, Assets, Logos - aber auch Trainingsdaten - alles in Git

Arbeiten mit Ollama, Teil 2

Arbeiten mit Ollama, Teil 1

Whisper 3 Large für JAVA

ChatGPT für Teams: Datenschutzkonforme Nutzung im Unternehmen

MLOps: Etablierung und Betrieb einer KI

NLP, NLU und NLG: KI und Text

Deep Java Learning Einführung - Teil 1: NDManager & NDArray

Amazon DJL – ein neues Deep Learning Framework für Java

Arten von Künstlichen Neuronalen Netzen

Die häufigsten Irrtümer über Neuronale Netze

Was sind Neuronale Netze und wie funktionieren sie?

Deep Fakes - Woran man Fake-Bilder erkennen kann

Recap zur ML Konferenz 2019 in München

KI leicht erklärt - Teil 5: Überwachtes & unüberwachtes Lernen im ML

Fachtagung des BGL 2019 – Vortrag 'KI und Magie'

Jax 2019 Recap

KI leicht erklärt - Teil 4: Die Grundlagen des Machine Learning

KI leicht erklärt - Teil 3: Methoden der klassischen KI

KI leicht erklärt - Teil 2: Klassische KI, Neuronale Netze und Deep Learning

KI leicht erklärt - Teil 1: Was ist KI?

DL4J Workshop auf dem ML Summit in Berlin

JAX 2018 - Recap | Deeplearning4Java

Enterprise TensorFlow 4 - Eine TensorFlow Session in Java ausführen

Enterprise TensorFlow 3 - Ein SavedModel in Java laden

Enterprise Tensorflow: Code Beispiele

Enterprise TensorFlow 2 - Wie man ein trainiertes Modell speichert

TensorFlow und Java - Ein Interview mit entwickler.de

Enterprise Tensorflow Teil 1 - Python vs. Java

ML Konferenz 2017 in Berlin