• Publikation
  • Data Version Control im Team mit Open-Source-Werkzeugen
  • Data Version Control im Team mit Open-Source-Werkzeugen

iX Developer

12/20

Data Version Control im Team mit Open-Source-Werkzeugen

Geschrieben von:
Bert Besser

Beim Entwickeln von Machine-learning-Anwendungen fallen neben Quellcode große Datenmengen, Modelle und Metriken an. Ein Open-Source-Tool hilft bei der Verwaltung.
Das Tool Data Version Control (DVC) adressiert Entwicklungs-Workflows im Bereich des Machine Learnings. Der Fokus liegt auf der produktiven Zusammenarbeit in Teams, die nicht nur Quellcode, sondern zusätzlich große Datenmengen gemeinsam verwalten und bearbeiten. Diese Aufgabe ist anspruchsvoll, weil die typische ML-Entwicklungsarbeit stärker von Experimenten und Metriken getrieben ist als die klassische Softwareentwicklung.
Wer mit Git arbeitet, findet sich schnell mit DVC zurecht. Vereinfacht gesagt verwaltet Git ein verteiltes Repository mit dem Quellcode. In einem ML-Projekt implementiert Letzterer etwa die Architektur eines neuronalen Netzes sowie sein Training. Über die Zeit wandelt sich der Code, und im Git-Repository erfolgt die Versionierung.
Mit fortschreitender Arbeit sind aber auch die Trainingsdaten Änderungen unterworfen. Sie unterscheiden sich in der frühen Phase markant von den Trainingsdaten im fortgeschrittenen Stadium – in Bezug auf die reine Menge, aber auch in Bezug auf Qualitätsmerkmale wie Vollständigkeit, Aktualität, Noise oder Ausreißer. Wünschenswert ist, die Trainingsdaten gemeinsam mit dem Quellcode zu versionieren. Das erlaubt idealerweise das Reproduzieren jedes Trainingslaufs und insbesondere die Nachvollziehbarkeit von Experimenten und Antworten auf Fragen wie: „Welche Architektur hat mit welchen Trainingsdaten welche Performance erzielt?“ Jedoch ist Git für die Versionierung von Textdateien wie Quellcode konzipiert. Für Trainingsdaten, die häufig aus Binärdaten wie Bildern oder Videos mit Dateigrößen im Gigabyte-Bereich bestehen, sind Git-Repositorys nicht praxistauglich.

Vollständiger Artikel

Hinweis: In Ihrem Browser ist JavaScript deaktiviert. Für eine bessere und fehlerfreie Nutzung dieser Webseite, aktivieren Sie bitte JavaScript in Ihrem Browser.