Schulungsübersicht

Einführung in multimodale Modelle

  • Überblick über multimodales maschinelles Lernen
  • Anwendungen von multimodalen Modellen
  • Herausforderungen bei der Verarbeitung mehrerer Datentypen

Architekturen für multimodale Modelle

  • Erforschung von Modellen wie CLIP, Flamingo und BLIP
  • Verstehen von Mechanismen der cross-modalen Aufmerksamkeit
  • Architektonische Überlegungen zur Skalierbarkeit und Effizienz

Aufbereitung multimodaler Datensätze

  • Datenerfassung und Annotationstechniken
  • Vorverarbeitung von Text-, Bild- und Videoeingaben
  • Abgleich von Datensätzen für multimodale Aufgaben

Feinabstimmungstechniken für multimodale Modelle

  • Einrichten von Trainingspipelines für multimodale Modelle
  • Verwaltung von Speicher- und Berechnungsbeschränkungen
  • Handhabung des Abgleichs zwischen Modalitäten

Anwendungen von fein abgestimmten multimodalen Modellen

  • Beantwortung visueller Fragen
  • Bild- und Videobeschriftung
  • Inhaltsgenerierung unter Verwendung multimodaler Eingaben

Leistungsoptimierung und -bewertung

  • Bewertungsmetriken für multimodale Aufgaben
  • Optimierung von Latenz und Durchsatz für die Produktion
  • Sicherstellung von Robustheit und Konsistenz über Modalitäten hinweg

Einsatz von multimodalen Modellen

  • Paketierung von Modellen für den Einsatz
  • Scalable Inferenz auf Cloud-Plattformen
  • Echtzeitanwendungen und Integrationen

Fallstudien und Praktische Übungen

  • Feinabstimmung von CLIP für inhaltsbasierte Bildsuche
  • Training eines multimodalen Chatbots mit Text und Video
  • Implementierung von cross-modalen Retrieval-Systemen

Zusammenfassung und nächste Schritte

Voraussetzungen

  • Beherrschung der Python-Programmierung
  • Verständnis von Deep-Learning-Konzepten
  • Erfahrung mit der Feinabstimmung von vortrainierten Modellen

Zielgruppe

  • KI-Forscher
  • Datenwissenschaftler
  • Praktiker des maschinellen Lernens
 28 Stunden

Teilnehmerzahl


Price per participant (excl. VAT)

Kommende Kurse

Verwandte Kategorien