Schulungsübersicht

Einführung in Data Analysis und Big Data

  • Was macht Big Data "groß"?
    • Geschwindigkeit, Volumen, Vielfalt, Wahrhaftigkeit (VVVV)
  • Grenzen der traditionellen Datenverarbeitung
  • Verteilte Verarbeitung
  • Statistische Analyse
  • Arten der Machine Learning-Analyse
  • Data Visualization

Big Data Rollen und Verantwortlichkeiten

  • Administratoren
  • Entwickler
  • Datenanalysten

Languages Verwendet für Data Analysis

  • R Language
    • Warum R für Data Analysis?
    • Datenmanipulation, Berechnung und grafische Darstellung
  • Python
    • Warum Python für Data Analysis?
    • Manipulieren, Verarbeiten, Bereinigen und Verarbeiten von Daten

Ansätze für Data Analysis

  • Statistische Analyse
    • Zeitreihenanalyse
    • Forecasting mit Korrelations- und Regressionsmodellen
    • Inferentielle Statistics (Schätzung)
    • Deskriptive Statistics in Big Data Mengen (z.B. Mittelwertberechnung)
  • Machine Learning
    • Überwachtes vs. unüberwachtes Lernen
    • Klassifizierung und Clustering
    • Schätzung der Kosten bestimmter Methoden
    • Filtern
  • Verarbeitung natürlicher Sprache
    • Verarbeitung von Text
    • Verstehen der Bedeutung des Textes
    • Automatische Texterstellung
    • Stimmungsanalyse / Themenanalyse
  • Computer Vision
    • Erfassen, Verarbeiten, Analysieren und Verstehen von Bildern
    • Rekonstruieren, Interpretieren und Verstehen von 3D-Szenen
    • Nutzung von Bilddaten zur Entscheidungsfindung

Big Data Infrastruktur

  • Datenspeicherung
    • Relationale Datenbanken (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Nicht-relationale Datenbanken (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • Die Feinheiten verstehen
      • Hierarchische Datenbanken
      • Objektorientierte Datenbanken
      • Dokumentorientierte Datenbanken
      • Graph-orientierte Datenbanken
      • Andere
  • Verteilte Verarbeitung
    • Hadoop
      • HDFS als verteiltes Dateisystem
      • MapReduce für verteilte Verarbeitung
    • Spark
      • All-in-One In-Memory-Cluster-Computing-Framework für die Verarbeitung großer Datenmengen
      • Strukturiertes Streaming
      • Spark SQL
      • Machine Learning Bibliotheken: MLlib
      • Graphenverarbeitung mit GraphX
  • Scalabilität
    • Öffentliche Cloud
      • AWS, Google, Aliyun, usw.
    • Private Wolke
      • OpenStack, Cloud Foundry, usw.
    • Auto-Skalierbarkeit

Die Wahl der richtigen Lösung für das Problem

Die Zukunft von Big Data

Zusammenfassung und nächste Schritte

Voraussetzungen

  • Ein allgemeines Verständnis für Mathematik
  • Ein allgemeines Verständnis für Programmierung
  • Ein allgemeines Verständnis von Datenbanken

Publikum

  • Entwickler/Programmierer
  • IT-Berater
 35 Stunden

Teilnehmerzahl


Price per participant (excl. VAT)

Erfahrungsberichte (7)

Kommende Kurse

Verwandte Kategorien