Advanced Hadoop for Developers Schulung
Apache Hadoop ist eines der beliebtesten Frameworks für die Verarbeitung von Big Data auf Server-Clustern. Dieser Kurs befasst sich mit der Datenverwaltung in HDFS, fortgeschrittenem Pig Hive und HBase. Diese fortgeschrittenen Programmiertechniken sind auch für erfahrene Hadoop Entwickler von Vorteil.
Zielgruppe: Entwickler
Dauer: drei Tage
Format: Vorlesungen (50%) und praktische Übungen (50%).
Schulungsübersicht
Abschnitt 1: Data Management in HDFS
- Verschiedene Datenformate (JSON / Avro / Parquet)
- Komprimierungsschemata
- Datenmaskierung
- Übungen: Analysieren verschiedener Datenformate; Aktivieren der Kompression
Abschnitt 2: Fortgeschrittenes Pig
- Benutzerdefinierte Funktionen
- Einführung in Pig-Bibliotheken (ElephantBird / Data-Fu)
- Laden komplexer strukturierter Daten mit Pig
- Pig-Abstimmung
- Übungen: Fortgeschrittenes Pig Scripting, Parsen komplexer Datentypen
Abschnitt 3 : Fortgeschrittene Hive
- Benutzerdefinierte Funktionen
- Komprimierte Tabellen
- Hive Leistungsoptimierung
- Übungen : Erstellung komprimierter Tabellen, Auswertung von Tabellenformaten und Konfiguration
Abschnitt 4: HBase für Fortgeschrittene
- Fortgeschrittene Schemamodellierung
- Komprimierung
- Bulk Data Ingest
- Vergleich zwischen Wide-Table und Tall-Table
- HBase und Pig
- HBase und Hive
- HBase-Leistungsoptimierung
- Übungen: Tuning von HBase; Zugriff auf HBase-Daten von Pig & Hive; Verwendung von Phoenix für die Datenmodellierung
Voraussetzungen
- gute Kenntnisse der Java Programmiersprache (die meisten Programmierübungen sind in Java)
- Vertrautheit mit der Linux-Umgebung (in der Lage sein, in der Linux-Befehlszeile zu navigieren und Dateien mit vi / nano zu bearbeiten)
- gute Kenntnisse von Hadoop.
Laborumgebung
Null-Installation: Es besteht keine Notwendigkeit, Hadoop-Software auf den Rechnern der Studierenden zu installieren! Ein funktionierender Hadoop-Cluster wird den Studierenden zur Verfügung gestellt.
Die Studierenden benötigen Folgendes
- einen SSH-Client (Linux und Mac haben bereits SSH-Clients, für Windows wird Putty empfohlen)
- einen Browser für den Zugriff auf den Cluster. Wir empfehlen den Firefox-Browser
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.
Advanced Hadoop for Developers Schulung - Booking
Advanced Hadoop for Developers Schulung - Enquiry
Advanced Hadoop for Developers - Beratungsanfrage
Beratungsanfrage
Erfahrungsberichte (5)
Die Live-Beispiele
Ahmet Bolat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
Maschinelle Übersetzung
Während der Übungen erklärte James mir jeden Schritt detaillierter, wo immer ich festsaß. Ich war komplett neu in NIFI. Er erläuterte den tatsächlichen Zweck von NIFI, sogar die Grundlagen wie Open Source. Er ging alle Konzepte von NIFI von Anfänger- bis Entwickler-Level durch.
Firdous Hashim Ali - MOD A BLOCK
Kurs - Apache NiFi for Administrators
Maschinelle Übersetzung
Vorbereitung und Organisation des Trainers sowie die Qualität der bereitgestellten Materialien auf GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurs - Impala for Business Intelligence
Maschinelle Übersetzung
Dass ich es überhaupt hatte.
Peter Scales - CACI Ltd
Kurs - Apache NiFi for Developers
Maschinelle Übersetzung
praktische Dinge der Umsetzung, auch die Theorie wurde gut von Ajay vermittelt
Dominik Mazur - Capgemini Polska Sp. z o.o.
Kurs - Hadoop Administration on MapR
Maschinelle Übersetzung
Kommende Kurse
Kombinierte Kurse
Administrator Training for Apache Hadoop
35 StundenZielgruppe:
Der Kurs richtet sich an IT-Spezialisten, die nach einer Lösung für die Speicherung und Verarbeitung großer Datenmengen in einer verteilten Systemumgebung suchen
Goal:
Vertiefte Kenntnisse über Hadoop Clusterverwaltung.
Big Data Analytics in Health
21 StundenBei der Big-Data-Analyse werden große Mengen unterschiedlicher Datensätze untersucht, um Korrelationen, verborgene Muster und andere nützliche Erkenntnisse aufzudecken.
Die Gesundheitsbranche verfügt über riesige Mengen komplexer heterogener medizinischer und klinischer Daten. Die Anwendung von Big-Data-Analysen auf Gesundheitsdaten bietet ein großes Potenzial für die Gewinnung von Erkenntnissen zur Verbesserung der Gesundheitsversorgung. Die enorme Anzahl dieser Datensätze ist jedoch eine große Herausforderung für Analysen und praktische Anwendungen in einem klinischen Umfeld.
In diesem von Lehrern geleiteten Live-Training (Remote) lernen die Teilnehmer, wie Big-Data-Analysen im Gesundheitsbereich durchgeführt werden, während sie eine Reihe von praktischen Live-Laborübungen absolvieren.
Am Ende dieser Schulung können die Teilnehmer:
- Installieren und konfigurieren Sie Big Data-Analysetools wie Hadoop MapReduce und Spark
- Verstehen Sie die Eigenschaften von medizinischen Daten
- Wenden Sie Big-Data-Techniken an, um mit medizinischen Daten umzugehen
- Studieren Sie Big-Data-Systeme und -Algorithmen im Kontext von Gesundheitsanwendungen
Publikum
- Entwickler
- Data Scientists
Format des Kurses
- Teilvorlesung, Teildiskussion, Übungen und viel praktisches Üben.
Hinweis
- Um ein individuelles Training für diesen Kurs anzufordern, kontaktieren Sie uns bitte, um dies zu arrangieren.
Hadoop Administration
21 StundenDer Kurs richtet sich an IT-Spezialisten, die nach einer Lösung für die Speicherung und Verarbeitung großer Datenmengen in einer verteilten Systemumgebung suchen.
Ziel des Kurses:
Erwerb von Kenntnissen über Hadoop Cluster-Verwaltung
Hadoop For Administrators
21 StundenApache Hadoop ist das beliebteste Framework für die Verarbeitung von Big Data auf Server-Clustern. In diesem dreitägigen (optional auch viertägigen) Kurs lernen die Teilnehmer die geschäftlichen Vorteile und Anwendungsfälle für Hadoop und sein Ökosystem kennen, wie man den Einsatz und das Wachstum von Clustern plant, wie man Hadoop installiert, wartet, überwacht, Fehler behebt und optimiert. Die Teilnehmer üben auch das Laden von Massendaten in Clustern, machen sich mit verschiedenen Hadoop-Distributionen vertraut und üben die Installation und Verwaltung von Hadoop-Ökosystem-Tools. Der Kurs endet mit einer Diskussion über die Sicherung von Clustern mit Kerberos.
"...Die Materialien waren sehr gut vorbereitet und wurden gründlich behandelt. Das Labor war sehr hilfreich und gut organisiert.
- Andrew Nguyen, leitender DW-Ingenieur für Integration, Microsoft Online Advertising
Zuhörerschaft
Hadoop Administratoren
Format
Vorlesungen und praktische Übungen, ungefähres Gleichgewicht 60% Vorlesungen, 40% Übungen.
Hadoop for Developers (4 days)
28 StundenApache Hadoop ist das beliebteste Framework für die Verarbeitung Big Data auf Server-Clustern. Dieser Kurs wird einen Entwickler in verschiedene Komponenten (HDFS, MapReduce, Pig, Hive und HBase) Hadoop Ökosystem einführen.
Hadoop Administration on MapR
28 StundenZielgruppe:
Dieser Kurs soll die Big Data/Hadoop-Technologie entmystifizieren und zeigen, dass sie nicht schwer zu verstehen ist.
Hadoop and Spark for Administrators
35 StundenDiese von einem Trainer geleitete Live-Schulung (online oder vor Ort) richtet sich an Systemadministratoren, die lernen möchten, wie sie Hadoop Cluster in ihrem Unternehmen einrichten, einsetzen und verwalten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Installation und Konfiguration von Apache Hadoop.
- Die vier Hauptkomponenten des Hadoop-Ökosystems verstehen: HDFS, MapReduce, YARN und Hadoop Common.
- Das Hadoop Distributed File System (HDFS) zur Skalierung eines Clusters auf Hunderte oder Tausende von Knoten verwenden.
- HDFS als Speichermaschine für lokale Spark-Implementierungen einrichten.
- Einrichten von Spark für den Zugriff auf alternative Speicherlösungen wie Amazon S3 und NoSQL-Datenbanksysteme wie Redis, Elasticsearch, Couchbase, Aerospike usw.
- Ausführen von administrativen Aufgaben wie Bereitstellung, Verwaltung, Überwachung und Sicherung eines Apache Hadoop-Clusters.
HBase for Developers
21 StundenIn diesem Kurs wird HBase vorgestellt - ein No SQL Speicher über Hadoop . Der Kurs richtet sich an Entwickler, die HBase zum Entwickeln von Anwendungen verwenden, sowie an Administratoren, die HBase-Cluster verwalten.
Wir werden einen Entwickler durch die HBase-Architektur sowie die Datenmodellierung und Anwendungsentwicklung auf HBase führen. Außerdem werden die Verwendung von MapReduce mit HBase und einige Verwaltungsthemen im Zusammenhang mit der Leistungsoptimierung erläutert. Der Kurs ist sehr praktisch mit vielen Laborübungen.
Dauer : 3 Tage
Zielgruppe : Entwickler und Administratoren
Hortonworks Data Platform (HDP) for Administrators
21 StundenDiese Live-Schulung mit Kursleiter in Österreich (online oder vor Ort) führt die Teilnehmer in die Hortonworks Data Platform (HDP) ein und begleitet sie durch den Einsatz der Spark + Hadoop Lösung.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Hortonworks verwenden, um Hadoop in großem Maßstab zuverlässig auszuführen.
- Die Sicherheits-, Governance- und Betriebsfunktionen von Hadoop mit den agilen analytischen Workflows von Spark zu vereinen.
- Verwenden Sie Hortonworks, um jede Komponente in einem Spark-Projekt zu untersuchen, zu validieren, zu zertifizieren und zu unterstützen.
- Verarbeiten Sie verschiedene Datentypen, einschließlich strukturierter und unstrukturierter Daten sowie Daten in Bewegung und im Ruhezustand.
Data Analysis with Hive/HiveQL
7 StundenDieser Kurs behandelt die Verwendung der Hive SQL Sprache (AKA: Hive HQL, SQL in Hive , Hive QL) für Personen, die Daten aus Hive extrahieren
Impala for Business Intelligence
21 StundenCloudera Impala ist eine quelloffene, massiv-parallele Verarbeitungs- (MPP) SQL Abfrage-Engine für Apache Hadoop-Cluster.
Mit Cloudera Impala können Benutzer Abfragen mit niedriger Latenz SQL an Daten stellen, die im Hadoop Distributed File System und in Apache Hbase gespeichert sind, ohne dass eine Datenbewegung oder -transformation erforderlich ist.
Zielgruppe
Dieser Kurs richtet sich an Analysten und Datenwissenschaftler, die Daten, die in Hadoop gespeichert sind, mit Business Intelligence oder SQL Tools analysieren.
Nach diesem Kurs werden die Teilnehmer in der Lage sein
- Aussagekräftige Informationen aus Hadoop-Clustern mit Impala zu extrahieren.
- Spezifische Programme zu schreiben, um Business Intelligence in Impala SQL Dialekt zu erleichtern.
- Fehler zu beheben Impala.
Apache NiFi for Administrators
21 StundenIn dieser von einem Ausbilder geleiteten Live-Schulung in Österreich (vor Ort oder per Fernzugriff) lernen die Teilnehmer, wie sie Apache NiFi in einer Live-Laborumgebung einsetzen und verwalten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Apachi NiFi zu installieren und zu konfigurieren.
- Daten aus unterschiedlichen, verteilten Datenquellen, einschließlich Datenbanken und Big Data Lakes, zu beschaffen, umzuwandeln und zu verwalten.
- Datenflüsse zu automatisieren.
- Streaming-Analysen zu ermöglichen.
- Wenden Sie verschiedene Ansätze für die Datenerfassung an.
- Transformieren Sie Big Data und in Geschäftseinblicke.
Apache NiFi for Developers
7 StundenIn dieser Live-Schulung unter Anleitung in Österreich lernen die Teilnehmer die Grundlagen der ablaufbasierten Programmierung, während sie eine Reihe von Demo-Erweiterungen, Komponenten und Prozessoren mit Apache NiFi entwickeln.
Am Ende dieses Kurses werden die Teilnehmer in der Lage sein:
- Die Architektur von NiFi und Datenflusskonzepte zu verstehen.
- Erweiterungen mit NiFi und APIs von Drittanbietern zu entwickeln.
- Ihren eigenen Apache-NiFi-Prozessor zu entwickeln.
- Echtzeitdaten aus unterschiedlichen und ungewöhnlichen Dateiformaten und Datenquellen einlesen und verarbeiten.
Python, Spark, and Hadoop for Big Data
21 StundenDiese von einem Trainer geleitete Live-Schulung in Österreich (online oder vor Ort) richtet sich an Entwickler, die Spark, Hadoop und Python verwenden und integrieren möchten, um große und komplexe Datensätze zu verarbeiten, zu analysieren und zu transformieren.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- die notwendige Umgebung einzurichten, um mit der Verarbeitung von Big Data mit Spark, Hadoop und Python zu beginnen.
- die Funktionen, Kernkomponenten und Architektur von Spark und Hadoop zu verstehen.
- Lernen, wie man Spark, Hadoop und Python für die Verarbeitung von Big Data integriert.
- Erkunden Sie die Werkzeuge im Spark-Ökosystem (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka und Flume).
- Erstellen Sie Empfehlungssysteme mit kollaborativer Filterung ähnlich wie bei Netflix, YouTube, Amazon, Spotify und Google.
- Apache Mahout zur Skalierung von maschinellen Lernalgorithmen verwenden.