Talend Big Data Integration Schulung
Talend Open Studio für Big Data ist ein Open Source ETL-Tool für die Verarbeitung großer Daten. Es umfasst eine Entwicklungsumgebung, um mit Big Data Quellen und Zielen zu interagieren und Arbeitsplätze durchzuführen, ohne Code zu schreiben.
Dieser Instructor-leitet, Live-Training (online oder on-site) richtet sich an technische Personen, die Open Studio für Big Data implementieren möchten, um den Prozess des Lesens und der Krümmung durch Big Data zu vereinfachen.
Am Ende dieser Ausbildung können die Teilnehmer:
- Installieren und konfigurieren Talend Open Studio für Big Data.
- Verbinden Sie sich mit Big Data Systemen wie Cloudera, HortonWorks, MapR, Amazon EMR und Apache.
- Verständigen und installieren Sie Open Studio's Big Data Komponenten und Verbindungen.
- Konfigurieren Sie Parameter, um automatisch MapReduce-Code zu generieren.
- Verwenden Sie Open Studio's drag-and-drop-Interface, um Hadoop Jobs durchzuführen.
- Prototypen von Big Data Pipelines.
- Automatisierung von Big Data Integration Projekten.
Format des Kurses
- Interaktive Unterricht und Diskussion.
- Viele Übungen und Übungen.
- Hand-on Implementierung in einem Live-Lab-Umfeld.
Kursanpassungsoptionen
- Um eine benutzerdefinierte Ausbildung für diesen Kurs zu beantragen, wenden Sie sich bitte an uns, um zu arrangieren.
Schulungsübersicht
Einführung
Überblick über "Open Studio für Big Data" Funktionen und Architektur
Einrichten von Open Studio für Big Data
Navigieren in der UI
Verständnis von Big Data Komponenten und Anschlüssen
Verbinden mit einem Hadoop Cluster
Lesen und Schreiben von Daten
Datenverarbeitung mit Hive und MapReduce
Analysieren der Ergebnisse
Verbesserung der Qualität von Big Data
Aufbau einer Big Data-Rohrleitung
Verwalten von Benutzern, Gruppen, Rollen und Projekten
Einsatz von Open Studio in der Produktion
Monitoring Open Studio
Fehlersuche
Zusammenfassung und Schlussfolgerung
Voraussetzungen
- Verständnis für relationale Datenbanken
- Verständnis von Data Warehousing
- Verständnis von ETL-Konzepten (Extrahieren, Transformieren, Laden)
Publikum
- Fachleute für Business Intelligence
- Datenbankfachleute
- SQL Entwickler
- ETL-Entwickler
- Lösungsarchitekten
- Datenarchitekten
- Fachleute für Data Warehousing
- Systemadministratoren und Integratoren
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.
Talend Big Data Integration Schulung - Booking
Talend Big Data Integration Schulung - Enquiry
Talend Big Data Integration - Beratungsanfrage
Beratungsanfrage
Erfahrungsberichte (5)
Viele praktische Beispiele, verschiedene Wege, das gleiche Problem anzugehen, und manchmal nicht so offensichtliche Tricks, wie man die aktuelle Lösung verbessern kann
Rafal - Nordea
Kurs - Apache Spark MLlib
Maschinelle Übersetzung
wie der Trainer sein Wissen im Unterrichtsthema zeigt
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Kurs - Data Vault: Building a Scalable Data Warehouse
Maschinelle Übersetzung
Während der Übungen erklärte James mir jeden Schritt detaillierter, wo immer ich festsaß. Ich war komplett neu in NIFI. Er erläuterte den tatsächlichen Zweck von NIFI, sogar die Grundlagen wie Open Source. Er ging alle Konzepte von NIFI von Anfänger- bis Entwickler-Level durch.
Firdous Hashim Ali - MOD A BLOCK
Kurs - Apache NiFi for Administrators
Maschinelle Übersetzung
Vorbereitung und Organisation des Trainers sowie die Qualität der bereitgestellten Materialien auf GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurs - Impala for Business Intelligence
Maschinelle Übersetzung
Dass ich es überhaupt hatte.
Peter Scales - CACI Ltd
Kurs - Apache NiFi for Developers
Maschinelle Übersetzung
Kommende Kurse
Kombinierte Kurse
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 StundenDieser Kurs richtet sich an Entwickler und Datenwissenschaftler, die KI verstehen und in ihre Anwendungen implementieren wollen. Besonderes Augenmerk wird auf Datenanalyse, verteilte KI und natürliche Sprachverarbeitung gelegt.
Unified Batch and Stream Processing with Apache Beam
14 StundenApache Beam ist ein quelloffenes, einheitliches Programmiermodell für die Definition und Ausführung von parallelen Datenverarbeitungspipelines. Seine Stärke liegt in der Fähigkeit, sowohl Batch- als auch Streaming-Pipelines auszuführen, wobei die Ausführung von einem der von Beam unterstützten verteilten Verarbeitungs-Backends übernommen wird: Apache Apex, Apache Flink, Apache Spark, und Google Cloud Dataflow. Apache Beam ist nützlich für ETL-Aufgaben (Extrahieren, Transformieren und Laden) wie das Verschieben von Daten zwischen verschiedenen Speichermedien und Datenquellen, das Transformieren von Daten in ein gewünschtes Format und das Laden von Daten in ein neues System.
In dieser von einem Trainer geleiteten Live-Schulung (vor Ort oder per Fernzugriff) lernen die Teilnehmer, wie sie die Apache Beam-SDKs in einer Java- oder Python-Anwendung implementieren, die eine Datenverarbeitungspipeline zur Zerlegung eines großen Datensatzes in kleinere Teile für eine unabhängige, parallele Verarbeitung definiert.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Installieren und konfigurieren Apache Beam.
- ein einziges Programmiermodell zu verwenden, um sowohl Batch- als auch Stream-Verarbeitung innerhalb ihrer Java oder Python Anwendung auszuführen.
- Pipelines über mehrere Umgebungen hinweg auszuführen.
Format des Kurses
- Teilweise Vorlesung, teilweise Diskussion, Übungen und umfangreiche praktische Übungen
Hinweis
- Dieser Kurs wird in Zukunft Scala verfügbar sein. Bitte kontaktieren Sie uns zur Absprache.
Data Vault: Building a Scalable Data Warehouse
28 StundenIn dieser von einem Ausbilder geleiteten Live-Schulung in Österreich lernen die Teilnehmer, wie man ein Data Vault erstellt.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- die Architektur und die Designkonzepte hinter Data Vault 2.0 und ihre Interaktion mit Big Data, NoSQL und KI zu verstehen.
- Data Vaulting-Techniken anwenden, um Auditing, Tracing und Inspektion von historischen Daten in einem Data Warehouse zu ermöglichen.
- Entwicklung eines konsistenten und wiederholbaren ETL-Prozesses (Extract, Transform, Load).
- Aufbau und Bereitstellung hoch skalierbarer und wiederholbarer Warehouses.
Data Virtualization with Denodo Platform
14 StundenDiese von einem Trainer geleitete Live-Schulung in Österreich (online oder vor Ort) richtet sich an Architekten, Entwickler und Administratoren, die die Denodo-Plattform zur Optimierung und Beschleunigung der Datenverwaltung durch Datenvirtualisierung nutzen möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Denodo-Plattform installieren und konfigurieren.
- die Funktionen und die Architektur von Denodo Platform zu verstehen.
- die wichtigsten Konzepte, Vorteile und Anwendungsfälle der Datenvirtualisierung zu verstehen.
- den Denodo-Plattform-Server zu konfigurieren und zu verwalten.
- Implementierung von Datensicherheit, Benutzerzugriff und Dienstauthentifizierung.
- Werkzeuge und Techniken zur Betriebsüberwachung und Leistungsoptimierung anwenden.
Apache Flink Fundamentals
28 StundenDiese Live-Schulung in Österreich (online oder vor Ort) führt die Teilnehmer in die Prinzipien und Ansätze der verteilten Stream- und Batch-Datenverarbeitung ein und führt sie durch die Erstellung einer Echtzeit-Daten-Streaming-Anwendung in Apache Flink.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- Eine Umgebung für die Entwicklung von Datenanalyseanwendungen einrichten.
- Verstehen, wie die graphverarbeitende Bibliothek (Gelly) von Apache Flink funktioniert.
- Flink-basierte, fehlertolerante Daten-Streaming-Anwendungen paketieren, ausführen und überwachen.
- Verschiedene Workloads verwalten.
- Fortgeschrittene Analysen durchführen.
- Einrichten eines Flink-Clusters mit mehreren Knoten.
- Messen und Optimieren der Leistung.
- Flink mit verschiedenen Big Data Systemen integrieren.
- Flink-Funktionen mit denen anderer Big-Data-Verarbeitungs-Frameworks vergleichen.
Introduction to Graph Computing
28 StundenIn dieser von einem Trainer geleiteten Live-Schulung in Österreich lernen die Teilnehmer die Technologieangebote und Implementierungsansätze für die Verarbeitung von Graphdaten kennen. Ziel ist es, Objekte der realen Welt, ihre Eigenschaften und Beziehungen zu identifizieren, diese Beziehungen zu modellieren und sie als Daten mit einem Graph Computing (auch bekannt als Graph Analytics) Ansatz zu verarbeiten. Wir beginnen mit einem breiten Überblick und konzentrieren uns auf spezifische Tools, während wir eine Reihe von Fallstudien, praktischen Übungen und Live-Einsätzen durchführen.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein
- Verstehen, wie Graphdaten persistiert und durchlaufen werden.
- das beste Framework für eine bestimmte Aufgabe auszuwählen (von Graphdatenbanken bis hin zu Stapelverarbeitungs-Frameworks).
- Implementierung von Hadoop, Spark, GraphX und Pregel, um Graphenberechnungen auf vielen Rechnern parallel durchzuführen.
- Big-Data-Probleme aus der realen Welt in Form von Graphen, Prozessen und Traversalen zu betrachten.
Hortonworks Data Platform (HDP) for Administrators
21 StundenDiese Live-Schulung mit Kursleiter in Österreich (online oder vor Ort) führt die Teilnehmer in die Hortonworks Data Platform (HDP) ein und begleitet sie durch den Einsatz der Spark + Hadoop Lösung.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Hortonworks verwenden, um Hadoop in großem Maßstab zuverlässig auszuführen.
- Die Sicherheits-, Governance- und Betriebsfunktionen von Hadoop mit den agilen analytischen Workflows von Spark zu vereinen.
- Verwenden Sie Hortonworks, um jede Komponente in einem Spark-Projekt zu untersuchen, zu validieren, zu zertifizieren und zu unterstützen.
- Verarbeiten Sie verschiedene Datentypen, einschließlich strukturierter und unstrukturierter Daten sowie Daten in Bewegung und im Ruhezustand.
Data Analysis with Hive/HiveQL
7 StundenDieser Kurs behandelt die Verwendung der Hive SQL Sprache (AKA: Hive HQL, SQL in Hive , Hive QL) für Personen, die Daten aus Hive extrahieren
Impala for Business Intelligence
21 StundenCloudera Impala ist eine quelloffene, massiv-parallele Verarbeitungs- (MPP) SQL Abfrage-Engine für Apache Hadoop-Cluster.
Mit Cloudera Impala können Benutzer Abfragen mit niedriger Latenz SQL an Daten stellen, die im Hadoop Distributed File System und in Apache Hbase gespeichert sind, ohne dass eine Datenbewegung oder -transformation erforderlich ist.
Zielgruppe
Dieser Kurs richtet sich an Analysten und Datenwissenschaftler, die Daten, die in Hadoop gespeichert sind, mit Business Intelligence oder SQL Tools analysieren.
Nach diesem Kurs werden die Teilnehmer in der Lage sein
- Aussagekräftige Informationen aus Hadoop-Clustern mit Impala zu extrahieren.
- Spezifische Programme zu schreiben, um Business Intelligence in Impala SQL Dialekt zu erleichtern.
- Fehler zu beheben Impala.
Confluent KSQL
7 StundenDiese von einem Kursleiter geleitete Live-Schulung in Österreich (online oder vor Ort) richtet sich an Entwickler, die Apache Kafka Stream Processing implementieren möchten, ohne Code zu schreiben.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- Confluent KSQL zu installieren und zu konfigurieren.
- eine Stream-Processing-Pipeline nur mit SQL-Befehlen einzurichten (keine Java- oder Python-Codierung).
- Datenfilterung, Transformationen, Aggregationen, Joins, Windowing und Sessionization vollständig in SQL durchzuführen.
- Interaktive, kontinuierliche Abfragen für Streaming ETL und Echtzeit-Analysen entwerfen und einsetzen.
Apache NiFi for Administrators
21 StundenIn dieser von einem Ausbilder geleiteten Live-Schulung in Österreich (vor Ort oder per Fernzugriff) lernen die Teilnehmer, wie sie Apache NiFi in einer Live-Laborumgebung einsetzen und verwalten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Apachi NiFi zu installieren und zu konfigurieren.
- Daten aus unterschiedlichen, verteilten Datenquellen, einschließlich Datenbanken und Big Data Lakes, zu beschaffen, umzuwandeln und zu verwalten.
- Datenflüsse zu automatisieren.
- Streaming-Analysen zu ermöglichen.
- Wenden Sie verschiedene Ansätze für die Datenerfassung an.
- Transformieren Sie Big Data und in Geschäftseinblicke.
Apache NiFi for Developers
7 StundenIn dieser Live-Schulung unter Anleitung in Österreich lernen die Teilnehmer die Grundlagen der ablaufbasierten Programmierung, während sie eine Reihe von Demo-Erweiterungen, Komponenten und Prozessoren mit Apache NiFi entwickeln.
Am Ende dieses Kurses werden die Teilnehmer in der Lage sein:
- Die Architektur von NiFi und Datenflusskonzepte zu verstehen.
- Erweiterungen mit NiFi und APIs von Drittanbietern zu entwickeln.
- Ihren eigenen Apache-NiFi-Prozessor zu entwickeln.
- Echtzeitdaten aus unterschiedlichen und ungewöhnlichen Dateiformaten und Datenquellen einlesen und verarbeiten.
Python and Spark for Big Data (PySpark)
21 StundenIn dieser von einem Trainer geleiteten Live-Schulung in Österreich lernen die Teilnehmer anhand praktischer Übungen, wie sie Python und Spark gemeinsam zur Analyse von Big Data einsetzen können.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Lernen, wie man Spark mit Python verwendet, um Big Data zu analysieren.
- An Übungen arbeiten, die reale Fälle nachahmen.
- Verschiedene Tools und Techniken für die Big-Data-Analyse mit PySpark verwenden.
Spark Streaming with Python and Kafka
7 StundenDiese von einem Kursleiter geleitete Live-Schulung in Österreich (online oder vor Ort) richtet sich an Dateningenieure, Datenwissenschaftler und Programmierer, die die Funktionen von Spark Streaming zur Verarbeitung und Analyse von Echtzeitdaten nutzen möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein, mit Spark Streaming Live-Datenströme zur Verwendung in Datenbanken, Dateisystemen und Live-Dashboards zu verarbeiten.
Apache Spark MLlib
35 StundenMLlib ist die ML-Bibliothek (Machine Learning) von Spark. Ziel ist es, praktisches maschinelles Lernen skalierbar und einfach zu machen. Es besteht aus allgemeinen Lernalgorithmen und Dienstprogrammen, einschließlich Klassifizierung, Regression, Clustering, kollaborativer Filterung, Dimensionsreduzierung sowie Optimierungsprimitiven auf niedrigerer Ebene und Pipeline-APIs auf höherer Ebene.
Es teilt sich in zwei Pakete:
spark.mllib enthält die ursprüngliche API, die auf RDDs basiert.
spark.ml bietet eine API auf höherer Ebene, die auf DataFrames zum Erstellen von ML-Pipelines basiert.
Publikum
Dieser Kurs richtet sich an Ingenieure und Entwickler, die eine integrierte Maschinenbibliothek für Apache Spark