Spark for Developers Schulung
ZIELSETZUNG:
Dieser Kurs wird Apache Spark vorstellen. Die Schüler lernen, wie Spark in das Big Data Ökosystem passt und wie Spark für die Datenanalyse verwendet wird. Der Kurs behandelt die Spark-Shell für die interaktive Datenanalyse, Spark-Interna, Spark-APIs, Spark- SQL , Spark-Streaming sowie maschinelles Lernen und graphX.
PUBLIKUM:
Entwickler / Datenanalysten
Schulungsübersicht
- Scala-Grundierung Eine kurze Einführung in Scala Labs: Kennenlernen der Scala Spark-Grundlagen Hintergrund und Geschichte Spark und Hadoop Spark-Konzepte und -Architektur Spark-Ökosystem (Kern, Spark SQL, Mlib, Streaming) Labs: Installieren und Ausführen von Spark Erster Blick auf Spark Running Spark in lokaler Modus Spark-Web-Benutzeroberfläche Spark-Shell Analysieren von Datensätzen – Teil 1 Überprüfen von RDDs Labore: Spark-Shell-Exploration von RDDs RDDs-Konzepte Partitionen RDD-Operationen/Transformationen RDD-Typen Schlüssel-Wert-Paar RDDs MapReduce für RDD Caching und Persistenz Labore: Erstellen und Überprüfen von RDDs; Caching von RDDs, Spark-API-Programmierung, Einführung in die Spark-API/RDD-API, Senden des ersten Programms an Spark, Debuggen/Protokollieren, Konfigurationseigenschaften, Labore: Programmieren in der Spark-API, Senden von Jobs, Spark-Unterstützung SQL SQL in Spark-Datenrahmen, Definieren von Tabellen und Importieren von Datensätzen, Abfragen von Daten Frames unter Verwendung von SQL Speicherformate: JSON / Parquet Labs: Erstellen und Abfragen von Datenframes; Auswerten von Datenformaten MLlib MLlib-Einführung MLlib-Algorithmen Übungen: Schreiben von MLib-Anwendungen GraphX Übersicht über die GraphX-Bibliothek GraphX-APIs Übungen: Verarbeiten von Diagrammdaten mit Spark Spark Streaming Streaming-Übersicht Evaluieren von Streaming-Plattformen Streaming-Operationen Schiebefensteroperationen Übungen: Schreiben von Spark-Streaming-Anwendungen Spark und Hadoop Hadoop-Einführung ( HDFS/YARN) Hadoop + Spark-Architektur Ausführen von Spark auf Hadoop YARN Verarbeiten von HDFS-Dateien mit Spark Spark-Leistung und -Tuning Broadcast-Variablen Akkumulatoren Speicherverwaltung und Caching Spark-Vorgänge Bereitstellen von Spark in der Produktion Beispielbereitstellungsvorlagen Konfigurationen Überwachung Fehlerbehebung
Voraussetzungen
VORAUSSETZUNGEN
Vertrautheit mit der Sprache Java / Scala / Python (unsere Praktika in Scala und Python) Grundkenntnisse der Linux-Entwicklungsumgebung (Befehlszeilennavigation / Bearbeitung von Dateien mit VI oder nano)
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.
Spark for Developers Schulung - Booking
Spark for Developers Schulung - Enquiry
Spark for Developers - Beratungsanfrage
Beratungsanfrage
Erfahrungsberichte (6)
Ähnliche Übungen auf verschiedene Weisen durchzuführen, hilft wirklich dabei zu verstehen, was jeder Komponente (Hadoop/Spark, standalone/cluster) einzeln und zusammen leisten kann. Es gab mir Ideen dafür, wie ich meine Anwendung auf meinem lokalen Rechner testen sollte, wenn ich entwickle, im Vergleich dazu, wenn sie in einem Cluster bereitgestellt wird.
Thomas Carcaud - IT Frankfurt GmbH
Kurs - Spark for Developers
Maschinelle Übersetzung
Ajay war sehr freundlich, hilfsbereit und auch gut informiert über das Thema, über das er sprach.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Kurs - Spark for Developers
Maschinelle Übersetzung
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Kurs - Spark for Developers
Maschinelle Übersetzung
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Kurs - Spark for Developers
Maschinelle Übersetzung
We know a lot more about the whole environment.
John Kidd
Kurs - Spark for Developers
Maschinelle Übersetzung
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Kurs - Spark for Developers
Maschinelle Übersetzung
Kommende Kurse
Kombinierte Kurse
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 StundenDieser Kurs richtet sich an Entwickler und Datenwissenschaftler, die KI verstehen und in ihre Anwendungen implementieren wollen. Besonderes Augenmerk wird auf Datenanalyse, verteilte KI und natürliche Sprachverarbeitung gelegt.
Big Data Analytics with Google Colab and Apache Spark
14 StundenDiese Live-Schulung in Österreich (online oder vor Ort) richtet sich an fortgeschrittene Datenwissenschaftler und Ingenieure, die Google Colab und Apache Spark für die Verarbeitung und Analyse von Big Data nutzen möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- Eine Big-Data-Umgebung mit Google Colab und Spark einzurichten.
- Große Datenmengen mit Apache Spark effizient zu verarbeiten und zu analysieren.
- Big Data in einer kollaborativen Umgebung zu visualisieren.
- Apache Spark mit Cloud-basierten Tools zu integrieren.
Big Data Analytics in Health
21 StundenBei der Big-Data-Analyse werden große Mengen unterschiedlicher Datensätze untersucht, um Korrelationen, verborgene Muster und andere nützliche Erkenntnisse aufzudecken.
Die Gesundheitsbranche verfügt über riesige Mengen komplexer heterogener medizinischer und klinischer Daten. Die Anwendung von Big-Data-Analysen auf Gesundheitsdaten bietet ein großes Potenzial für die Gewinnung von Erkenntnissen zur Verbesserung der Gesundheitsversorgung. Die enorme Anzahl dieser Datensätze ist jedoch eine große Herausforderung für Analysen und praktische Anwendungen in einem klinischen Umfeld.
In diesem von Lehrern geleiteten Live-Training (Remote) lernen die Teilnehmer, wie Big-Data-Analysen im Gesundheitsbereich durchgeführt werden, während sie eine Reihe von praktischen Live-Laborübungen absolvieren.
Am Ende dieser Schulung können die Teilnehmer:
- Installieren und konfigurieren Sie Big Data-Analysetools wie Hadoop MapReduce und Spark
- Verstehen Sie die Eigenschaften von medizinischen Daten
- Wenden Sie Big-Data-Techniken an, um mit medizinischen Daten umzugehen
- Studieren Sie Big-Data-Systeme und -Algorithmen im Kontext von Gesundheitsanwendungen
Publikum
- Entwickler
- Data Scientists
Format des Kurses
- Teilvorlesung, Teildiskussion, Übungen und viel praktisches Üben.
Hinweis
- Um ein individuelles Training für diesen Kurs anzufordern, kontaktieren Sie uns bitte, um dies zu arrangieren.
Introduction to Graph Computing
28 StundenIn dieser von einem Trainer geleiteten Live-Schulung in Österreich lernen die Teilnehmer die Technologieangebote und Implementierungsansätze für die Verarbeitung von Graphdaten kennen. Ziel ist es, Objekte der realen Welt, ihre Eigenschaften und Beziehungen zu identifizieren, diese Beziehungen zu modellieren und sie als Daten mit einem Graph Computing (auch bekannt als Graph Analytics) Ansatz zu verarbeiten. Wir beginnen mit einem breiten Überblick und konzentrieren uns auf spezifische Tools, während wir eine Reihe von Fallstudien, praktischen Übungen und Live-Einsätzen durchführen.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein
- Verstehen, wie Graphdaten persistiert und durchlaufen werden.
- das beste Framework für eine bestimmte Aufgabe auszuwählen (von Graphdatenbanken bis hin zu Stapelverarbeitungs-Frameworks).
- Implementierung von Hadoop, Spark, GraphX und Pregel, um Graphenberechnungen auf vielen Rechnern parallel durchzuführen.
- Big-Data-Probleme aus der realen Welt in Form von Graphen, Prozessen und Traversalen zu betrachten.
Hadoop and Spark for Administrators
35 StundenDiese von einem Trainer geleitete Live-Schulung (online oder vor Ort) richtet sich an Systemadministratoren, die lernen möchten, wie sie Hadoop Cluster in ihrem Unternehmen einrichten, einsetzen und verwalten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Installation und Konfiguration von Apache Hadoop.
- Die vier Hauptkomponenten des Hadoop-Ökosystems verstehen: HDFS, MapReduce, YARN und Hadoop Common.
- Das Hadoop Distributed File System (HDFS) zur Skalierung eines Clusters auf Hunderte oder Tausende von Knoten verwenden.
- HDFS als Speichermaschine für lokale Spark-Implementierungen einrichten.
- Einrichten von Spark für den Zugriff auf alternative Speicherlösungen wie Amazon S3 und NoSQL-Datenbanksysteme wie Redis, Elasticsearch, Couchbase, Aerospike usw.
- Ausführen von administrativen Aufgaben wie Bereitstellung, Verwaltung, Überwachung und Sicherung eines Apache Hadoop-Clusters.
Hortonworks Data Platform (HDP) for Administrators
21 StundenDiese Live-Schulung mit Kursleiter in Österreich (online oder vor Ort) führt die Teilnehmer in die Hortonworks Data Platform (HDP) ein und begleitet sie durch den Einsatz der Spark + Hadoop Lösung.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Hortonworks verwenden, um Hadoop in großem Maßstab zuverlässig auszuführen.
- Die Sicherheits-, Governance- und Betriebsfunktionen von Hadoop mit den agilen analytischen Workflows von Spark zu vereinen.
- Verwenden Sie Hortonworks, um jede Komponente in einem Spark-Projekt zu untersuchen, zu validieren, zu zertifizieren und zu unterstützen.
- Verarbeiten Sie verschiedene Datentypen, einschließlich strukturierter und unstrukturierter Daten sowie Daten in Bewegung und im Ruhezustand.
A Practical Introduction to Stream Processing
21 StundenIn dieser von einem Trainer geleiteten Live-Schulung (vor Ort oder per Fernzugriff) lernen die Teilnehmer, wie sie verschiedene Stream Processing Frameworks mit bestehenden Big-Data-Speichersystemen und zugehörigen Softwareanwendungen und Microservices einrichten und integrieren können.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Installieren und Konfigurieren verschiedener Stream Processing Frameworks, wie Spark Streaming und Kafka Streaming.
- Das am besten geeignete Framework für die jeweilige Aufgabe verstehen und auswählen.
- Daten kontinuierlich, gleichzeitig und Datensatz für Datensatz verarbeiten.
- Lösungen mit bestehenden Datenbanken, Data Warehouses, Data Lakes usw. integrieren Stream Processing.
- Integrieren Sie die am besten geeignete Stream-Processing-Bibliothek in Unternehmensanwendungen und Microservices.
SMACK Stack for Data Science
14 StundenDiese von einem Trainer geleitete Live-Schulung (online oder vor Ort) richtet sich an Datenwissenschaftler, die den SMACK-Stack zum Aufbau von Datenverarbeitungsplattformen für Big-Data-Lösungen nutzen möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Implementierung einer Datenpipeline-Architektur zur Verarbeitung von Big Data.
- Entwickeln einer Cluster-Infrastruktur mit Apache Mesos und Docker.
- Daten mit Spark und Scala analysieren.
- Verwaltung unstrukturierter Daten mit Apache Cassandra.
Apache Spark Fundamentals
21 StundenDiese von einem Ausbilder geleitete Live-Schulung (online oder vor Ort) richtet sich an Ingenieure, die ein System für die Verarbeitung sehr großer Datenmengen einrichten und einsetzen möchten Apache Spark.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Installieren und konfigurieren Sie Apache Spark.
- Schnelle Verarbeitung und Analyse von sehr großen Datensätzen.
- Den Unterschied zwischen Apache Spark und Hadoop MapReduce verstehen und wissen, wann man was verwenden sollte.
- Integrieren Sie Apache Spark mit anderen Tools für maschinelles Lernen.
Administration of Apache Spark
35 StundenDiese von einem Trainer geleitete Live-Schulung in Österreich (online oder vor Ort) richtet sich an Anfänger bis fortgeschrittene Systemadministratoren, die Spark-Cluster einsetzen, warten und optimieren möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- Installieren und konfigurieren Sie Apache Spark in verschiedenen Umgebungen.
- Cluster-Ressourcen zu verwalten und Spark-Anwendungen zu überwachen.
- Die Leistung von Spark-Clustern zu optimieren.
- Sicherheitsmaßnahmen zu implementieren und Hochverfügbarkeit zu gewährleisten.
- Allgemeine Spark-Probleme zu debuggen und zu beheben.
Apache Spark in the Cloud
21 StundenApache Spark Lernkurve von Apache Spark nimmt zu Beginn langsam zu, es erfordert viel Mühe, um die erste Rendite zu erzielen. Dieser Kurs zielt darauf ab, durch den ersten schwierigen Teil zu springen. Nach dem Besuch dieses Kurses werden die Teilnehmer die Grundlagen von Apache Spark verstehen, RDD klar von DataFrame unterscheiden, Python und Scala API erlernen, Ausführende und Aufgaben verstehen usw. Auch nach den bewährten Methoden konzentriert sich dieser Kurs stark auf Cloud-Bereitstellung, Databricks und AWS. Die Schüler werden auch die Unterschiede zwischen AWS EMR und AWS Glue, einem der neuesten Spark-Services von AWS, verstehen.
PUBLIKUM:
Dateningenieur, DevOps , Datenwissenschaftler
Scaling Data Pipelines with Spark NLP
14 StundenDiese von einem Dozenten geleitete Live-Schulung in Österreich (online oder vor Ort) richtet sich an Datenwissenschaftler und Entwickler, die Spark NLP, das auf Apache Spark aufbaut, zur Entwicklung, Implementierung und Skalierung von Modellen und Pipelines für die Verarbeitung natürlicher Sprache nutzen möchten.
Am Ende dieses Kurses werden die Teilnehmer in der Lage sein:
- die notwendige Entwicklungsumgebung einzurichten, um mit dem Aufbau von NLP-Pipelines mit Spark NLP zu beginnen.
- die Funktionen, die Architektur und die Vorteile der Verwendung von Spark NLP zu verstehen.
- die in Spark NLP verfügbaren vortrainierten Modelle zur Implementierung von Textverarbeitung zu verwenden.
- Lernen Sie, wie Sie Spark NLP-Modelle für produktionsreife Projekte erstellen, trainieren und skalieren können.
- Anwendung von Klassifizierung, Inferenz und Sentiment-Analyse auf reale Anwendungsfälle (klinische Daten, Einblicke in das Kundenverhalten usw.).
Python and Spark for Big Data (PySpark)
21 StundenIn dieser von einem Trainer geleiteten Live-Schulung in Österreich lernen die Teilnehmer anhand praktischer Übungen, wie sie Python und Spark gemeinsam zur Analyse von Big Data einsetzen können.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Lernen, wie man Spark mit Python verwendet, um Big Data zu analysieren.
- An Übungen arbeiten, die reale Fälle nachahmen.
- Verschiedene Tools und Techniken für die Big-Data-Analyse mit PySpark verwenden.
Python, Spark, and Hadoop for Big Data
21 StundenDiese von einem Trainer geleitete Live-Schulung in Österreich (online oder vor Ort) richtet sich an Entwickler, die Spark, Hadoop und Python verwenden und integrieren möchten, um große und komplexe Datensätze zu verarbeiten, zu analysieren und zu transformieren.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- die notwendige Umgebung einzurichten, um mit der Verarbeitung von Big Data mit Spark, Hadoop und Python zu beginnen.
- die Funktionen, Kernkomponenten und Architektur von Spark und Hadoop zu verstehen.
- Lernen, wie man Spark, Hadoop und Python für die Verarbeitung von Big Data integriert.
- Erkunden Sie die Werkzeuge im Spark-Ökosystem (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka und Flume).
- Erstellen Sie Empfehlungssysteme mit kollaborativer Filterung ähnlich wie bei Netflix, YouTube, Amazon, Spotify und Google.
- Apache Mahout zur Skalierung von maschinellen Lernalgorithmen verwenden.
Apache Spark MLlib
35 StundenMLlib ist die ML-Bibliothek (Machine Learning) von Spark. Ziel ist es, praktisches maschinelles Lernen skalierbar und einfach zu machen. Es besteht aus allgemeinen Lernalgorithmen und Dienstprogrammen, einschließlich Klassifizierung, Regression, Clustering, kollaborativer Filterung, Dimensionsreduzierung sowie Optimierungsprimitiven auf niedrigerer Ebene und Pipeline-APIs auf höherer Ebene.
Es teilt sich in zwei Pakete:
spark.mllib enthält die ursprüngliche API, die auf RDDs basiert.
spark.ml bietet eine API auf höherer Ebene, die auf DataFrames zum Erstellen von ML-Pipelines basiert.
Publikum
Dieser Kurs richtet sich an Ingenieure und Entwickler, die eine integrierte Maschinenbibliothek für Apache Spark