Hortonworks Data Platform (HDP) for Administrators Schulung
Hortonworks Data Platform (HDP) ist eine Open-Source-Plattform zur Unterstützung von Apache Hadoop, die eine stabile Grundlage für die Entwicklung von Big-Data-Lösungen im Apache Hadoop-Ökosystem bietet.
Diese von einem Trainer geleitete Live-Schulung (online oder vor Ort) stellt Hortonworks Data Platform (HDP) vor und führt die Teilnehmer durch die Bereitstellung von Spark + Hadoop Lösung.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Hortonworks verwenden, um Hadoop in großem Maßstab zuverlässig auszuführen.
- Die Sicherheits-, Governance- und Betriebsfunktionen von Hadoop mit den agilen analytischen Workflows von Spark zu vereinen.
- Verwenden Sie Hortonworks, um jede Komponente in einem Spark-Projekt zu untersuchen, zu validieren, zu zertifizieren und zu unterstützen.
- Verarbeiten Sie verschiedene Datentypen, einschließlich strukturierter und unstrukturierter Daten sowie Daten in Bewegung und im Ruhezustand.
Format des Kurses
- Interaktive Vorlesung und Diskussion.
- Viele Übungen und Praxis.
- Praktische Umsetzung in einer Live-Laborumgebung.
Optionen zur Kursanpassung
- Wenn Sie eine maßgeschneiderte Schulung für diesen Kurs wünschen, nehmen Sie bitte Kontakt mit uns auf, um dies zu vereinbaren.
Schulungsübersicht
Einführung in Hortonworks Data Platform (HDP)
Überblick über Big Data und Apache Hadoop
Installieren und Konfigurieren von HDP
Einrichten, Bereitstellen und Verwalten von Hadoop Clustern
Verstehen und Konfigurieren vonYARN und MapReduce
Überblick über Job Scheduling
Sicherstellung der Datenintegrität
Verstehen von Enterprise Data Movement
HDFS-Befehle und -Dienste verwenden
Datenübermittlung mit Flume
Arbeiten mit Hive
Workflow-Planung mit Oozie
Erforschung von Hadoop 2.x
Verstehen der Hbase-Architektur
HDP2-Dienste mit Ambari überwachen
Neue Funktionen im HDP
Fehlersuche
Zusammenfassung und nächste Schritte
Voraussetzungen
- Ein Verständnis von Hadoop und Big Data
- Ein Verständnis von Spark
- Vertrautheit mit der Kommandozeile
- Erfahrung in der Systemverwaltung
Zielgruppe
- Hadoop Administratoren
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.
Hortonworks Data Platform (HDP) for Administrators Schulung - Booking
Hortonworks Data Platform (HDP) for Administrators Schulung - Enquiry
Hortonworks Data Platform (HDP) for Administrators - Beratungsanfrage
Beratungsanfrage
Erfahrungsberichte (5)
Viele praktische Beispiele, verschiedene Wege, das gleiche Problem anzugehen, und manchmal nicht so offensichtliche Tricks, wie man die aktuelle Lösung verbessern kann
Rafal - Nordea
Kurs - Apache Spark MLlib
Maschinelle Übersetzung
Die Live-Beispiele
Ahmet Bolat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
Maschinelle Übersetzung
sehr interaktiv...
Richard Langford
Kurs - SMACK Stack for Data Science
Maschinelle Übersetzung
Genügend praktische Umsetzung, der Trainer ist kompetent
Chris Tan
Kurs - A Practical Introduction to Stream Processing
Maschinelle Übersetzung
Lernen Sie Spark Streaming, Databricks und AWS Redshift kennen
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Kurs - Apache Spark in the Cloud
Maschinelle Übersetzung
Kommende Kurse
Kombinierte Kurse
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 StundenDieser Kurs richtet sich an Entwickler und Datenwissenschaftler, die KI verstehen und in ihre Anwendungen implementieren wollen. Besonderes Augenmerk wird auf Datenanalyse, verteilte KI und natürliche Sprachverarbeitung gelegt.
Big Data Analytics with Google Colab and Apache Spark
14 StundenDiese Live-Schulung in Österreich (online oder vor Ort) richtet sich an fortgeschrittene Datenwissenschaftler und Ingenieure, die Google Colab und Apache Spark für die Verarbeitung und Analyse von Big Data nutzen möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- Eine Big-Data-Umgebung mit Google Colab und Spark einzurichten.
- Große Datenmengen mit Apache Spark effizient zu verarbeiten und zu analysieren.
- Big Data in einer kollaborativen Umgebung zu visualisieren.
- Apache Spark mit Cloud-basierten Tools zu integrieren.
Big Data Analytics in Health
21 StundenBei der Big-Data-Analyse werden große Mengen unterschiedlicher Datensätze untersucht, um Korrelationen, verborgene Muster und andere nützliche Erkenntnisse aufzudecken.
Die Gesundheitsbranche verfügt über riesige Mengen komplexer heterogener medizinischer und klinischer Daten. Die Anwendung von Big-Data-Analysen auf Gesundheitsdaten bietet ein großes Potenzial für die Gewinnung von Erkenntnissen zur Verbesserung der Gesundheitsversorgung. Die enorme Anzahl dieser Datensätze ist jedoch eine große Herausforderung für Analysen und praktische Anwendungen in einem klinischen Umfeld.
In diesem von Lehrern geleiteten Live-Training (Remote) lernen die Teilnehmer, wie Big-Data-Analysen im Gesundheitsbereich durchgeführt werden, während sie eine Reihe von praktischen Live-Laborübungen absolvieren.
Am Ende dieser Schulung können die Teilnehmer:
- Installieren und konfigurieren Sie Big Data-Analysetools wie Hadoop MapReduce und Spark
- Verstehen Sie die Eigenschaften von medizinischen Daten
- Wenden Sie Big-Data-Techniken an, um mit medizinischen Daten umzugehen
- Studieren Sie Big-Data-Systeme und -Algorithmen im Kontext von Gesundheitsanwendungen
Publikum
- Entwickler
- Data Scientists
Format des Kurses
- Teilvorlesung, Teildiskussion, Übungen und viel praktisches Üben.
Hinweis
- Um ein individuelles Training für diesen Kurs anzufordern, kontaktieren Sie uns bitte, um dies zu arrangieren.
Introduction to Graph Computing
28 StundenIn dieser von einem Trainer geleiteten Live-Schulung in Österreich lernen die Teilnehmer die Technologieangebote und Implementierungsansätze für die Verarbeitung von Graphdaten kennen. Ziel ist es, Objekte der realen Welt, ihre Eigenschaften und Beziehungen zu identifizieren, diese Beziehungen zu modellieren und sie als Daten mit einem Graph Computing (auch bekannt als Graph Analytics) Ansatz zu verarbeiten. Wir beginnen mit einem breiten Überblick und konzentrieren uns auf spezifische Tools, während wir eine Reihe von Fallstudien, praktischen Übungen und Live-Einsätzen durchführen.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein
- Verstehen, wie Graphdaten persistiert und durchlaufen werden.
- das beste Framework für eine bestimmte Aufgabe auszuwählen (von Graphdatenbanken bis hin zu Stapelverarbeitungs-Frameworks).
- Implementierung von Hadoop, Spark, GraphX und Pregel, um Graphenberechnungen auf vielen Rechnern parallel durchzuführen.
- Big-Data-Probleme aus der realen Welt in Form von Graphen, Prozessen und Traversalen zu betrachten.
Hadoop and Spark for Administrators
35 StundenDiese von einem Trainer geleitete Live-Schulung (online oder vor Ort) richtet sich an Systemadministratoren, die lernen möchten, wie sie Hadoop Cluster in ihrem Unternehmen einrichten, einsetzen und verwalten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Installation und Konfiguration von Apache Hadoop.
- Die vier Hauptkomponenten des Hadoop-Ökosystems verstehen: HDFS, MapReduce, YARN und Hadoop Common.
- Das Hadoop Distributed File System (HDFS) zur Skalierung eines Clusters auf Hunderte oder Tausende von Knoten verwenden.
- HDFS als Speichermaschine für lokale Spark-Implementierungen einrichten.
- Einrichten von Spark für den Zugriff auf alternative Speicherlösungen wie Amazon S3 und NoSQL-Datenbanksysteme wie Redis, Elasticsearch, Couchbase, Aerospike usw.
- Ausführen von administrativen Aufgaben wie Bereitstellung, Verwaltung, Überwachung und Sicherung eines Apache Hadoop-Clusters.
A Practical Introduction to Stream Processing
21 StundenIn dieser von einem Trainer geleiteten Live-Schulung (vor Ort oder per Fernzugriff) lernen die Teilnehmer, wie sie verschiedene Stream Processing Frameworks mit bestehenden Big-Data-Speichersystemen und zugehörigen Softwareanwendungen und Microservices einrichten und integrieren können.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Installieren und Konfigurieren verschiedener Stream Processing Frameworks, wie Spark Streaming und Kafka Streaming.
- Das am besten geeignete Framework für die jeweilige Aufgabe verstehen und auswählen.
- Daten kontinuierlich, gleichzeitig und Datensatz für Datensatz verarbeiten.
- Lösungen mit bestehenden Datenbanken, Data Warehouses, Data Lakes usw. integrieren Stream Processing.
- Integrieren Sie die am besten geeignete Stream-Processing-Bibliothek in Unternehmensanwendungen und Microservices.
SMACK Stack for Data Science
14 StundenDiese von einem Trainer geleitete Live-Schulung (online oder vor Ort) richtet sich an Datenwissenschaftler, die den SMACK-Stack zum Aufbau von Datenverarbeitungsplattformen für Big-Data-Lösungen nutzen möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Implementierung einer Datenpipeline-Architektur zur Verarbeitung von Big Data.
- Entwickeln einer Cluster-Infrastruktur mit Apache Mesos und Docker.
- Daten mit Spark und Scala analysieren.
- Verwaltung unstrukturierter Daten mit Apache Cassandra.
Apache Spark Fundamentals
21 StundenDiese von einem Ausbilder geleitete Live-Schulung (online oder vor Ort) richtet sich an Ingenieure, die ein System für die Verarbeitung sehr großer Datenmengen einrichten und einsetzen möchten Apache Spark.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Installieren und konfigurieren Sie Apache Spark.
- Schnelle Verarbeitung und Analyse von sehr großen Datensätzen.
- Den Unterschied zwischen Apache Spark und Hadoop MapReduce verstehen und wissen, wann man was verwenden sollte.
- Integrieren Sie Apache Spark mit anderen Tools für maschinelles Lernen.
Administration of Apache Spark
35 StundenDiese von einem Trainer geleitete Live-Schulung in Österreich (online oder vor Ort) richtet sich an Anfänger bis fortgeschrittene Systemadministratoren, die Spark-Cluster einsetzen, warten und optimieren möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- Installieren und konfigurieren Sie Apache Spark in verschiedenen Umgebungen.
- Cluster-Ressourcen zu verwalten und Spark-Anwendungen zu überwachen.
- Die Leistung von Spark-Clustern zu optimieren.
- Sicherheitsmaßnahmen zu implementieren und Hochverfügbarkeit zu gewährleisten.
- Allgemeine Spark-Probleme zu debuggen und zu beheben.
Apache Spark in the Cloud
21 StundenApache Spark Lernkurve von Apache Spark nimmt zu Beginn langsam zu, es erfordert viel Mühe, um die erste Rendite zu erzielen. Dieser Kurs zielt darauf ab, durch den ersten schwierigen Teil zu springen. Nach dem Besuch dieses Kurses werden die Teilnehmer die Grundlagen von Apache Spark verstehen, RDD klar von DataFrame unterscheiden, Python und Scala API erlernen, Ausführende und Aufgaben verstehen usw. Auch nach den bewährten Methoden konzentriert sich dieser Kurs stark auf Cloud-Bereitstellung, Databricks und AWS. Die Schüler werden auch die Unterschiede zwischen AWS EMR und AWS Glue, einem der neuesten Spark-Services von AWS, verstehen.
PUBLIKUM:
Dateningenieur, DevOps , Datenwissenschaftler
Spark for Developers
21 StundenZIELSETZUNG:
Dieser Kurs wird Apache Spark vorstellen. Die Schüler lernen, wie Spark in das Big Data Ökosystem passt und wie Spark für die Datenanalyse verwendet wird. Der Kurs behandelt die Spark-Shell für die interaktive Datenanalyse, Spark-Interna, Spark-APIs, Spark- SQL , Spark-Streaming sowie maschinelles Lernen und graphX.
PUBLIKUM:
Entwickler / Datenanalysten
Scaling Data Pipelines with Spark NLP
14 StundenDiese von einem Dozenten geleitete Live-Schulung in Österreich (online oder vor Ort) richtet sich an Datenwissenschaftler und Entwickler, die Spark NLP, das auf Apache Spark aufbaut, zur Entwicklung, Implementierung und Skalierung von Modellen und Pipelines für die Verarbeitung natürlicher Sprache nutzen möchten.
Am Ende dieses Kurses werden die Teilnehmer in der Lage sein:
- die notwendige Entwicklungsumgebung einzurichten, um mit dem Aufbau von NLP-Pipelines mit Spark NLP zu beginnen.
- die Funktionen, die Architektur und die Vorteile der Verwendung von Spark NLP zu verstehen.
- die in Spark NLP verfügbaren vortrainierten Modelle zur Implementierung von Textverarbeitung zu verwenden.
- Lernen Sie, wie Sie Spark NLP-Modelle für produktionsreife Projekte erstellen, trainieren und skalieren können.
- Anwendung von Klassifizierung, Inferenz und Sentiment-Analyse auf reale Anwendungsfälle (klinische Daten, Einblicke in das Kundenverhalten usw.).
Python and Spark for Big Data (PySpark)
21 StundenIn dieser von einem Trainer geleiteten Live-Schulung in Österreich lernen die Teilnehmer anhand praktischer Übungen, wie sie Python und Spark gemeinsam zur Analyse von Big Data einsetzen können.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Lernen, wie man Spark mit Python verwendet, um Big Data zu analysieren.
- An Übungen arbeiten, die reale Fälle nachahmen.
- Verschiedene Tools und Techniken für die Big-Data-Analyse mit PySpark verwenden.
Python, Spark, and Hadoop for Big Data
21 StundenDiese von einem Trainer geleitete Live-Schulung in Österreich (online oder vor Ort) richtet sich an Entwickler, die Spark, Hadoop und Python verwenden und integrieren möchten, um große und komplexe Datensätze zu verarbeiten, zu analysieren und zu transformieren.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- die notwendige Umgebung einzurichten, um mit der Verarbeitung von Big Data mit Spark, Hadoop und Python zu beginnen.
- die Funktionen, Kernkomponenten und Architektur von Spark und Hadoop zu verstehen.
- Lernen, wie man Spark, Hadoop und Python für die Verarbeitung von Big Data integriert.
- Erkunden Sie die Werkzeuge im Spark-Ökosystem (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka und Flume).
- Erstellen Sie Empfehlungssysteme mit kollaborativer Filterung ähnlich wie bei Netflix, YouTube, Amazon, Spotify und Google.
- Apache Mahout zur Skalierung von maschinellen Lernalgorithmen verwenden.
Apache Spark MLlib
35 StundenMLlib ist die ML-Bibliothek (Machine Learning) von Spark. Ziel ist es, praktisches maschinelles Lernen skalierbar und einfach zu machen. Es besteht aus allgemeinen Lernalgorithmen und Dienstprogrammen, einschließlich Klassifizierung, Regression, Clustering, kollaborativer Filterung, Dimensionsreduzierung sowie Optimierungsprimitiven auf niedrigerer Ebene und Pipeline-APIs auf höherer Ebene.
Es teilt sich in zwei Pakete:
spark.mllib enthält die ursprüngliche API, die auf RDDs basiert.
spark.ml bietet eine API auf höherer Ebene, die auf DataFrames zum Erstellen von ML-Pipelines basiert.
Publikum
Dieser Kurs richtet sich an Ingenieure und Entwickler, die eine integrierte Maschinenbibliothek für Apache Spark