Schulungsübersicht
Tag 01
Überblick über Big Data Business Intelligence für die kriminalpolizeiliche Analyse
- Fallstudien aus der Strafverfolgung - Predictive Policing
- Die Big Data-Einführungsrate in den Strafverfolgungsbehörden und wie sie ihre künftige Tätigkeit auf Big Data Predictive Analytics ausrichten
- Aufkommende Technologielösungen wie Schusswaffensensoren, Überwachungsvideos und soziale Medien
- Einsatz von Big Data-Technologie zur Verringerung der Informationsflut
- Verknüpfung von Big Data mit Altdaten
- Grundlegendes Verständnis der Grundlagentechnologien für prädiktive Analysen
- Data Integration & Dashboard-Visualisierung
- Betrugsmanagement
- Business Rules und Betrugserkennung
- Bedrohungserkennung und Profiling
- Kosten-Nutzen-Analyse für die Big Data-Implementierung
Einführung in Big Data
- Hauptmerkmale von Big Data - Volumen, Vielfalt, Geschwindigkeit und Wahrhaftigkeit.
- MPP-Architektur (Massive Parallel Processing)
- Data Warehouses - statisches Schema, sich langsam entwickelnder Datenbestand
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica usw.
- Hadoop Basierende Lösungen - keine Bedingungen an die Struktur des Datensatzes.
- Typisches Muster: HDFS, MapReduce (Crunch), Abruf aus HDFS
- Apache Spark für Stream-Verarbeitung
- Batch- geeignet für analytische/nicht interaktive
- Umfang : CEP-Streaming-Daten
- Typische Wahl - CEP-Produkte (z. B. Infostreams, Apama, MarkLogic usw.)
- Weniger produktionstauglich - Storm/S4
- NoSQL Databases - (spaltenweise und Schlüsselwert): Am besten geeignet als analytische Ergänzung zu Data Warehouse/Datenbank
NoSQL Lösungen
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV-Speicher (Hierarchisch) - GT.m, Cache
- KV-Speicher (geordnet) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV-Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tupel-Speicher - Gigaspaces, Coord, Apache River
- Objekt Database - ZopeDB, DB40, Shoal
- Dokumentenspeicher - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Breiter säulenförmiger Speicher - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Arten von Daten: Einführung in Data Cleaning Themen in Big Data
- RDBMS - statische Struktur/Schema, fördert keine agile, explorative Umgebung.
- NoSQL - halbstrukturiert, genug Struktur, um Daten ohne genaues Schema vor der Speicherung zu speichern
- Probleme bei der Datenbereinigung
Hadoop
- Wann sollte man Hadoop wählen?
- STRUKTURIERT - Data-Warehouses/Datenbanken in Unternehmen können große Datenmengen speichern (was mit Kosten verbunden ist), zwingen aber eine Struktur auf (nicht gut für eine aktive Erkundung)
- SEMI STRUKTURIERTE Daten - mit herkömmlichen Lösungen (DW/DB) schwer zu realisieren
- Warehousing von Daten = RIESIGer Aufwand und auch nach der Implementierung statisch
- Für die Vielfalt und das Volumen der Daten, die auf handelsüblicher Hardware verarbeitet werden - HADOOP
- Commodity H/W erforderlich, um einen Hadoop Cluster zu erstellen
Einführung in MapReduce /HDFS
- MapReduce - Verteilen der Rechenleistung auf mehrere Server
- HDFS - Daten lokal für den Rechenprozess verfügbar machen (mit Redundanz)
- Daten - können unstrukturiert/schemafrei sein (im Gegensatz zu RDBMS)
- Verantwortung des Entwicklers, die Daten sinnvoll zu nutzen
- Programming MapReduce = Arbeit mit Java (Vor- und Nachteile), manuelles Laden von Daten in HDFS
Tag 02
Big Data Ökosystem - Aufbau von Big Data ETL (Extrahieren, Transformieren, Laden) - Welche Big Data Tools verwenden und wann?
- Hadoop vs. andere NoSQL Lösungen
- Für interaktiven, wahlfreien Zugriff auf Daten
- Hbase (spaltenorientierte Datenbank) auf der Basis von Hadoop
- Zufälliger Zugriff auf Daten, aber mit Einschränkungen (max. 1 PB)
- Nicht gut für Ad-hoc-Analysen, gut für Protokollierung, Zählung, Zeitserien
- Sqoop - Import aus Datenbanken in Hive oder HDFS (JDBC/ODBC-Zugang)
- Flume - Datenstrom (z. B. Protokolldaten) in HDFS
Big Data Management System
- Bewegliche Teile, Start/Ausfall von Rechenknoten :ZooKeeper - Für Konfigurations-/Koordinations-/Benennungsdienste
- Komplexe Pipeline/Workflow: Oozie - Verwaltung von Workflow, Abhängigkeiten, Daisy Chain
- Bereitstellung, Konfiguration, Cluster-Management, Upgrade usw. (Systemadministrator) :Ambari
- In der Cloud: Whirr
Predictive Analytics -- Grundlegende Techniken und Machine Learning basierte Business Intelligenz
- Einführung in Machine Learning
- Klassifikationstechniken lernen
- Bayessche Vorhersage - Vorbereitung einer Trainingsdatei
- Support-Vektor-Maschine
- KNN p-Tree Algebra & vertikales Mining
- Neural Networks
- Big Data Problem mit großen Variablen - Zufallswald (RF)
- Big Data Automatisierungsproblem - Multi-Model-Ensemble RF
- Automatisierung durch Soft10-M
- Textanalytisches Werkzeug - Treeminer
- Agile Lernen
- Agentenbasiertes Lernen
- Verteiltes Lernen
- Einführung in Open Source Tools für Predictive Analytics: R, Python, Rapidminer, Mahut
Predictive Analytics Ökosystem und seine Anwendung in der kriminalpolizeilichen Analyse
- Technologie und der Ermittlungsprozess
- Einsichtsanalytik
- Visualisierungsanalytik
- Strukturierte prädiktive Analytik
- Unstrukturierte prädiktive Analytik
- Erstellung von Bedrohungs-/Betrugslisten/Anbieterprofilen
- Empfehlungsmaschine
- Erkennung von Mustern
- Regel-/Szenarioerkennung - Ausfall, Betrug, Optimierung
- Entdeckung der Grundursache
- Sentiment-Analyse
- CRM-Analytik
- Netzwerk-Analysen
- Textanalyse zur Gewinnung von Erkenntnissen aus Protokollen, Zeugenaussagen, Internet-Chatter usw.
- Technologiegestützte Überprüfung
- Betrugsanalytik
- Echtzeit-Analytik
Tag 03
Echtzeit- und Scalable-Analysen über Hadoop
- Warum gängige Analysealgorithmen in Hadoop/HDFS versagen
- Apache Hama- für Bulk-Synchronous Distributed Computing
- Apache SPARK- für Cluster-Computing und Echtzeit-Analytik
- CMU Graphics Lab2- Graphenbasierter asynchroner Ansatz für verteiltes Rechnen
- KNN p -- Algebra-basierter Ansatz von Treeminer für reduzierte Hardware-Betriebskosten
Werkzeuge für eDiscovery und Forensik
- eDiscovery über Big Data vs. Legacy-Daten - ein Vergleich von Kosten und Leistung
- Prädiktive Kodierung und technologiegestützte Überprüfung (TAR)
- Live-Demo von vMiner zum Verständnis, wie TAR eine schnellere Discovery ermöglicht
- Schnellere Indizierung durch HDFS - Geschwindigkeit der Daten
- NLP (Natural Language processing) - Open Source Produkte und Techniken
- eDiscovery in Fremdsprachen - Technologie für die Fremdsprachenverarbeitung
Big Data BI für Cyber Security - Erlangung eines 360-Grad-Blicks, schnelle Datenerfassung und Identifizierung von Bedrohungen
- Verstehen der Grundlagen der Sicherheitsanalyse - Angriffsfläche, Sicherheitsfehlkonfiguration, Host-Verteidigung
- Netzwerkinfrastruktur / Große Datenleitungen / Response ETL für Echtzeit-Analytik
- Prädiktiv vs. prädiktiv - Festgelegte Regeln vs. automatische Entdeckung von Bedrohungsregeln aus Metadaten
Sammeln unterschiedlicher Daten für kriminalistische Analysen
- Verwendung von IoT (Internet der Dinge) als Sensoren zur Datenerfassung
- Nutzung von Satellitenbildern für die Inlandsüberwachung
- Nutzung von Überwachungs- und Bilddaten für die Identifizierung von Kriminellen
- Andere Technologien zur Datenerfassung - Drohnen, Körperkameras, GPS-Tagging-Systeme und Wärmebildtechnik
- Kombination von automatisiertem Datenabruf mit Daten, die durch Informanten, Verhöre und Forschung gewonnen wurden
- Forecasting kriminelle Aktivitäten
Tag 04
Betrugsprävention BI von Big Data in Fraud Analytics
- Grundlegende Klassifizierung von Fraud Analytics - regelbasierte vs. prädiktive Analytik
- Überwachtes vs. unüberwachtes maschinelles Lernen zur Erkennung von Betrugsmustern
- Business zu Geschäftsbetrug, Betrug bei medizinischen Leistungen, Versicherungsbetrug, Steuerhinterziehung und Geldwäsche
Social Media Analytik - Sammlung und Analyse von Informationen
- Wie Social Media von Kriminellen zur Organisation, Rekrutierung und Planung genutzt wird
- Big Data ETL-API für die Extraktion von Social-Media-Daten
- Text, Bild, Metadaten und Video
- Stimmungsanalyse aus Social Media Feeds
- Kontextuelles und nicht-kontextuelles Filtern von Social Media Feeds
- Social Media Dashboard zur Integration verschiedener sozialer Medien
- Automatisierte Profilerstellung von Social Media-Profilen
- Eine Live-Demonstration der einzelnen Analysemethoden wird durch das Treeminer Tool gegeben
Big Data Analytik in der Bildverarbeitung und in Video-Feeds
- Bildspeichertechniken in Big Data -- Speicherlösung für Daten im Petabyte-Bereich
- LTFS (Linear Tape File System) und LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- mehrschichtige Speicherlösung für große Bilddaten
- Grundlagen der Bildanalytik
- Objekt-Erkennung
- Segmentierung von Bildern
- Bewegungsverfolgung
- 3-D Bildrekonstruktion
Bio Metrik, DNA und Identifizierungsprogramme der nächsten Generation
- Jenseits von Fingerabdrücken und Gesichtserkennung
- Spracherkennung, Tastenanschlag (Analyse des Tippmusters eines Benutzers) und CODIS (kombiniertes DNA-Index-System)
- Über den DNA-Abgleich hinaus: Verwendung der forensischen DNA-Phänotypisierung zur Konstruktion eines Gesichts aus DNA-Proben
Big Data Dashboard für den schnellen Zugriff auf verschiedene Daten und deren Anzeige:
- Integration der bestehenden Anwendungsplattform mit Big Data Dashboard
- Big Data Verwaltung
- Fallstudie zu Big Data Dashboard: Tableau und Pentaho
- Verwendung der Big Data-App für standortbezogene Dienste in Govt.
- Tracking-System und Verwaltung
Tag 05
Wie rechtfertigt man die Big Data BI-Implementierung in einer Organisation?
- Definieren des ROI (Return on Investment) für die Implementierung von Big Data
- Fallstudien zur Einsparung von Analystenzeit bei der Datensammlung und -aufbereitung - Steigerung der Produktivität
- Umsatzsteigerung durch geringere Kosten für Datenbanklizenzen
- Umsatzsteigerung durch standortbezogene Dienste
- Kosteneinsparungen durch Betrugsprävention
- Ein integrierter Tabellenkalkulationsansatz zur Berechnung der ungefähren Kosten im Vergleich zu den Einnahmegewinnen/Einsparungen durch die Implementierung von Big Data.
Schritt-für-Schritt-Verfahren zum Ersetzen eines alten Datensystems durch ein Big Data-System
- Big DataMigrationsfahrplan
- Welche wichtigen Informationen werden vor der Architektur eines Big Data-Systems benötigt?
- Welche verschiedenen Methoden gibt es zur Berechnung von Datenvolumen, -geschwindigkeit, -vielfalt und -wahrheit?
- Wie kann man das Datenwachstum abschätzen?
- Fallstudien
Überprüfung von Big Data-Anbietern und deren Produkten.
- Accenture
- APTEAN (ehemals CDC Software)
- Cisco-Systeme
- Cloudera
- Dell
- EMC
- GoodData Gesellschaft
- Guavus
- Hitachi Datensysteme
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (ehemals 10Gen)
- MU Sigma
- Netapp
- Opera-Lösungen
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytik
- Salesforce
- SAP
- SAS Institut
- Sisense
- Software AG/Terracotta
- Soft10 Automatisierung
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytik
- Tidemark-Systeme
- Treeminer
- VMware (Teil von EMC)
Q/A-Sitzung
Voraussetzungen
- Kenntnisse über Strafverfolgungsprozesse und Datensysteme
- Grundkenntnisse von SQL/Oracle oder relationalen Datenbanken
- Grundkenntnisse der Statistik (auf Tabellenkalkulationsniveau)
Zielgruppe
- Strafverfolgungsspezialisten mit technischem Hintergrund
Erfahrungsberichte (2)
Deepthi hat sich sehr gut auf meine Bedürfnisse eingestellt, sie konnte erkennen, wann sie die Komplexität erhöhen und wann sie sich zurückhalten und einen strukturierteren Ansatz wählen sollte. Deepthi hat sich wirklich an mein Tempo angepasst und sichergestellt, dass ich die neuen Funktionen/Tools selbst nutzen konnte, indem sie sie mir zuerst zeigte und mich dann die Elemente selbst nachbauen ließ, was wirklich dazu beigetragen hat, die Schulung zu verankern. Ich könnte nicht zufriedener sein mit den Ergebnissen dieser Schulung und mit dem Niveau der Expertise von Deepthi!
Deepthi - Invest Northern Ireland
Kurs - IBM Cognos Analytics
Maschinelle Übersetzung
Praktische Übungen mit unseren Daten