Data Mining mit R (3tägig)
Seminar
In München
Beschreibung
-
Kursart
Intensivseminar
-
Niveau
Anfänger
-
Ort
München
-
Unterrichtsstunden
24h
-
Dauer
3 Tage
-
Beginn
Oktober
Unter Data Mining wird die spezialisierte Anwendung bekannter statistischer Verfahren auf große Datenbestände (data warehouse) zur automatischen Generierung von Erkenntnissen über bestehende Datenbestände verstanden. Die im Data Mining eingesetzten multivariate Verfahren werden in Ihrer Analyse-Geschwindigkeit zu Ungunsten der Analyse-Genauigkeit angepasst, damit größere Datenmengen (big data) analysiert werden können. Die hierbei verwendeten Mining Verfahren und Mining Techniken (Ausreißererkennung, Clusteranalyse, Klassifikation, Assoziationsanalyse, Regressionsanalyse) finden vielfach auch Anwendung im Bereich des Machine Learning. In Abgrenzung zum Machine Learning geht es beim Data Mining jedoch um das Auffinden neuer Muster in bestehenden Datenbeständen, während es beim Machine Learning eher darum geht, bekannte Muster in neuen Datenbeständen zu finden. Die Inhalte dieses Seminars werden mit der statistischen Programmiersprache R vermittelt, die als eine der de-facto data science Programmiersprachen bereits mehr als zwei Millionen Nutzer und Nutzerinnen mit wachsender Tendenz hat. Aus diesem Grund bieten die meisten Anbieter von Software für data science bzw. predictive analytics Schnittstellen zu R an.
Das 1tägige Vorbereitungs-Training Data Mining mit R wiederholt Grundlagen und führt in die Verwendung des R-Pakets data.table ein. Die mit diesem R-Paket erzeugten data.table entsprechen weitestgehend dem in R üblichen data.frame, können jedoch größere Datenmengen aufnehmen, sind wesentlich performanter, verkürzen die Rechenzeiten und lassen sich schneller programmieren. Das 2tägige Haupttraining Data Mining mit R vermittelt das theoretische Verständnis und die praktische Anwendung für wichtige der im Data Mining eingesetzten Verfahren. Für die Visualisierung der Ergebnisse werden die Grundlagen des graphischen R-Pakets ggplot2 vermittelt.
Standorte und Zeitplan
Lage
Beginn
Beginn
Hinweise zu diesem Kurs
Die Teilnehmer erhalten einen Überblick über R und die Entwicklungsumgebung RStudio und können erste Analysen mit R im Data Mining umsetzen. Die Schulung zielt darauf, die Einstiegshürde für die Anwendung von R im Data Science zu nehmen, indem die Teilnehmer überwiegend mit den eigenen Laptops und der Unterstützung des Trainers in R arbeiten, um das Erlernte direkt umzusetzen und anzuwenden. Ein selbstständiges Arbeiten als data scientist wird ermöglicht, indem die wesentlichen Konzepte von R vermittelt werden. Möglichkeiten weitergehende Algorithmen und Methoden zu finden werden aufgezeigt, um das Erlernte nach dem Seminar durch stetige Anwendung zu erweitern. Ein Überblick über bekannte Algorithmen im Machine Learning wird gegeben und die Teilnehmer können die verschiedenen Algorithmen voneinander differenzieren und in R benutzen.
zukünftige Data Scientists, welche eine Vertiefung in wichtige Machine Learning Algorithmen erhalten wollen oder welche die Syntax der Programmiersprache R kennenlernen wollen, um R-Skripte für Data-Mining-Analysen schreiben zu können
Grundlegende Kenntnisse in R werden nicht vorausgesetzt, sind jedoch hilfreich, Erfahrungen in einer anderen Programmiersprache sind sehr förderlich, um Konzepte wie Variable, Variablenzuweisung, Funktionsaufruf und den Unterschied zwischen Ganzzahl und Dezimalzahl bereits zu kennen. Ein Basiswissen von grundlegenden statistischen Begriffen wie Mittelwert, Median, Perzentil, Normalverteilung, lineare Regression ist sehr empfehlenswert, um den Inhalten besser folgen zu können.
Schulungszertifikat mit den Seminarinhalten
In den konkreten Beispielen und praktischen Übungen, welche selbstständig mit Unterstützung des Trainers bearbeitet werden, werden die vorhandenen Kenntnisse über die Programmiersprache R dahingehend ausgebaut, dass eine praktische Umsetzung und ein selbständiges Arbeiten im Bereich data science ermöglicht wird. Ein durchgehendes Datenbeispiel wird verwendet, um die wichtigsten Bibliotheken zu behandeln, welche in umfangreichen Übungen trainiert werden. Die Praxisbeispiele und Übungsaufgaben erfolgen mit der statistischen Programmiersprache R und der Entwicklungsumgebung RStudio, die auf dem eigenen Laptop installiert sein sollten.
Sie erhalten innerhalb von 1-3 Werktagen die Information, wie Sie den gewünschten Kurs online auf der Webseite des Seminaranbieters www.statistik-seminare.de buchen können.
Meinungen
Themen
- Datamining
- Visualisierung
- Data Mining
- Machine Learning
- Logistische Regression
- Entscheidungsbäume
- R
- Deskriptive Statistik
- Lineare Regression
- Data science
- RStudio
- Ggplot2
- Kerndichteschätzer
- Data.table
- Unsupervised learning
- Supervised learning
- Random forest
- K-means
- Support Vector Machine
- Reinforcement learning
Dozenten
Jan Köhler
Data Science
Technischer Projektleiter: Bosch Center for Artificial Intelligence Forschung an neuesten Technologien für Data Science, Machine Learning, Deep Learning mehrere wissenschaftliche Publikationen in internationalen Journals 2015: Harold W. Kuhn best paper award Hält neun Patente/Patentanmeldungen im Bereich Data Science/Machine Learning Zuvor Data Scientist in verschiedenen Stufen eines Data Mining Projekts (Beratung bis Implementierung mit R, Python, Matlab Seit 2012 Trainer für Data Science Master of Science in Statistik und Dipl.-Kfm. (technisch, Schwerpunkt: Operations Research)
Inhalte
- Hintergrund zu R und RStudio
- Pakete installieren und laden
- Datenstrukturen in R
- Hilfe und weiterführende Informationen finden
- Wie unterscheidet sich R von anderen Programmiersprachen
Das data mining Paket data.table:
- Struktur und Besonderheiten von data.table im Vergleich zum data.frame
- Ähnlichkeit eines data.tables zu SQL Abfragen
- Daten nach Zeilen und Spaltennamen abfragen
- Berechnungen direkt auf Spalten durchführen
- Abfragen gruppieren
Daten einlesen und konvertieren:
- Das Arbeitsverzeichnis zum Einlesen von Daten setzen
- Daten aus verschiedenen Quellen einlesen (Websiten, txt, csv)
- Daten aus fremden Quellen einlesen (SPSS)
- fread(), um effizient große Datenmengen einzulesen
- Daten als .RData speichern und laden
- Abfragen aus einer Datenbank (SQLite)
Data handling (data.table):
- Eine Spalte erzeugen, löschen, ändern
- Zwischen Datentypen konvertieren
- lapply() und die Anwendung in einem data.table (mit .SD und .SDcols)
Visualisierung von Daten mit dem Paket ggplot2:
- Grammar of Graphics und die grundlegende Idee dahinter
- Scatterplot, Linienplot
- Histogramm
- Kerndichteschätzer
- Barplot
- Speichern von Grafiken
- Darstellung (Größe der Datenpunkte, Farbe, Gruppierung) variable oder fest ändern
- Subplots erzeugen (Facetting)
Grundlegende Statistiken:
- Deskriptive Statistiken
- Korrelationen (Spearman, Pearson)
- Zufallszahlen aus verschiedenen Verteilungen erzeugen
Fortgeschrittene Wege, ein data.table zu benutzen:
- Der := Operator in data.table zum Umformen von Daten
- Eine Funktion auf eine Gruppe von Daten anwenden
- Daten aggregieren
- Filtern von Datensätzen anhand selbst gewählter Attribute
- Ersetzen von fehlenden Werten
Control Flows:
- Schreiben einer eigenen Funktion
- If und if-else
- For Schleifen
- While Schleife
Überblick über Machine Learning:
- Einführung in Machine Learning (Supervised – Unsupervised Learning. Overfitting, cross-validation)
- Grundlegendes Konzept von den Algorithmen Support Vector Machine (SVM), Random Forest und K-means
- Modelle der Algorithmen in R erstellen
- Ergebnisse validieren
Detaillierte Umsetzung der Algorithmen Entscheidungsbaum und Logistische Regression:
- Grundlagen des Algorithmus
- Train-Test Split der Daten
- Ein Model in R erstellen
- Validieren der Ergebnisse (u.a. confusion matrix, sensitivity, accuracy)
- Hyperparameter im Training
- cross-validation
Data Mining mit R (3tägig)