Data Mining mit R (3tägig)

Seminar

In München

1.550 € zzgl. MwSt.

Beschreibung

  • Kursart

    Intensivseminar

  • Niveau

    Anfänger

  • Ort

    München

  • Unterrichtsstunden

    24h

  • Dauer

    3 Tage

  • Beginn

    Oktober

Anfänger, Fortgeschrittene, Data-Science, R

Unter Data Mining wird die spezialisierte Anwendung bekannter statistischer Verfahren auf große Datenbestände (data warehouse) zur automatischen Generierung von Erkenntnissen über bestehende Datenbestände verstanden. Die im Data Mining eingesetzten multivariate Verfahren werden in Ihrer Analyse-Geschwindigkeit zu Ungunsten der Analyse-Genauigkeit angepasst, damit größere Datenmengen (big data) analysiert werden können. Die hierbei verwendeten Mining Verfahren und Mining Techniken (Ausreißererkennung, Clusteranalyse, Klassifikation, Assoziationsanalyse, Regressionsanalyse) finden vielfach auch Anwendung im Bereich des Machine Learning. In Abgrenzung zum Machine Learning geht es beim Data Mining jedoch um das Auffinden neuer Muster in bestehenden Datenbeständen, während es beim Machine Learning eher darum geht, bekannte Muster in neuen Datenbeständen zu finden. Die Inhalte dieses Seminars werden mit der statistischen Programmiersprache R vermittelt, die als eine der de-facto data science Programmiersprachen bereits mehr als zwei Millionen Nutzer und Nutzerinnen mit wachsender Tendenz hat. Aus diesem Grund bieten die meisten Anbieter von Software für data science bzw. predictive analytics Schnittstellen zu R an.

Das 1tägige Vorbereitungs-Training Data Mining mit R wiederholt Grundlagen und führt in die Verwendung des R-Pakets data.table ein. Die mit diesem R-Paket erzeugten data.table entsprechen weitestgehend dem in R üblichen data.frame, können jedoch größere Datenmengen aufnehmen, sind wesentlich performanter, verkürzen die Rechenzeiten und lassen sich schneller programmieren. Das 2tägige Haupttraining Data Mining mit R vermittelt das theoretische Verständnis und die praktische Anwendung für wichtige der im Data Mining eingesetzten Verfahren. Für die Visualisierung der Ergebnisse werden die Grundlagen des graphischen R-Pakets ggplot2 vermittelt.

Standorte und Zeitplan

Lage

Beginn

München (Bayern)
Karte ansehen
Maximilianstraße 13, 80539

Beginn

OktoberAnmeldung möglich

Hinweise zu diesem Kurs

Die Teilnehmer erhalten einen Überblick über R und die Entwicklungsumgebung RStudio und können erste Analysen mit R im Data Mining umsetzen. Die Schulung zielt darauf, die Einstiegshürde für die Anwendung von R im Data Science zu nehmen, indem die Teilnehmer überwiegend mit den eigenen Laptops und der Unterstützung des Trainers in R arbeiten, um das Erlernte direkt umzusetzen und anzuwenden. Ein selbstständiges Arbeiten als data scientist wird ermöglicht, indem die wesentlichen Konzepte von R vermittelt werden. Möglichkeiten weitergehende Algorithmen und Methoden zu finden werden aufgezeigt, um das Erlernte nach dem Seminar durch stetige Anwendung zu erweitern. Ein Überblick über bekannte Algorithmen im Machine Learning wird gegeben und die Teilnehmer können die verschiedenen Algorithmen voneinander differenzieren und in R benutzen.

zukünftige Data Scientists, welche eine Vertiefung in wichtige Machine Learning Algorithmen erhalten wollen oder welche die Syntax der Programmiersprache R kennenlernen wollen, um R-Skripte für Data-Mining-Analysen schreiben zu können

Grundlegende Kenntnisse in R werden nicht vorausgesetzt, sind jedoch hilfreich, Erfahrungen in einer anderen Programmiersprache sind sehr förderlich, um Konzepte wie Variable, Variablenzuweisung, Funktionsaufruf und den Unterschied zwischen Ganzzahl und Dezimalzahl bereits zu kennen. Ein Basiswissen von grundlegenden statistischen Begriffen wie Mittelwert, Median, Perzentil, Normalverteilung, lineare Regression ist sehr empfehlenswert, um den Inhalten besser folgen zu können.

Schulungszertifikat mit den Seminarinhalten

In den konkreten Beispielen und praktischen Übungen, welche selbstständig mit Unterstützung des Trainers bearbeitet werden, werden die vorhandenen Kenntnisse über die Programmiersprache R dahingehend ausgebaut, dass eine praktische Umsetzung und ein selbständiges Arbeiten im Bereich data science ermöglicht wird. Ein durchgehendes Datenbeispiel wird verwendet, um die wichtigsten Bibliotheken zu behandeln, welche in umfangreichen Übungen trainiert werden. Die Praxisbeispiele und Übungsaufgaben erfolgen mit der statistischen Programmiersprache R und der Entwicklungsumgebung RStudio, die auf dem eigenen Laptop installiert sein sollten.

Sie erhalten innerhalb von 1-3 Werktagen die Information, wie Sie den gewünschten Kurs online auf der Webseite des Seminaranbieters www.statistik-seminare.de buchen können.

Fragen & Antworten

Teilen Sie Ihre Fragen und andere User können Ihnen antworten

Wer möchten Sie Ihre Frage beantworten?

Es werden nur Ihr Name und Ihre Frage veröffentlicht.

Meinungen

Themen

  • Datamining
  • Visualisierung
  • Data Mining
  • Machine Learning
  • Logistische Regression
  • Entscheidungsbäume
  • R
  • Deskriptive Statistik
  • Lineare Regression
  • Data science
  • RStudio
  • Ggplot2
  • Kerndichteschätzer
  • Data.table
  • Unsupervised learning
  • Supervised learning
  • Random forest
  • K-means
  • Support Vector Machine
  • Reinforcement learning

Dozenten

Jan Köhler

Jan Köhler

Data Science

Technischer Projektleiter: Bosch Center for Artificial Intelligence Forschung an neuesten Technologien für Data Science, Machine Learning, Deep Learning mehrere wissenschaftliche Publikationen in internationalen Journals 2015: Harold W. Kuhn best paper award Hält neun Patente/Patentanmeldungen im Bereich Data Science/Machine Learning Zuvor Data Scientist in verschiedenen Stufen eines Data Mining Projekts (Beratung bis Implementierung mit R, Python, Matlab Seit 2012 Trainer für Data Science Master of Science in Statistik und Dipl.-Kfm. (technisch, Schwerpunkt: Operations Research)

Inhalte

Grundkenntnisse für Data Mining mit R:
  • Hintergrund zu R und RStudio
  • Pakete installieren und laden
  • Datenstrukturen in R
  • Hilfe und weiterführende Informationen finden
  • Wie unterscheidet sich R von anderen Programmiersprachen

Das data mining Paket data.table:
  • Struktur und Besonderheiten von data.table im Vergleich zum data.frame
  • Ähnlichkeit eines data.tables zu SQL Abfragen
  • Daten nach Zeilen und Spaltennamen abfragen
  • Berechnungen direkt auf Spalten durchführen
  • Abfragen gruppieren

Daten einlesen und konvertieren:
  • Das Arbeitsverzeichnis zum Einlesen von Daten setzen
  • Daten aus verschiedenen Quellen einlesen (Websiten, txt, csv)
  • Daten aus fremden Quellen einlesen (SPSS)
  • fread(), um effizient große Datenmengen einzulesen
  • Daten als .RData speichern und laden
  • Abfragen aus einer Datenbank (SQLite)

Data handling (data.table):
  • Eine Spalte erzeugen, löschen, ändern
  • Zwischen Datentypen konvertieren
  • lapply() und die Anwendung in einem data.table (mit .SD und .SDcols)

Visualisierung von Daten mit dem Paket ggplot2:
  • Grammar of Graphics und die grundlegende Idee dahinter
  • Scatterplot, Linienplot
  • Histogramm
  • Kerndichteschätzer
  • Barplot
  • Speichern von Grafiken
  • Darstellung (Größe der Datenpunkte, Farbe, Gruppierung) variable oder fest ändern
  • Subplots erzeugen (Facetting)

Grundlegende Statistiken:
  • Deskriptive Statistiken
  • Korrelationen (Spearman, Pearson)
  • Zufallszahlen aus verschiedenen Verteilungen erzeugen

Fortgeschrittene Wege, ein data.table zu benutzen:
  • Der := Operator in data.table zum Umformen von Daten
  • Eine Funktion auf eine Gruppe von Daten anwenden
  • Daten aggregieren
  • Filtern von Datensätzen anhand selbst gewählter Attribute
  • Ersetzen von fehlenden Werten

Control Flows:
  • Schreiben einer eigenen Funktion
  • If und if-else
  • For Schleifen
  • While Schleife

Überblick über Machine Learning:
  • Einführung in Machine Learning (Supervised – Unsupervised Learning. Overfitting, cross-validation)
  • Grundlegendes Konzept von den Algorithmen Support Vector Machine (SVM), Random Forest und K-means
  • Modelle der Algorithmen in R erstellen
  • Ergebnisse validieren

Detaillierte Umsetzung der Algorithmen Entscheidungsbaum und Logistische Regression:
  • Grundlagen des Algorithmus
  • Train-Test Split der Daten
  • Ein Model in R erstellen
  • Validieren der Ergebnisse (u.a. confusion matrix, sensitivity, accuracy)
  • Hyperparameter im Training
  • cross-validation

Data Mining mit R (3tägig)

1.550 € zzgl. MwSt.