In drei Tagen von 0 auf 100…
Dr. Haug Leuschner

Data Mining mit R (3tägig)

Dr. Haug Leuschner
In Stuttgart, Frankfurt am Main und München

1.550 
zzgl. MwSt.
Möchten Sie den Bildungsanbieter lieber direkt anrufen?
22165... Mehr ansehen

Wichtige informationen

Tipologie Intensivseminar
Niveau Anfänger
Ort An 3 Standorten
Unterrichtsstunden 24h
Dauer 3 Tage
Beginn 25.02.2019
weitere Termine
Beschreibung

Unter Data Mining wird die spezialisierte Anwendung bekannter statistischer Verfahren auf große Datenbestände (data warehouse) zur automatischen Generierung von Erkenntnissen über bestehende Datenbestände verstanden. Die im Data Mining eingesetzten multivariate Verfahren werden in Ihrer Analyse-Geschwindigkeit zu Ungunsten der Analyse-Genauigkeit angepasst, damit größere Datenmengen (big data) analysiert werden können. Die hierbei verwendeten Mining Verfahren und Mining Techniken (Ausreißererkennung, Clusteranalyse, Klassifikation, Assoziationsanalyse, Regressionsanalyse) finden vielfach auch Anwendung im Bereich des Machine Learning. In Abgrenzung zum Machine Learning geht es beim Data Mining jedoch um das Auffinden neuer Muster in bestehenden Datenbeständen, während es beim Machine Learning eher darum geht, bekannte Muster in neuen Datenbeständen zu finden. Die Inhalte dieses Seminars werden mit der statistischen Programmiersprache R vermittelt, die als eine der de-facto data science Programmiersprachen bereits mehr als zwei Millionen Nutzer und Nutzerinnen mit wachsender Tendenz hat. Aus diesem Grund bieten die meisten Anbieter von Software für data science bzw. predictive analytics Schnittstellen zu R an.

Das 1tägige Vorbereitungs-Training Data Mining mit R wiederholt Grundlagen und führt in die Verwendung des R-Pakets data.table ein. Die mit diesem R-Paket erzeugten data.table entsprechen weitestgehend dem in R üblichen data.frame, können jedoch größere Datenmengen aufnehmen, sind wesentlich performanter, verkürzen die Rechenzeiten und lassen sich schneller programmieren. Das 2tägige Haupttraining Data Mining mit R vermittelt das theoretische Verständnis und die praktische Anwendung für wichtige der im Data Mining eingesetzten Verfahren. Für die Visualisierung der Ergebnisse werden die Grundlagen des graphischen R-Pakets ggplot2 vermittelt.

Einrichtungen (3)
Wo und wann
Beginn Lage Uhrzeiten
11.Mär 2019
Frankfurt am Main
Platz der Einheit 1, 60327, Hessen, Deutschland
Karte ansehen
9:00 bis 17:00 Uhr
03.Jun 2019
München
Maximilianstraße 13, 80539, Bayern, Deutschland
Karte ansehen
9:00 bis 17:00 Uhr
25.Feb 2019
09.Sep 2019
25.Nov 2019
Stuttgart
Königsstraße 10c, 70173, Baden-Württemberg, Deutschland
Karte ansehen
9:00 bis 17:00 Uhr
Beginn 11.Mär 2019
Lage
Frankfurt am Main
Platz der Einheit 1, 60327, Hessen, Deutschland
Karte ansehen
Uhrzeiten 9:00 bis 17:00 Uhr
Beginn 03.Jun 2019
Lage
München
Maximilianstraße 13, 80539, Bayern, Deutschland
Karte ansehen
Uhrzeiten 9:00 bis 17:00 Uhr
Beginn 25.Feb 2019
09.Sep 2019
25.Nov 2019
Lage
Stuttgart
Königsstraße 10c, 70173, Baden-Württemberg, Deutschland
Karte ansehen
Uhrzeiten 9:00 bis 17:00 Uhr

Häufig gestellte Fragen

· Welche Ziele werden in diesem Kurs verfolgt?

Die Teilnehmer erhalten einen Überblick über R und die Entwicklungsumgebung RStudio und können erste Analysen mit R im Data Mining umsetzen. Die Schulung zielt darauf, die Einstiegshürde für die Anwendung von R im Data Science zu nehmen, indem die Teilnehmer überwiegend mit den eigenen Laptops und der Unterstützung des Trainers in R arbeiten, um das Erlernte direkt umzusetzen und anzuwenden. Ein selbstständiges Arbeiten als data scientist wird ermöglicht, indem die wesentlichen Konzepte von R vermittelt werden. Möglichkeiten weitergehende Algorithmen und Methoden zu finden werden aufgezeigt, um das Erlernte nach dem Seminar durch stetige Anwendung zu erweitern. Ein Überblick über bekannte Algorithmen im Machine Learning wird gegeben und die Teilnehmer können die verschiedenen Algorithmen voneinander differenzieren und in R benutzen.

· An wen richtet sich dieser Kurs?

zukünftige Data Scientists, welche eine Vertiefung in wichtige Machine Learning Algorithmen erhalten wollen oder welche die Syntax der Programmiersprache R kennenlernen wollen, um R-Skripte für Data-Mining-Analysen schreiben zu können

· Voraussetzungen

Grundlegende Kenntnisse in R werden nicht vorausgesetzt, sind jedoch hilfreich, Erfahrungen in einer anderen Programmiersprache sind sehr förderlich, um Konzepte wie Variable, Variablenzuweisung, Funktionsaufruf und den Unterschied zwischen Ganzzahl und Dezimalzahl bereits zu kennen. Ein Basiswissen von grundlegenden statistischen Begriffen wie Mittelwert, Median, Perzentil, Normalverteilung, lineare Regression ist sehr empfehlenswert, um den Inhalten besser folgen zu können.

· Qualifikation

Schulungszertifikat mit den Seminarinhalten

· Worin unterscheidet sich dieser Kurs von anderen?

In den konkreten Beispielen und praktischen Übungen, welche selbstständig mit Unterstützung des Trainers bearbeitet werden, werden die vorhandenen Kenntnisse über die Programmiersprache R dahingehend ausgebaut, dass eine praktische Umsetzung und ein selbständiges Arbeiten im Bereich data science ermöglicht wird. Ein durchgehendes Datenbeispiel wird verwendet, um die wichtigsten Bibliotheken zu behandeln, welche in umfangreichen Übungen trainiert werden. Die Praxisbeispiele und Übungsaufgaben erfolgen mit der statistischen Programmiersprache R und der Entwicklungsumgebung RStudio, die auf dem eigenen Laptop installiert sein sollten.

· Welche Schritte folgen nach der Informationsanfrage?

Sie erhalten innerhalb von 1-3 Werktagen die Information, wie Sie den gewünschten Kurs online auf der Webseite des Seminaranbieters www.statistik-seminare.de buchen können.

Meinungen

0.0
Nicht bewertet
Kursbewertung
100%
Empfehlung der User
4.8
ausgezeichnet
Anbieterbewertung

Meinungen über diesen Kurs

Zu diesem Kurs gibt es noch keine Meinungen
*Erhaltene Meinungen durch Emagister & iAgora

Was lernen Sie in diesem Kurs?

Data Mining
R
RStudio
Data.table
Ggplot2
Deskriptive Statistik
Visualisierung
Supervised learning
Unsupervised learning
Reinforcement learning)
Lineare Regression
Logistische Regression
Entscheidungsbäume
Random forest
Support Vector Machine
K-means
Kerndichteschätzer
Data science
Datamining
Machine Learning

Dozenten

Jan Köhler
Jan Köhler
Data Science

Themenkreis

Grundkenntnisse für Data Mining mit R:
  • Hintergrund zu R und RStudio
  • Pakete installieren und laden
  • Datenstrukturen in R
  • Hilfe und weiterführende Informationen finden
  • Wie unterscheidet sich R von anderen Programmiersprachen

Das data mining Paket data.table:
  • Struktur und Besonderheiten von data.table im Vergleich zum data.frame
  • Ähnlichkeit eines data.tables zu SQL Abfragen
  • Daten nach Zeilen und Spaltennamen abfragen
  • Berechnungen direkt auf Spalten durchführen
  • Abfragen gruppieren

Daten einlesen und konvertieren:
  • Das Arbeitsverzeichnis zum Einlesen von Daten setzen
  • Daten aus verschiedenen Quellen einlesen (Websiten, txt, csv)
  • Daten aus fremden Quellen einlesen (SPSS)
  • fread(), um effizient große Datenmengen einzulesen
  • Daten als .RData speichern und laden
  • Abfragen aus einer Datenbank (SQLite)

Data handling (data.table):
  • Eine Spalte erzeugen, löschen, ändern
  • Zwischen Datentypen konvertieren
  • lapply() und die Anwendung in einem data.table (mit .SD und .SDcols)

Visualisierung von Daten mit dem Paket ggplot2:
  • Grammar of Graphics und die grundlegende Idee dahinter
  • Scatterplot, Linienplot
  • Histogramm
  • Kerndichteschätzer
  • Barplot
  • Speichern von Grafiken
  • Darstellung (Größe der Datenpunkte, Farbe, Gruppierung) variable oder fest ändern
  • Subplots erzeugen (Facetting)

Grundlegende Statistiken:
  • Deskriptive Statistiken
  • Korrelationen (Spearman, Pearson)
  • Zufallszahlen aus verschiedenen Verteilungen erzeugen

Fortgeschrittene Wege, ein data.table zu benutzen:
  • Der := Operator in data.table zum Umformen von Daten
  • Eine Funktion auf eine Gruppe von Daten anwenden
  • Daten aggregieren
  • Filtern von Datensätzen anhand selbst gewählter Attribute
  • Ersetzen von fehlenden Werten

Control Flows:
  • Schreiben einer eigenen Funktion
  • If und if-else
  • For Schleifen
  • While Schleife

Überblick über Machine Learning:
  • Einführung in Machine Learning (Supervised – Unsupervised Learning. Overfitting, cross-validation)
  • Grundlegendes Konzept von den Algorithmen Support Vector Machine (SVM), Random Forest und K-means
  • Modelle der Algorithmen in R erstellen
  • Ergebnisse validieren

Detaillierte Umsetzung der Algorithmen Entscheidungsbaum und Logistische Regression:
  • Grundlagen des Algorithmus
  • Train-Test Split der Daten
  • Ein Model in R erstellen
  • Validieren der Ergebnisse (u.a. confusion matrix, sensitivity, accuracy)
  • Hyperparameter im Training
  • cross-validation

User, die sich für diesen Kurs interessiert haben, interessierten sich auch für...
Mehr ansehen