Kurs derzeit nicht verfügbar

Data Mining - wahlweise mit R oder Python

Seminar

In München ()

2.250 € zzgl. MwSt.

Beschreibung

  • Kursart

    Intensivseminar

  • Niveau

    Anfänger

  • Unterrichtsstunden

    24h

  • Dauer

    3 Tage

In drei Tagen von 0 auf 100…

Data Mining - wahlweise mit R oder Python

Das dreitägige Training führt in die Grundlagen des Data Mining und in die Verwendung von einer der beiden defacto Data Science Sprachen R und Python ein. Das Training vermittelt nicht nur das theoretische Verständnis, sondern auch die praktische Anwendung für wichtige der im Data Mining eingesetzten Verfahren. Sie lernen grundlegende Schritte im Bereich Data Mining, um selbständig erste Data Mining Analysen durchzuführen.

Dieses Seminar kann wahlweise mit R oder Python gebucht werden. Klicken Sie für weitere Informationen zu den entsprechenden Seminaren entweder auf das Logo des Seminaranbieters oder direkt auf den Link "Webseite besuchen".

Hinweise zu diesem Kurs

Die Teilnehmer erhalten einen Überblick über R/Python und die Entwicklungsumgebung RStudio/Spyder und können erste Analysen im Data Mining umsetzen. Die Schulung zielt darauf, die Einstiegshürde für die Anwendung im Data Science zu nehmen, so dass die Teilnehmer überwiegend mit den eigenen Laptops und der Unterstützung des Trainers arbeiten, um das Erlernte direkt umzusetzen und anzuwenden. Ein selbstständiges Arbeiten als data scientist wird ermöglicht, indem grundlegende Data Mining Konzepte und deren Umsetzung vermittelt werden. Möglichkeiten weitergehende Algorithmen und Methoden zu finden werden aufgezeigt, um das Erlernte nach dem Seminar durch stetige Anwendung zu erweitern. Ein Überblick über bekannte Algorithmen im Machine Learning wird gegeben und die Teilnehmer können die verschiedenen Algorithmen voneinander differenzieren und benutzen.

Die Schulung richtet sich an Fach- und Führungskräfte, die einen Einstieg in die Programmierung des Data-Minings wünschen, um eigenständig an data science Projekten mitarbeiten zu können oder einen besseren Überblick über die Tätigkeit eines data scientist zu erhalten.

Es wird keine Erfahrung mit R bzw. Python vorausgesetzt. Grundlegende Erfahrung mit einer Programmiersprache erleichtert den Einstieg. Ein Basiswissen von einfachen statistischen Begriffen wie Mittelwert, Median, Perzentil, lineare Regression ist hilfreich (beispielsweise durch ein Besuch des Basis-Seminars Grundlagen der Statistik).

Schulungszertifikat mit den Seminarinhalten

In den konkreten Beispielen und praktischen Übungen, welche selbstständig mit Unterstützung des Trainers bearbeitet werden, werden die zugrundliegenden Konzepte mit dem Ziel vertieft, das selbständige Arbeiten im Bereich data science zu ermöglichen. Ein durchgehendes Datenbeispiel wird verwendet, um die wichtigsten Bibliotheken zu behandeln, welche in umfangreichen Übungen trainiert werden. Die Praxisbeispiele und Übungsaufgaben erfolgen entweder mit der Programmiersprache R oder mit Python. Hierfür sollte R mit der Entwicklungsumgebung Rstudio bzw. Python mit der Entwicklungsumgebung Spyder (Python Distribution Anaconda) auf dem eigenen mitgebrachten Laptop installiert sein.

Sie erhalten innerhalb von 1-3 Werktagen die Information, wie Sie den gewünschten Kurs online auf der Webseite des Seminaranbieters www.statistik-seminare.de buchen können.

Fragen & Antworten

Teilen Sie Ihre Fragen und andere User können Ihnen antworten

Es werden nur Ihr Name und Ihre Frage veröffentlicht.

Themen

  • Data Mining
  • R
  • RStudio
  • Python
  • Spyder
  • Deskriptive Statistik
  • Visualisierung
  • Supervised learning
  • Unsupervised learning
  • Reinforcement learning)
  • Lineare Regression
  • Logistische Regression
  • Entscheidungsbäume
  • Random forest
  • Support Vector Machine
  • K-means
  • Kerndichteschätzer
  • Data science
  • Datamining
  • Machine Learning

Dozenten

Jan Köhler

Jan Köhler

Data Science

Technischer Projektleiter: Bosch Center for Artificial Intelligence Forschung an neuesten Technologien für Data Science, Machine Learning, Deep Learning mehrere wissenschaftliche Publikationen in internationalen Journals 2015: Harold W. Kuhn best paper award Hält neun Patente/Patentanmeldungen im Bereich Data Science/Machine Learning Zuvor Data Scientist in verschiedenen Stufen eines Data Mining Projekts (Beratung bis Implementierung mit R, Python, Matlab Seit 2012 Trainer für Data Science Master of Science in Statistik und Dipl.-Kfm. (technisch, Schwerpunkt: Operations Research)

Inhalte

Data Mining mit R:
  • Grundkenntnisse für Data Mining mit R
    • Hintergrund zu R und RStudio
    • Pakete installieren und laden
    • Datenstrukturen in R
    • Hilfe und weiterführende Informationen finden
    • Wie unterscheidet sich R von anderen Programmiersprachen
  • Das data mining Paket data.table
    • Struktur und Besonderheiten von data.table im Vergleich zum data.frame
    • Ähnlichkeit eines data.tables zu SQL Abfragen
    • Daten nach Zeilen und Spaltennamen abfragen
    • Berechnungen direkt auf Spalten durchführen
    • Abfragen gruppieren
  • Daten einlesen und konvertieren
    • Das Arbeitsverzeichnis zum Einlesen von Daten setzen
    • Daten aus verschiedenen Quellen einlesen (Websiten, txt, csv)
    • Daten aus fremden Quellen einlesen (SPSS)
    • fread(), um effizient große Datenmengen einzulesen
    • Daten als .RData speichern und laden
    • Abfragen aus einer Datenbank (SQLite)
  • Data handling (data.table)
    • Eine Spalte erzeugen, löschen, ändern
    • Zwischen Datentypen konvertieren
    • lapply() und die Anwendung in einem data.table (mit .SD und .SDcols)
  • Visualisierung von Daten mit dem Paket ggplot2
    • Grammar of Graphics und die grundlegende Idee dahinter
    • Scatterplot, Linienplot
    • Histogramm
    • Kerndichteschätzer
    • Barplot
    • Speichern von Grafiken
    • Darstellung (Größe der Datenpunkte, Farbe, Gruppierung) variable oder fest ändern
    • Subplots erzeugen (Facetting)
  • Grundlegende Statistiken
    • Deskriptive Statistiken
    • Korrelationen (Spearman, Pearson)
    • Zufallszahlen aus verschiedenen Verteilungen erzeugen
  • Fortgeschrittene Wege, ein data.table zu benutzen
    • Der := Operator in data.table zum Umformen von Daten
    • Eine Funktion auf eine Gruppe von Daten anwenden
    • Daten aggregieren
    • Filtern von Datensätzen anhand selbst gewählter Attribute
    • Ersetzen von fehlenden Werten
    • Umformung von data.table (pivotieren, reshape)
  • Control Flows
    • Schreiben einer eigenen Funktion
    • If und if-else
    • For Schleifen
    • While Schleife
  • Theoretischer Einblick in Algorithmen im Data Mining
    • Überblick über die Einteilung von Algorithmen im Data Mining (supervised Learning – unsupervised learning – reinforcement learning)
    • Erklärung von Machine Learning, Big Data, vier Vs im Big Data
    • Erläuterung von wichtigen Algorithmen: Lineare Regression, Logistische Regression, Entscheidungsbäume, Random Forest, Support Vector Machine (SVM), K-means, Kerndichteschätzer
    • Overfitten des Modells und Vermeidungsstrategien
    • Validierung des Modells: Kreuzvalidierung, confusion matrix, ROC Kurve
  • Praktische Umsetzung der Algorithmen im Data Mining
    • Einzelne Schritte beim Modellieren der Daten (Aufteilung in Test- und Train-Daten, Model erstellen, Model validieren)
    • Praktische Umsetzung der behandelten Algorithmen in R
    • Trainieren und Validieren von verschiedenen Algorithmen (Lineare Regression, Logistische Regression, Entscheidungsbäume, Random Forest, Support Vector Machine (SVM), K-means, Kerndichteschätzer)
    • Auswertung der Modellgüte und plotten einer ROC Kurve
  • Abgeschlossenes Fallbeispiel zur Wiederholung des Erlernten
    • Daten einlesen und vorverarbeiten
    • Modellierung mit Machine Learning Algorithmen
    • Visualisierung der Ergebnisse

Data Mining mit Python:

  • Grundkenntnisse für Data Mining mit Python
    • Pakete installieren und laden
    • Hilfe und weiterführende Informationen finden
  • Einführung
    • Datenstrukturen in Python (tuples, list, dictionaries, strings)
    • Installieren von neuen Paketen
    • Klassen, Funktionen
    • Entwicklungsumgebungen (Spyder)
  • Datenverarbeitung
    • Einführung in das Data Science Paket pandas
    • Indexierung und Slicing eines DataFrames
    • Erzeugen und Ändern von DataFrames
    • Statistische Informationen über die Daten ableiten
    • Umgang mit fehlenden Werten
    • Datentypen konvertieren
  • Daten einlesen und grundlegende Statistiken
    • Grundlegende, deskriptive Statistiken
    • Kontingenztafeln erstellen
    • Daten aus verschiedenen Formaten (csv, xlsx, txt) einlesen und schreiben
    • Daten in das binäre Python Format pickle schreiben und lesen
  • Visualisierung
    • Grundlegende Visualisierungen (Scatterplot, Linienplot, Barplot, Histogram) mit dem Paket matplotlib
    • Anpassung und Individualisierung von Grafiken
    • Grafiken mit dem Paket pandas erzeugen
    • Speichern von Grafiken
  • Algorithmen im Data Science
    • Überblick über die Einteilung von Algorithmen im Machine Learning (Supervised Learning – unsupervised learning – reinforcement learning)
    • Theoretischer Überblick über Machine Learning und wichtiger Algorithmen
    • Lineare Regression
    • Logistische Regression
    • Entscheidungsbäume
    • Random Forest
    • Support Vector Machine (SVM)
    • K-means
    • Kerndichteschätzer
    • Praktische Umsetzung von Machine Learning Algorithmen mit dem Paket scikit-learn
    • Kreuzvalidierung, confusion matrix, ROC curve
    • Trainieren und Validieren von Modellen
  • Fallbeispiel zur Wiederholung des Gelernten: Abgeschlossenes Projekt, indem die wichtigsten Schritte wiederholt werden können vom Daten Einlesen, Erarbeiten bis zur Modellierung und Visualisierung.

Data Mining - wahlweise mit R oder Python

2.250 € zzgl. MwSt.