In drei Tagen von 0 auf 100…

Kursart

Intensivseminar
Niveau

Anfänger

Unterrichtsstunden

24h
Dauer

3 Tage

In drei Tagen von 0 auf 100…

Data Mining - wahlweise mit R oder Python

Das dreitägige Training führt in die Grundlagen des Data Mining und in die Verwendung von einer der beiden defacto Data Science Sprachen R und Python ein. Das Training vermittelt nicht nur das theoretische Verständnis, sondern auch die praktische Anwendung für wichtige der im Data Mining eingesetzten Verfahren. Sie lernen grundlegende Schritte im Bereich Data Mining, um selbständig erste Data Mining Analysen durchzuführen.

Dieses Seminar kann wahlweise mit R oder Python gebucht werden. Klicken Sie für weitere Informationen zu den entsprechenden Seminaren entweder auf das Logo des Seminaranbieters oder direkt auf den Link "Webseite besuchen".

Hinweise zu diesem Kurs

Welche Ziele werden in diesem Kurs verfolgt?

Die Teilnehmer erhalten einen Überblick über R/Python und die Entwicklungsumgebung RStudio/Spyder und können erste Analysen im Data Mining umsetzen. Die Schulung zielt darauf, die Einstiegshürde für die Anwendung im Data Science zu nehmen, so dass die Teilnehmer überwiegend mit den eigenen Laptops und der Unterstützung des Trainers arbeiten, um das Erlernte direkt umzusetzen und anzuwenden. Ein selbstständiges Arbeiten als data scientist wird ermöglicht, indem grundlegende Data Mining Konzepte und deren Umsetzung vermittelt werden. Möglichkeiten weitergehende Algorithmen und Methoden zu finden werden aufgezeigt, um das Erlernte nach dem Seminar durch stetige Anwendung zu erweitern. Ein Überblick über bekannte Algorithmen im Machine Learning wird gegeben und die Teilnehmer können die verschiedenen Algorithmen voneinander differenzieren und benutzen.

An wen richtet sich dieser Kurs?

Die Schulung richtet sich an Fach- und Führungskräfte, die einen Einstieg in die Programmierung des Data-Minings wünschen, um eigenständig an data science Projekten mitarbeiten zu können oder einen besseren Überblick über die Tätigkeit eines data scientist zu erhalten.

Voraussetzungen

Es wird keine Erfahrung mit R bzw. Python vorausgesetzt. Grundlegende Erfahrung mit einer Programmiersprache erleichtert den Einstieg. Ein Basiswissen von einfachen statistischen Begriffen wie Mittelwert, Median, Perzentil, lineare Regression ist hilfreich (beispielsweise durch ein Besuch des Basis-Seminars Grundlagen der Statistik).

Qualifikation

Schulungszertifikat mit den Seminarinhalten

Worin unterscheidet sich dieser Kurs von anderen?

In den konkreten Beispielen und praktischen Übungen, welche selbstständig mit Unterstützung des Trainers bearbeitet werden, werden die zugrundliegenden Konzepte mit dem Ziel vertieft, das selbständige Arbeiten im Bereich data science zu ermöglichen. Ein durchgehendes Datenbeispiel wird verwendet, um die wichtigsten Bibliotheken zu behandeln, welche in umfangreichen Übungen trainiert werden. Die Praxisbeispiele und Übungsaufgaben erfolgen entweder mit der Programmiersprache R oder mit Python. Hierfür sollte R mit der Entwicklungsumgebung Rstudio bzw. Python mit der Entwicklungsumgebung Spyder (Python Distribution Anaconda) auf dem eigenen mitgebrachten Laptop installiert sein.

Welche Schritte folgen nach der Informationsanfrage?

Sie erhalten innerhalb von 1-3 Werktagen die Information, wie Sie den gewünschten Kurs online auf der Webseite des Seminaranbieters www.statistik-seminare.de buchen können.

Fragen & Antworten

Ihre Frage hinzufügen

Unsere Berater und andere Nutzer werden Ihnen antworten können

Geben Sie Ihre Kontaktdaten ein, um eine Antwort zu erhalten

Ich akzeptiere die Datenschutzbestimmungen sowie die Nutzungsbedingungen.

Es werden nur Ihr Name und Ihre Frage veröffentlicht.

Emagister S.L. (Verantwortlicher) verarbeitet deine Daten, um Werbeaktionen (per E-Mail und/oder Telefon) durchzuführen, Bewertungen zu veröffentlichen oder Vorfälle zu bearbeiten. In der Datenschutzrichtlinie erfährst du mehr über deine Rechte und kannst dich abmelden.

Meinungen

Themen

Data Mining
R
RStudio
Python
Spyder
Deskriptive Statistik
Visualisierung
Supervised learning
Unsupervised learning
Reinforcement learning
Lineare Regression
Logistische Regression
Entscheidungsbäume
Random forest
Support Vector Machine
K-means
Kerndichteschätzer
Data science
Datamining
Machine Learning

Dozenten

Jan Köhler

Data Science

Technischer Projektleiter: Bosch Center for Artificial Intelligence Forschung an neuesten Technologien für Data Science, Machine Learning, Deep Learning mehrere wissenschaftliche Publikationen in internationalen Journals 2015: Harold W. Kuhn best paper award Hält neun Patente/Patentanmeldungen im Bereich Data Science/Machine Learning Zuvor Data Scientist in verschiedenen Stufen eines Data Mining Projekts (Beratung bis Implementierung mit R, Python, Matlab Seit 2012 Trainer für Data Science Master of Science in Statistik und Dipl.-Kfm. (technisch, Schwerpunkt: Operations Research)

Inhalte

Data Mining mit R:

Grundkenntnisse für Data Mining mit R
- Hintergrund zu R und RStudio
- Pakete installieren und laden
- Datenstrukturen in R
- Hilfe und weiterführende Informationen finden
- Wie unterscheidet sich R von anderen Programmiersprachen
Das data mining Paket data.table
- Struktur und Besonderheiten von data.table im Vergleich zum data.frame
- Ähnlichkeit eines data.tables zu SQL Abfragen
- Daten nach Zeilen und Spaltennamen abfragen
- Berechnungen direkt auf Spalten durchführen
- Abfragen gruppieren
Daten einlesen und konvertieren
- Das Arbeitsverzeichnis zum Einlesen von Daten setzen
- Daten aus verschiedenen Quellen einlesen (Websiten, txt, csv)
- Daten aus fremden Quellen einlesen (SPSS)
- fread(), um effizient große Datenmengen einzulesen
- Daten als .RData speichern und laden
- Abfragen aus einer Datenbank (SQLite)
Data handling (data.table)
- Eine Spalte erzeugen, löschen, ändern
- Zwischen Datentypen konvertieren
- lapply() und die Anwendung in einem data.table (mit .SD und .SDcols)
Visualisierung von Daten mit dem Paket ggplot2
- Grammar of Graphics und die grundlegende Idee dahinter
- Scatterplot, Linienplot
- Histogramm
- Kerndichteschätzer
- Barplot
- Speichern von Grafiken
- Darstellung (Größe der Datenpunkte, Farbe, Gruppierung) variable oder fest ändern
- Subplots erzeugen (Facetting)
Grundlegende Statistiken
- Deskriptive Statistiken
- Korrelationen (Spearman, Pearson)
- Zufallszahlen aus verschiedenen Verteilungen erzeugen
Fortgeschrittene Wege, ein data.table zu benutzen
- Der := Operator in data.table zum Umformen von Daten
- Eine Funktion auf eine Gruppe von Daten anwenden
- Daten aggregieren
- Filtern von Datensätzen anhand selbst gewählter Attribute
- Ersetzen von fehlenden Werten
- Umformung von data.table (pivotieren, reshape)
Control Flows
- Schreiben einer eigenen Funktion
- If und if-else
- For Schleifen
- While Schleife
Theoretischer Einblick in Algorithmen im Data Mining
- Überblick über die Einteilung von Algorithmen im Data Mining (supervised Learning – unsupervised learning – reinforcement learning)
- Erklärung von Machine Learning, Big Data, vier Vs im Big Data
- Erläuterung von wichtigen Algorithmen: Lineare Regression, Logistische Regression, Entscheidungsbäume, Random Forest, Support Vector Machine (SVM), K-means, Kerndichteschätzer
- Overfitten des Modells und Vermeidungsstrategien
- Validierung des Modells: Kreuzvalidierung, confusion matrix, ROC Kurve
Praktische Umsetzung der Algorithmen im Data Mining
- Einzelne Schritte beim Modellieren der Daten (Aufteilung in Test- und Train-Daten, Model erstellen, Model validieren)
- Praktische Umsetzung der behandelten Algorithmen in R
- Trainieren und Validieren von verschiedenen Algorithmen (Lineare Regression, Logistische Regression, Entscheidungsbäume, Random Forest, Support Vector Machine (SVM), K-means, Kerndichteschätzer)
- Auswertung der Modellgüte und plotten einer ROC Kurve
Abgeschlossenes Fallbeispiel zur Wiederholung des Erlernten

Daten einlesen und vorverarbeiten
Modellierung mit Machine Learning Algorithmen
Visualisierung der Ergebnisse

Data Mining mit Python:

Grundkenntnisse für Data Mining mit Python
- Pakete installieren und laden
- Hilfe und weiterführende Informationen finden
Einführung
- Datenstrukturen in Python (tuples, list, dictionaries, strings)
- Installieren von neuen Paketen
- Klassen, Funktionen
- Entwicklungsumgebungen (Spyder)
Datenverarbeitung
- Einführung in das Data Science Paket pandas
- Indexierung und Slicing eines DataFrames
- Erzeugen und Ändern von DataFrames
- Statistische Informationen über die Daten ableiten
- Umgang mit fehlenden Werten
- Datentypen konvertieren
Daten einlesen und grundlegende Statistiken
- Grundlegende, deskriptive Statistiken
- Kontingenztafeln erstellen
- Daten aus verschiedenen Formaten (csv, xlsx, txt) einlesen und schreiben
- Daten in das binäre Python Format pickle schreiben und lesen
Visualisierung
- Grundlegende Visualisierungen (Scatterplot, Linienplot, Barplot, Histogram) mit dem Paket matplotlib
- Anpassung und Individualisierung von Grafiken
- Grafiken mit dem Paket pandas erzeugen
- Speichern von Grafiken
Algorithmen im Data Science
- Überblick über die Einteilung von Algorithmen im Machine Learning (Supervised Learning – unsupervised learning – reinforcement learning)
- Theoretischer Überblick über Machine Learning und wichtiger Algorithmen
- Lineare Regression
- Logistische Regression
- Entscheidungsbäume
- Random Forest
- Support Vector Machine (SVM)
- K-means
- Kerndichteschätzer
- Praktische Umsetzung von Machine Learning Algorithmen mit dem Paket scikit-learn
- Kreuzvalidierung, confusion matrix, ROC curve
- Trainieren und Validieren von Modellen
Fallbeispiel zur Wiederholung des Gelernten: Abgeschlossenes Projekt, indem die wichtigsten Schritte wiederholt werden können vom Daten Einlesen, Erarbeiten bis zur Modellierung und Visualisierung.

Verwandte Kategorien

Data Mining - wahlweise mit R oder Python

Fragen & Antworten

Meinungen

Themen

Inhalte

Fügen Sie ähnliche Kurse hinzu und vergleichen Sie sie, um eine bessere Auswahl zu treffen.