Praktische Statistik für Data Scientists
50+ essenzielle Konzepte mit R und Python
Peter Bruce, Andrew Bruce und Peter Gedeck
Diese Publikation zitieren
Peter Bruce, Andrew Bruce, Peter Gedeck, Praktische Statistik für Data Scientists (2021), O'Reilly Verlag, Heidelberg, ISBN: 9783960104674
14933
Accesses
Accesses
168
Quotes
Quotes
Beschreibung / Abstract
Statistische Konzepte aus der Perspektive von Data Scientists erläutert
Das Buch stellt die Verbindung zwischen nützlichen statistischen Prinzipien und der heutigen Datenanalyse-Praxis her
Ermöglicht Data Scientists, ihr Wissen über Statistik auf ein neues Level zu bringen
Übersetzung der 2. Auflage des US-Bestsellers mit Beispielen in Python und R
Statistische Methoden sind ein zentraler Bestandteil der Arbeit mit Daten, doch nur wenige Data Scientists haben eine formale statistische Ausbildung. In Kursen und Büchern über die Grundlagen der Statistik wird das Thema aber selten aus der Sicht von Data Scientists behandelt. Viele stellen daher fest, dass ihnen eine tiefere statistische Perspektive auf ihre Daten fehlt.Dieses praxisorientierte Handbuch mit zahlreichen Beispielen in Python und R erklärt Ihnen, wie Sie verschiedene statistische Methoden speziell in den Datenwissenschaften anwenden. Es zeigt Ihnen auch, wie Sie den falschen Gebrauch von statistischen Methoden vermeiden können, und gibt Ratschläge, welche statistischen Konzepte für die Datenwissenschaften besonders relevant sind. Wenn Sie mit R oder Python vertraut sind, ermöglicht diese zugängliche, gut lesbare Referenz es Ihnen, Ihr statistisches Wissen für die Praxis deutlich auszubauen.
Das Buch stellt die Verbindung zwischen nützlichen statistischen Prinzipien und der heutigen Datenanalyse-Praxis her
Ermöglicht Data Scientists, ihr Wissen über Statistik auf ein neues Level zu bringen
Übersetzung der 2. Auflage des US-Bestsellers mit Beispielen in Python und R
Statistische Methoden sind ein zentraler Bestandteil der Arbeit mit Daten, doch nur wenige Data Scientists haben eine formale statistische Ausbildung. In Kursen und Büchern über die Grundlagen der Statistik wird das Thema aber selten aus der Sicht von Data Scientists behandelt. Viele stellen daher fest, dass ihnen eine tiefere statistische Perspektive auf ihre Daten fehlt.Dieses praxisorientierte Handbuch mit zahlreichen Beispielen in Python und R erklärt Ihnen, wie Sie verschiedene statistische Methoden speziell in den Datenwissenschaften anwenden. Es zeigt Ihnen auch, wie Sie den falschen Gebrauch von statistischen Methoden vermeiden können, und gibt Ratschläge, welche statistischen Konzepte für die Datenwissenschaften besonders relevant sind. Wenn Sie mit R oder Python vertraut sind, ermöglicht diese zugängliche, gut lesbare Referenz es Ihnen, Ihr statistisches Wissen für die Praxis deutlich auszubauen.
Beschreibung
Peter Bruce ist Gründer des Institute for Statistics Education bei Statistics.com.
Andrew Bruce ist Principal Research Scientist bei Amazon und verfügt über mehr als 30 Jahre Erfahrung in Statistik und Data Science.
Peter Gedeck ist Senior Data Scientist bei Collaborative Drug Discovery, er entwickelt Machine-Learning-Algorithmen für die Vorhersage von Eigenschaften von Arzneimittelkandidaten.
Andrew Bruce ist Principal Research Scientist bei Amazon und verfügt über mehr als 30 Jahre Erfahrung in Statistik und Data Science.
Peter Gedeck ist Senior Data Scientist bei Collaborative Drug Discovery, er entwickelt Machine-Learning-Algorithmen für die Vorhersage von Eigenschaften von Arzneimittelkandidaten.
Inhaltsverzeichnis
- BEGINN
- Inhalt
- Vorwort
- Kapitel 1: Explorative Datenanalyse
- Strukturierte Datentypen
- Tabellarische Daten
- Lagemaße
- Streuungsmaße
- Exploration der Datenverteilung
- Binäre und kategoriale Daten untersuchen
- Korrelation
- Zwei oder mehr Variablen untersuchen
- Zusammenfassung
- Kapitel 2: Daten- und Stichprobenverteilungen
- Zufallsstichprobenziehung und Stichprobenverzerrung
- Auswahlverzerrung
- Stichprobenverteilung einer statistischen Größe
- Bootstrap-Verfahren
- Konfidenzintervalle
- Normalverteilung
- Verteilungen mit langen Verteilungsenden
- Studentsche t-Verteilung
- Binomialverteilung
- Chi-Quadrat-Verteilung
- F-Verteilung
- Poisson- und verwandte Verteilungen
- Zusammenfassung
- Kapitel 3: Statistische Versuche und Signifikanztests
- A/B-Test
- Hypothesentests
- Resampling
- Statistische Signifikanz und p-Werte
- t-Tests
- Testen mehrerer Hypothesen
- Die Anzahl der Freiheitsgrade
- Varianzanalyse (ANOVA)
- Chi-Quadrat-Test
- Mehrarmige Banditen
- Trennschärfe und Stichprobengröße
- Zusammenfassung
- Kapitel 4: Regression und Vorhersage
- Lineare Einfachregression
- Multiple lineare Regression
- Vorhersage mittels Regression
- Regression mit Faktorvariablen
- Interpretieren der Regressionsgleichung
- Regressionsdiagnostik
- Polynomiale und Spline-Regression
- Zusammenfassung
- Kapitel 5: Klassifikation
- Naiver Bayes-Klassifikator
- Diskriminanzanalyse
- Logistische Regression
- Klassifikationsmodelle bewerten
- Strategien bei unausgewogenen Daten
- Zusammenfassung
- Kapitel 6: Statistisches maschinelles Lernen
- K-Nächste-Nachbarn
- Baummodelle
- Bagging und Random Forests
- Boosting
- Zusammenfassung
- Kapitel 7: Unüberwachtes Lernen
- Hauptkomponentenanalyse
- K-Means-Clustering
- Hierarchische Clusteranalyse
- Modellbasierte Clusteranalyse
- Skalierung und kategoriale Variablen
- Zusammenfassung
- Quellenangaben
- Index