Rule of Sturges Erklärung, Anwendungen und Beispiele
Die Sturges-Regel ist ein Kriterium, das verwendet wird, um die Anzahl von Klassen oder Intervallen zu bestimmen, die notwendig sind, um einen Satz von statistischen Daten graphisch darzustellen. Diese Regel wurde 1926 vom deutschen Mathematiker Herbert Sturges verkündet.
Sturges schlug eine einfache Methode vor, die auf der Anzahl der Samples basiert, die es ermöglichen würden, die Anzahl der Klassen und ihre Reichweitenamplitude zu finden. Die Sturges-Regel wird insbesondere im Bereich der Statistik häufig verwendet, insbesondere um Frequenzhistogramme zu erstellen.
Index
- 1 Erklärung
- 2 Anwendungen
- 3 Beispiel
- 4 Referenzen
Erklärung
Die Sturges-Regel ist eine empirische Methode, die in der deskriptiven Statistik weit verbreitet ist, um die Anzahl von Klassen zu bestimmen, die in einem Frequenzhistogramm existieren müssen, um eine Menge von Daten zu klassifizieren, die eine Stichprobe oder Population repräsentieren.
Grundsätzlich bestimmt diese Regel die Breite der Grafikcontainer, der Häufigkeitshistogramme.
Zur Herbeiführung seiner Regel betrachtete Herbert Sturges ein ideales Frequenzdiagramm, das aus K Intervallen besteht, wobei das i-te Intervall eine bestimmte Anzahl von Abtastwerten (i = 0, ... k - 1) enthält, dargestellt als:
Diese Anzahl von Stichproben ergibt sich aus der Anzahl der Möglichkeiten, wie eine Teilmenge einer Menge extrahiert werden kann; das heißt, durch den Binomialkoeffizienten ausgedrückt wie folgt:
Dann erzählte Sturges, dass sich das Frequenzhistogramm einer Normalverteilung annähert, wenn die Anzahl der Intervalle (k) gemäß dem zentralen Grenzwertsatz zunimmt. So, dass die Anzahl der Proben jedes der Intervalle berechnet werden kann:
Um den Ausdruck zu vereinfachen, verwendete er die Eigenschaften der Logarithmen in beiden Teilen der Gleichung:
So stellte Sturges fest, dass die optimale Anzahl von Intervallen k durch den Ausdruck gegeben ist:
Es kann auch ausgedrückt werden als:
In diesem Ausdruck:
- k ist die Anzahl der Klassen.
- N ist die Gesamtzahl der Beobachtungen in der Stichprobe.
- Log ist der gemeinsame Logarithmus der Basis 10.
Um beispielsweise ein Häufigkeitshistogramm zu erstellen, das eine zufällige Stichprobe der Höhe von 142 Kindern darstellt, lautet die Anzahl der Intervalle oder Klassen, die die Verteilung haben soll:
k = 1 + 3,322 * anmelden10 (N)
k = 1 + 3,322* log (142)
k = 1 + 3,322* 2,1523
k = 8.14 ÷ 8
Somit wird die Verteilung in 8 Intervallen erfolgen.
Die Anzahl der Intervalle sollte immer durch ganze Zahlen dargestellt werden. In Fällen, in denen der Wert dezimal ist, muss eine Annäherung an die nächste ganze Zahl vorgenommen werden.
Anwendungen
Die Sturges-Regel wird hauptsächlich in der Statistik angewandt, da sie die Häufigkeitsverteilung durch die Berechnung der Anzahl der Klassen (k) sowie die Länge jeder dieser Klassen, auch Amplitude genannt, erlaubt.
Die Amplitude ist die Differenz der Ober- und Untergrenze der Klasse geteilt durch die Anzahl der Klassen und wird ausgedrückt:
Es gibt viele empirische Regeln, die eine Häufigkeitsverteilung erlauben. Die Sturges-Regel wird jedoch häufig verwendet, weil sie die Anzahl der Klassen approximiert, die im Allgemeinen zwischen 5 und 15 liegt.
Betrachten Sie auf diese Weise einen Wert, der eine Stichprobe oder Population angemessen darstellt. Das heißt, die Approximation stellt keine extremen Gruppierungen dar, noch funktioniert sie mit einer übermäßigen Anzahl von Klassen, die eine Zusammenfassung der Stichprobe nicht erlauben.
Beispiel
Es ist notwendig, ein Frequenzhistogramm gemäß den gegebenen Daten durchzuführen, die dem Alter entsprechen, das in einer Umfrage von Männern erhalten wird, die in einem örtlichen Fitnessstudio trainieren.
Um die Intervalle zu bestimmen, müssen Sie wissen, wie groß die Stichprobe oder die Anzahl der Beobachtungen ist. In diesem Fall hast du 30.
Dann gilt die Sturges-Regel:
k = 1 + 3,322 * anmelden10 (N)
k = 1 + 3,322* log (30)
k = 1 + 3,322* 1,4771
k = 5,90 ÷ 6 Intervalle.
Aus der Anzahl der Intervalle können Sie die Amplitude berechnen, die diese haben werden; das heißt, die Breite jedes Balkens im Frequenzhistogramm:
Die untere Grenze gilt als der niedrigste Wert der Daten und die obere Grenze ist der höchste Wert. Der Unterschied zwischen der oberen und unteren Grenze wird als Bereich oder Weg der Variablen (R) bezeichnet.
Aus der Tabelle haben wir, dass die obere Grenze 46 und die untere Grenze 13 ist; auf diese Weise wird die Amplitude jeder Klasse sein:
Die Intervalle setzen sich aus einer oberen und unteren Grenze zusammen. Um diese Intervalle zu bestimmen, beginnen Sie, von der unteren Grenze aus zu zählen und addieren Sie dazu die Amplitude, die durch Regel (6) bestimmt wird, wie folgt:
Dann wird die absolute Häufigkeit berechnet, um die Anzahl der Männer zu bestimmen, die jedem Intervall entsprechen; in diesem Fall ist es:
- Intervall 1: 13 - 18 = 9
- Intervall 2: 19 - 24 = 9
- Intervall 3: 25 - 30 = 5
- Intervall 4: 31 - 36 = 2
- Intervall 5: 37 - 42 = 2
- Intervall 6: 43 - 48 = 3
Wenn die absolute Häufigkeit jeder Klasse hinzugefügt wird, muss sie der Gesamtanzahl der Stichprobe entsprechen. in diesem Fall 30.
Anschließend wird die relative Häufigkeit jedes Intervalls berechnet, wobei die absolute Häufigkeit dieses Intervalls durch die Gesamtzahl der Beobachtungen dividiert wird:
- Intervall 1: fi = 9 ÷ 30 = 0,30
- Intervall 2: fi = 9 ÷ 30 = 0,30
- Intervall 3: fi = 5 ÷ 30 = 0,1666
- Intervall 4: fi = 2 ÷ 30 = 0,0666
- Intervall 5: fi = 2 ÷ 30 = 0,0666
- Intervall 4: fi = 3 ÷ 30 = 0,10
Dann können Sie eine Tabelle erstellen, die die Daten und auch das Diagramm aus der relativen Häufigkeit in Bezug auf die erhaltenen Intervalle wiedergibt, wie in den folgenden Bildern zu sehen ist:
Auf diese Weise erlaubt die Sturges-Regel, die Anzahl der Klassen oder Intervalle zu bestimmen, in denen eine Probe geteilt werden kann, um eine Stichprobe von Daten durch die Erstellung von Tabellen und Graphen zusammenzufassen.
Referenzen
- Alfonso Urquía, M. V. (2013). Modellierung und Simulation von diskreten Ereignissen. UNED,.
- Altman Naomi, M. K. (2015). "Einfache lineare Regression." Nature Methods.
- Antúnez, R.J. (2014). Statistiken in der Bildung. Digitale UNID.
- Fox, J. (1997). Angewandte Regressionsanalyse, lineare Modelle und verwandte Methoden. SAGE-Veröffentlichungen.
- Humberto Llinás Solano, C. R. (2005). Deskriptive Statistiken und Wahrscheinlichkeitsverteilungen. Universität des Nordens.
- Panteleeva, O. V. (2005). Grundlagen der Wahrscheinlichkeit und Statistik.
- O. Kühl, M. O. (2001). Design of Experiments: Statistische Prinzipien der Design und Analyse von Forschung. Thomson Verlag.