Tabelle der Stichprobenverteilung der Punktesumme nach vier. Stichprobenschätzungen der Merkmale von Zufallsvariablen. §14. Empirische Verteilungsfunktion

Planen:

1. Probleme der mathematischen Statistik.

2. Arten von Proben.

3. Auswahlmethoden.

4. Statistische Verteilung der Stichprobe.

5. Empirische Verteilungsfunktion.

6. Polygon und Histogramm.

7. Numerische Merkmale der Variationsreihe.

8. Statistische Schätzungen von Verteilungsparametern.

9. Intervallschätzungen von Verteilungsparametern.

1. Probleme und Methoden der mathematischen Statistik

Mathe-Statistik ist ein Zweig der Mathematik, der sich mit Methoden zur Sammlung, Analyse und Verarbeitung der Ergebnisse statistischer Beobachtungsdaten für wissenschaftliche und praktische Zwecke befasst.

Es sei notwendig, eine Menge homogener Objekte im Hinblick auf ein qualitatives oder quantitatives Merkmal zu untersuchen, das diese Objekte charakterisiert. Wenn es sich beispielsweise um eine Charge von Teilen handelt, kann der Standard des Teils als qualitatives Zeichen und die kontrollierte Größe des Teils als quantitatives Zeichen dienen.

Manchmal wird eine komplette Studie durchgeführt, d.h. Jedes Objekt wird auf das erforderliche Merkmal untersucht. In der Praxis wird eine vollständige Befragung selten eingesetzt. Wenn die Bevölkerung beispielsweise sehr viele enthält große Nummer Objekte, dann ist es physikalisch unmöglich, eine umfassende Untersuchung durchzuführen. Wenn die Vermessung eines Objekts mit dessen Zerstörung verbunden ist oder einen hohen Materialaufwand erfordert, ist die Durchführung einer Vollvermessung nicht sinnvoll. In solchen Fällen wird eine begrenzte Anzahl von Objekten zufällig aus der Gesamtpopulation ausgewählt ( Stichprobenpopulation) und unterziehen sie einem Studium.

Die Hauptaufgabe der mathematischen Statistik besteht darin, die gesamte Bevölkerung anhand von Stichprobendaten zu untersuchen, je nach Ziel, d. h. Untersuchung der probabilistischen Eigenschaften einer Population: Verteilungsgesetz, numerische Merkmale usw. zur Adoption Managemententscheidungen unter Bedingungen der Unsicherheit.

2. Arten von Proben

Bevölkerung ist die Menge der Objekte, aus denen die Probe besteht.

Stichprobenpopulation (Stichprobe) ist eine Sammlung zufällig ausgewählter Objekte.

Bevölkerungszahl ist die Anzahl der Objekte in dieser Sammlung. Volumen Bevölkerung bezeichnet durch N, selektiv – n.

Beispiel:

Wenn von 1000 Teilen 100 Teile zur Untersuchung ausgewählt werden, ergibt sich das Volumen der Gesamtbevölkerung N = 1000 und Stichprobengröße n = 100.

Es gibt zwei Möglichkeiten, eine Stichprobe auszuwählen: Nachdem ein Objekt ausgewählt und beobachtet wurde, kann es an die Population zurückgegeben werden oder auch nicht. Das. Proben werden in wiederholte und nicht wiederholte Proben unterteilt.

Wiederholenangerufen Probe, bei dem das ausgewählte Objekt (vor der Auswahl des nächsten) an die Population zurückgegeben wird.

Wiederhollosangerufen Probe, bei dem das ausgewählte Objekt nicht an die Population zurückgegeben wird.

In der Praxis wird üblicherweise eine wiederhollose Zufallsstichprobe verwendet.

Um anhand von Stichprobendaten mit ausreichender Sicherheit ein Urteil über das Merkmal der interessierenden Grundgesamtheit treffen zu können, ist es erforderlich, dass die Stichprobenobjekte diese korrekt darstellen. Die Stichprobe muss die Anteile der Grundgesamtheit korrekt wiedergeben. Die Probe sollte sein Vertreter (Vertreter).

Durch Gesetzeskraft große Zahlen Man kann argumentieren, dass die Stichprobe repräsentativ ist, wenn sie randomisiert ist.

Wenn die Grundgesamtheit groß genug ist und die Stichprobe nur einen kleinen Teil dieser Grundgesamtheit ausmacht, entfällt die Unterscheidung zwischen wiederholten und nicht wiederholten Stichproben; Im Grenzfall, wenn eine unendliche Grundgesamtheit betrachtet wird und die Stichprobe eine endliche Größe hat, verschwindet dieser Unterschied.

Beispiel:

In der amerikanischen Fachzeitschrift Literary Review wurde eine Studie über Vorhersagen zum Ausgang mit statistischen Methoden durchgeführt bevorstehende Wahlen US-Präsident im Jahr 1936. Kandidaten für diesen Beitrag waren F.D. Roosevelt und A. M. Landon. Als Quelle für die Gesamtbevölkerung der untersuchten Amerikaner wurden Telefonverzeichnisse herangezogen. Aus ihnen nach dem Zufallsprinzip Es wurden 4 Millionen Adressen ausgewählt, an die die Redaktion des Magazins Postkarten schickte und sie aufforderte, ihre Haltung gegenüber den Präsidentschaftskandidaten zum Ausdruck zu bringen. Nach Auswertung der Umfrageergebnisse veröffentlichte das Magazin eine soziologische Prognose, dass Landon die bevorstehenden Wahlen mit großem Vorsprung gewinnen würde. Und... ich habe mich geirrt: Roosevelt hat gewonnen.
Dieses Beispiel kann als Beispiel für eine nicht repräsentative Stichprobe betrachtet werden. Tatsache ist, dass in den Vereinigten Staaten in der ersten Hälfte des 20. Jahrhunderts nur der wohlhabende Teil der Bevölkerung, der Landons Ansichten unterstützte, Telefone besaß.

3. Auswahlmethoden

In der Praxis werden sie verwendet verschiedene Wege Auswahl, die in zwei Typen unterteilt werden kann:

1. Die Auswahl erfordert keine Aufteilung der Bevölkerung in Teile (a) einfach zufällig, nicht repetitiv; B) einfache zufällige Wiederholung).

2. Selektion, bei der die Bevölkerung in Teile geteilt wird. (A) typische Auswahl; B) mechanische Auswahl; V) seriell Auswahl).

Einfach zufällig sie nennen das Auswahl, bei dem Objekte einzeln (zufällig) aus der gesamten Population extrahiert werden.

Typischangerufen Auswahl, bei dem Objekte nicht aus der gesamten Population, sondern aus jedem ihrer „typischen“ Teile ausgewählt werden. Wird beispielsweise ein Teil auf mehreren Maschinen gefertigt, erfolgt die Auswahl nicht aus dem gesamten Teilesatz aller Maschinen, sondern aus den Produkten jeder Maschine einzeln. Diese Auswahl wird verwendet, wenn das untersuchte Merkmal in verschiedenen „typischen“ Teilen der Allgemeinbevölkerung deutlich variiert.

Mechanischangerufen Auswahl, bei dem die Gesamtbevölkerung „mechanisch“ in so viele Gruppen aufgeteilt wird, wie es Objekte gibt, die in die Stichprobe aufgenommen werden sollen, und aus jeder Gruppe ein Objekt ausgewählt wird. Wenn Sie beispielsweise 20 % der von einer Maschine produzierten Teile auswählen müssen, wird jedes fünfte Teil ausgewählt. wenn Sie 5 % der Teile auswählen müssen – alle 20 usw. Manchmal gewährleistet eine solche Auswahl möglicherweise nicht die Repräsentativität der Probe (wenn jede 20. geschliffene Walze ausgewählt wird und der Fräser unmittelbar nach der Auswahl ausgetauscht wird, werden alle mit stumpfen Fräsern gedrehten Walzen ausgewählt).

Seriellangerufen Auswahl, bei dem Objekte aus der Gesamtbevölkerung nicht einzeln, sondern in „Serien“ ausgewählt und einer kontinuierlichen Befragung unterzogen werden. Wenn beispielsweise Produkte von einer großen Gruppe automatischer Maschinen hergestellt werden, werden die Produkte nur einiger weniger Maschinen einer umfassenden Prüfung unterzogen.

In der Praxis kommt häufig die kombinierte Selektion zum Einsatz, bei der die oben genannten Methoden kombiniert werden.

4. Statistische Verteilung der Stichprobe

Es sei eine Stichprobe aus der Gesamtbevölkerung entnommen und der Wert x 1–einmal beobachtet, x 2 -n 2 mal,... x k - n k mal. n= n 1 +n 2 +...+n k – Stichprobengröße. Beobachtete Wertewerden genannt Optionen, und die Reihenfolge der in aufsteigender Reihenfolge geschriebenen Optionen ist Variationsreihe. Anzahl der Beobachtungenwerden genannt Frequenzen (absolute Frequenzen) und ihre Beziehung zur Stichprobengröße- relative Häufigkeiten oder statistische Wahrscheinlichkeiten.

Wenn die Anzahl der Varianten groß ist oder die Stichprobe aus einer kontinuierlichen Grundgesamtheit stammt, dann Variationsreihe wird nicht aus einzelnen Punktwerten, sondern aus Werteintervallen in der Gesamtbevölkerung zusammengestellt. Eine solche Variationsreihe heißt Intervall. Die Längen der Intervalle müssen gleich sein.

Statistische Stichprobenverteilung eine Liste von Optionen und ihren entsprechenden Häufigkeiten oder relativen Häufigkeiten genannt.

Die statistische Verteilung kann auch als Folge von Intervallen und ihren entsprechenden Häufigkeiten (die Summe der Häufigkeiten, die in dieses Werteintervall fallen) angegeben werden.

Eine Punktvariationsreihe von Frequenzen kann durch eine Tabelle dargestellt werden:

x i
x 1
x 2

x k
n ich
n 1
Nr. 2

nk

Ebenso kann man sich eine Punktvariationsreihe relativer Häufigkeiten vorstellen.

Darüber hinaus:

Beispiel:

Die Anzahl der Buchstaben in einem bestimmten Text X betrug 1000. Der erste gefundene Buchstabe war der Buchstabe „i“, der zweite der Buchstabe „i“, der dritte der Buchstabe „a“, der vierte war „ Yu“. Dann kamen die Buchstaben „o“, „e“, „u“, „e“, „s“.

Schreiben wir die Stellen auf, die sie im Alphabet einnehmen, bzw. wir haben: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Nachdem wir diese Zahlen in aufsteigender Reihenfolge angeordnet haben, erhalten wir die Variationsreihe: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Häufigkeit des Auftretens von Buchstaben im Text: „a“ – 75, „e“ – 87, „i“ – 75, „o“ – 110, „u“ – 25, „s“ – 8, „e“ – 3 , „yu“ „- 7, „I“ – 22.

Erstellen wir eine Punktvariationsreihe von Frequenzen:

Beispiel:

Angegebene Häufigkeitsverteilung der Probenahme n = 20.

Erstellen Sie eine Punktvariationsreihe relativer Häufigkeiten.

x i

2

6

12

n ich

3

10

7

Lösung:

Finden wir die relativen Häufigkeiten:


x i

2

6

12

w ich

0,15

0,5

0,35

Beim Erstellen einer Intervallverteilung gibt es Regeln für die Auswahl der Anzahl der Intervalle oder der Größe jedes Intervalls. Das Kriterium hierbei ist das optimale Verhältnis: Mit zunehmender Anzahl der Intervalle verbessert sich die Repräsentativität, aber das Datenvolumen und die Zeit für deren Verarbeitung nehmen zu. Unterschied x max - x min zwischen dem größten und kleinsten Wert wird die Option aufgerufen Umfang Proben.

Um die Anzahl der Intervalle zu zählen k Typischerweise wird die empirische Sturgess-Formel verwendet (die eine Rundung auf die nächste passende ganze Zahl impliziert): k = 1 + 3,322 log n.

Dementsprechend ist die Größe jedes Intervalls H kann mit der Formel berechnet werden:

5. Empirische Verteilungsfunktion

Betrachten wir eine Stichprobe aus der Allgemeinbevölkerung. Die statistische Häufigkeitsverteilung des quantitativen Merkmals X sei bekannt. Führen wir die Notation ein: n x– die Anzahl der Beobachtungen, bei denen ein charakteristischer Wert kleiner als x beobachtet wurde; N Gesamtzahl Beobachtungen (Stichprobengröße). Relative Frequenz Ereignisse X<х равна nx/n. Wenn sich x ändert, ändert sich auch die relative Häufigkeit, d. h. relative Frequenzn x /n- Es gibt eine Funktion von x. Weil wird es empirisch gefunden, dann heißt es empirisch.

Empirische Verteilungsfunktion (Stichprobenverteilungsfunktion) Rufen Sie die Funktion auf, die für jedes x die relative Häufigkeit des Ereignisses X bestimmt<х.


wo ist die Anzahl der Optionen kleiner als x,

n – Stichprobengröße.

Im Gegensatz zur empirischen Verteilungsfunktion einer Stichprobe wird die Verteilungsfunktion F(x) der Grundgesamtheit genannt theoretische Verteilungsfunktion.

Der Unterschied zwischen empirischen und theoretischen Verteilungsfunktionen besteht darin, dass die theoretische Funktion F (x) die Wahrscheinlichkeit des Ereignisses X bestimmt F*(x) tendiert in der Wahrscheinlichkeit zur Wahrscheinlichkeit F (x) dieses Ereignisses. Das heißt, für große n F*(x) und F(x) unterscheiden sich kaum voneinander.

Das. Es empfiehlt sich, die empirische Verteilungsfunktion der Stichprobe zu nutzen, um die theoretische (integrale) Verteilungsfunktion der Gesamtbevölkerung anzunähern.

F*(x) hat alle Eigenschaften F(x).

1. Werte F*(x) gehören zum Intervall.

2. F*(x) ist eine nicht abnehmende Funktion.

3. Wenn die kleinste Option ist, dann ist F*(x) = 0 für x < x 1 ; Wenn x k die größte Option ist, dann ist F*(x) = 1, für x > x k.

Diese. F*(x) dient der Schätzung von F(x).

Wenn die Stichprobe durch eine Variationsreihe gegeben ist, hat die empirische Funktion die Form:

Der Graph einer empirischen Funktion wird als Kumulat bezeichnet.

Beispiel:

Zeichnen Sie eine empirische Funktion aus der gegebenen Stichprobenverteilung.


Lösung:

Stichprobengröße n = 12 + 18 + 30 = 60. Die kleinste Option ist 2, d. h. bei x < 2. Ereignis X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0,2 um 2 < X < 6. Ereignis X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < X < 10. Weil x=10 ist also die größte Option F*(x) = 1 bei x>10. Die gewünschte empirische Funktion hat die Form:

Kumuliert:


Mit Cumulate ist es möglich, grafisch dargestellte Informationen zu verstehen und beispielsweise die Fragen zu beantworten: „Bestimmen Sie die Anzahl der Beobachtungen, bei denen der Wert des Attributs kleiner als 6 oder nicht kleiner als 6 war. F*(6) =0,2.“ „Dann beträgt die Anzahl der Beobachtungen, bei denen der Wert des beobachteten Merkmals kleiner als 6 war, 0,2* N = 0,2*60 = 12. Die Anzahl der Beobachtungen, bei denen der Wert des beobachteten Merkmals mindestens 6 betrug, ist gleich (1-0,2)* n = 0,8*60 = 48.

Wenn eine Intervallvariationsreihe gegeben ist, werden zur Erstellung der empirischen Verteilungsfunktion die Mittelpunkte der Intervalle ermittelt und daraus die empirische Verteilungsfunktion ähnlich wie bei der Punktvariationsreihe ermittelt.

6. Polygon und Histogramm

Aus Gründen der Übersichtlichkeit werden verschiedene statistische Verteilungsdiagramme erstellt: Polynom- und Histogramme

Frequenzbereich - Dies ist eine gestrichelte Linie, deren Segmente die Punkte ( x 1 ; n 1 ), ( x 2 ; n 2 ),…, ( x k ; n k ) verbinden, wobei die Optionen und die entsprechenden Frequenzen sind.

Relatives Häufigkeitspolygon - Dies ist eine gestrichelte Linie, deren Segmente die Punkte ( x 1 ; w 1 ), ( x 2 ; w 2 ),…, ( x k ; w k ) verbinden, wobei x i die Optionen sind, w i die entsprechenden relativen Häufigkeiten sind ihnen.

Beispiel:

Konstruieren Sie ein Polynom relativer Häufigkeiten aus der gegebenen Stichprobenverteilung:

Lösung:

Bei einem kontinuierlichen Merkmal empfiehlt es sich, ein Histogramm zu erstellen, bei dem das Intervall, in dem alle beobachteten Werte des Merkmals enthalten sind, in mehrere Teilintervalle der Länge h unterteilt wird und für jedes Teilintervall n i ermittelt wird - die Summe der Häufigkeiten der Varianten, die in das i-te Intervall fallen. (Beim Messen der Größe oder des Gewichts einer Person handelt es sich beispielsweise um ein kontinuierliches Attribut.)

Häufigkeitshistogramm- Dabei handelt es sich um eine Stufenfigur bestehend aus Rechtecken, deren Grundflächen Teilintervalle der Länge h sind und deren Höhen dem Verhältnis (Häufigkeitsdichte) entsprechen.

Quadrat Das i-te Teilrechteck ist gleich der Summe der Häufigkeiten der i-ten Intervallvariante, d.h. Die Fläche des Häufigkeitshistogramms ist gleich der Summe aller Häufigkeiten, d.h. Stichprobengröße.

Beispiel:

Angegeben sind die Ergebnisse von Spannungsänderungen (in Volt) im Stromnetz. Erstellen Sie eine Variationsreihe, erstellen Sie ein Polygon und ein Frequenzhistogramm, wenn die Spannungswerte wie folgt sind: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220, 216, 220, 225, 212, 217, 220.

Lösung:

Lassen Sie uns eine Variationsserie erstellen. Wir haben n = 20, x min =212, x max =232.

Wenden wir die Sturgess-Formel an, um die Anzahl der Intervalle zu berechnen.

Die Intervallvariationsreihe der Frequenzen hat die Form:


Frequenzdichte

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Lassen Sie uns ein Häufigkeitshistogramm erstellen:

Konstruieren wir ein Häufigkeitspolygon, indem wir zunächst die Mittelpunkte der Intervalle ermitteln:


Histogramm der relativen Häufigkeit eine Stufenfigur genannt, die aus Rechtecken besteht, deren Grundflächen Teilintervalle der Länge h sind und deren Höhen dem Verhältnis w entsprechen ich/h (relative Frequenzdichte).

Quadrat Das i-te Teilrechteck ist gleich der relativen Häufigkeit der Varianten, die in das i-te Intervall fallen. Diese. die Fläche des Histogramms der relativen Häufigkeiten ist gleich der Summe aller relativen Häufigkeiten, d.h. Einheit.

7. Numerische Merkmale der Variationsreihe

Betrachten wir die Hauptmerkmale der Gesamt- und Stichprobenpopulationen.

Allgemeine Sekundär nennt man das arithmetische Mittel der Kennwerte der Gesamtbevölkerung.

Für verschiedene Werte x 1, x 2, x 3, ..., x n. Charakteristisch für die Gesamtbevölkerung des Volumens N ist:

Wenn die charakteristischen Werte entsprechende Häufigkeiten haben N 1 +N 2 +…+N k =N, dann


Stichprobenmittelwert nennt man das arithmetische Mittel der charakteristischen Werte der Stichprobenpopulation.

Wenn die charakteristischen Werte entsprechende Häufigkeiten haben n 1 +n 2 +…+n k = n, dann


Beispiel:

Berechnen Sie den Stichprobenmittelwert für die Stichprobe: x 1 = 51,12; x 2 = 51,07; x 3 = 52,95; x 4 = 52,93; x 5 = 51,1; x 6 = 52,98; x 7 = 52,29; x 8 = 51,23; x 9 = 51,07; x 10 = 51,04.

Lösung:

Allgemeine Varianz heißt das arithmetische Mittel der quadrierten Abweichungen der Werte des Merkmals X der Gesamtbevölkerung vom Gesamtmittelwert.

Für verschiedene Werte x 1 , x 2 , x 3 , ..., x N der Charakteristik der Gesamtbevölkerung des Volumens N haben wir:

Wenn die charakteristischen Werte entsprechende Häufigkeiten haben N 1 +N 2 +…+N k =N, dann

Allgemeine Standardabweichung (Standard) wird als Quadratwurzel der allgemeinen Varianz bezeichnet

Stichprobenvarianz nennt man das arithmetische Mittel der quadrierten Abweichungen der beobachteten Werte eines Merkmals vom Mittelwert.

Für verschiedene Werte x 1 , x 2 , x 3 , ..., x n des Stichprobenpopulationsmerkmals des Volumens n haben wir:


Wenn die charakteristischen Werte entsprechende Häufigkeiten haben n 1 +n 2 +…+n k = n, dann


Stichprobenstandardabweichung (Standard) wird als Quadratwurzel der Stichprobenvarianz bezeichnet.


Beispiel:

Die Stichprobenpopulation wird durch die Verteilungstabelle angegeben. Finden Sie die Stichprobenvarianz.


Lösung:

Satz: Die Varianz ist gleich der Differenz zwischen den mittleren Quadraten der Attributwerte und dem Quadrat des Gesamtmittelwerts.

Beispiel:

Finden Sie die Varianz dieser Verteilung.



Lösung:

8. Statistische Schätzungen von Verteilungsparametern

Lassen Sie die Allgemeinbevölkerung anhand einer bestimmten Stichprobe untersuchen. In diesem Fall ist es möglich, nur einen Näherungswert des unbekannten Parameters Q zu erhalten, der als dessen Schätzung dient. Offensichtlich können die Schätzungen von Stichprobe zu Stichprobe unterschiedlich sein.

Statistische AuswertungQ* Der unbekannte Parameter der theoretischen Verteilung wird abhängig von den beobachteten Stichprobenwerten als Funktion f bezeichnet. Die Aufgabe der statistischen Schätzung unbekannter Parameter aus einer Stichprobe besteht darin, aus den verfügbaren statistischen Beobachtungsdaten eine Funktion zu konstruieren, die die genauesten Näherungswerte der realen, dem Forscher unbekannten Werte dieser Parameter liefert.

Statistische Schätzungen werden je nach Art ihrer Darstellung (Zahl oder Intervall) in Punkt und Intervall unterteilt.

Ein Punkt ist eine statistische Schätzung Parameter Q der theoretischen Verteilung, bestimmt durch einen Wert des Parameters Q *=f (x 1, x 2, ..., x n), wobeix 1, x 2, ..., x n- die Ergebnisse empirischer Beobachtungen zum quantitativen Merkmal X einer bestimmten Probe.

Solche aus verschiedenen Stichproben gewonnenen Parameterschätzungen weichen meist voneinander ab. Die absolute Differenz heißt /Q*-Q/ Stichprobenfehler (Schätzfehler).

Damit statistische Schätzungen zuverlässige Ergebnisse zu den geschätzten Parametern liefern können, müssen sie unvoreingenommen, effizient und konsistent sein.

Punktschätzung, dessen mathematischer Erwartungswert gleich (ungleich) dem geschätzten Parameter ist, heißt unverdrängt (verdrängt). M(Q *)=Q .

Differenz M( Q *)-Q heißt Voreingenommenheit oder systematischer Fehler. Für unvoreingenommene Schätzungen beträgt der Bias 0.

Wirksam Bewertung Q *, das für eine gegebene Stichprobengröße n die kleinstmögliche Varianz aufweist: D min(n = const). Der effektive Schätzer weist im Vergleich zu anderen erwartungstreuen und konsistenten Schätzern die geringste Varianz auf.

ReichNennen Sie das statistisch Bewertung Q *, was für ntendiert in der Wahrscheinlichkeit zum geschätzten Parameter Q , d.h. mit zunehmender Stichprobengröße N Die Wahrscheinlichkeit der Schätzung tendiert zum wahren Wert des Parameters Q.

Das Konsistenzgebot steht im Einklang mit dem Gesetz der großen Zahlen: Je mehr Ausgangsinformationen über das Untersuchungsobjekt vorliegen, desto genauer ist das Ergebnis. Wenn die Stichprobengröße klein ist, kann die Punktschätzung des Parameters zu schwerwiegenden Fehlern führen.

ich liebe es Probe (VolumenN) kann als geordnete Menge betrachtet werdenx 1, x 2, ..., x n unabhängige identisch verteilte Zufallsvariablen.

Stichprobenmittel für unterschiedliche Stichprobengrößen N aus derselben Population werden unterschiedlich sein. Das heißt, der Stichprobendurchschnitt kann als Zufallsvariable betrachtet werden, was bedeutet, dass wir über die Verteilung des Stichprobendurchschnitts und seine numerischen Eigenschaften sprechen können.

Der Stichprobendurchschnitt erfüllt alle Anforderungen an statistische Schätzungen, d. h. liefert eine unvoreingenommene, effiziente und konsistente Schätzung des allgemeinen Mittelwerts.

Das lässt sich beweisen. Somit ist die Stichprobenvarianz eine verzerrte Schätzung der Populationsvarianz, die diese unterschätzt. Das heißt, dass es bei einer kleinen Stichprobengröße zu einem systematischen Fehler kommt. Für eine unvoreingenommene, konsistente Schätzung reicht es aus, den Wert zu nehmen, die als korrigierte Varianz bezeichnet wird. Das ist

In der Praxis wird zur Schätzung der allgemeinen Varianz die korrigierte Varianz verwendet N < 30. In anderen Fällen ( n >30) Abweichung von kaum wahrnehmbar. Daher für große Werte N Der Offsetfehler kann vernachlässigt werden.

Es kann auch die relative Häufigkeit nachgewiesen werdenn i / n ist eine unvoreingenommene und konsistente Wahrscheinlichkeitsschätzung P (X =x i ). Empirische Verteilungsfunktion F*(x ) ist eine unverzerrte und konsistente Schätzung der theoretischen Verteilungsfunktion F(x)=P(X< x ).

Beispiel:

Finden Sie unverzerrte Schätzungen des erwarteten Werts und der Varianz anhand der Beispieltabelle.

x i
n ich

Lösung:

Stichprobengröße n =20.

Eine unvoreingenommene Schätzung der mathematischen Erwartung ist der Stichprobenmittelwert.


Um die unverzerrte Varianzschätzung zu berechnen, ermitteln wir zunächst die Stichprobenvarianz:

Lassen Sie uns nun die unvoreingenommene Schätzung finden:

9. Intervallschätzungen von Verteilungsparametern

Intervall ist eine statistische Schätzung, die durch zwei numerische Werte bestimmt wird – die Enden des untersuchten Intervalls.

Nummer> 0, für die | Q - Q *|< charakterisiert die Genauigkeit der Intervallschätzung.

Vertrauenswürdigeangerufen Intervall , was mit einer gegebenen Wahrscheinlichkeitdeckt unbekannten Parameterwert ab Q . Ergänzen eines Konfidenzintervalls zur Menge aller möglichen Werte eines Parameters Q angerufen Kritischen Bereich. Liegt der kritische Bereich nur auf einer Seite des Konfidenzintervalls, wird das Konfidenzintervall aufgerufen einseitig: linksseitig, wenn der kritische Bereich nur links existiert, und Rechtshändig wenn auch nur rechts. Andernfalls wird das Konfidenzintervall aufgerufen bilateral.

Zuverlässigkeit oder Vertrauensniveau, schätzt Q (unter Verwendung von Q *) ist die Wahrscheinlichkeit, mit der die folgende Ungleichung erfüllt ist: | Q - Q *|< .

Am häufigsten wird die Konfidenzwahrscheinlichkeit im Voraus festgelegt (0,95; 0,99; 0,999) und es wird die Anforderung gestellt, dass sie nahe bei eins liegt.

Wahrscheinlichkeitangerufen Fehlerwahrscheinlichkeit oder Signifikanzniveau.

Lass | Q - Q *|< , Dann. Das bedeutet mit WahrscheinlichkeitEs kann argumentiert werden, dass der wahre Wert des Parameters Q gehört zum Intervall. Je kleiner die Abweichung, desto genauer ist die Schätzung.

Die Grenzen (Enden) des Konfidenzintervalls werden genannt Vertrauensgrenzen oder kritische Grenzen.

Die Werte der Konfidenzintervallgrenzen hängen vom Verteilungsgesetz des Parameters ab Q*.

Abweichungswertgleich der halben Breite des Konfidenzintervalls heißt Beurteilungsgenauigkeit.

Methoden zur Konstruktion von Konfidenzintervallen wurden erstmals vom amerikanischen Statistiker Yu. Schätzgenauigkeit, Konfidenzwahrscheinlichkeit und Stichprobengröße n miteinander verbunden. Wenn Sie also die spezifischen Werte zweier Größen kennen, können Sie immer die dritte berechnen.

Finden eines Konfidenzintervalls zur Schätzung der mathematischen Erwartung einer Normalverteilung, wenn die Standardabweichung bekannt ist.

Nehmen wir eine Stichprobe aus einer allgemeinen Bevölkerung, die dem Gesetz der Normalverteilung unterliegt. Die allgemeine Standardabweichung sei bekannt, aber der mathematische Erwartungswert der theoretischen Verteilung ist unbekannt A ().

Die folgende Formel ist korrekt:

Diese. entsprechend einem vorgegebenen Abweichungswertkann ermittelt werden, mit welcher Wahrscheinlichkeit der unbekannte allgemeine Mittelwert zum Intervall gehört. Umgekehrt. Aus der Formel geht hervor, dass mit zunehmender Stichprobengröße und einem festen Wert der Konfidenzwahrscheinlichkeit der Wert steigt- nimmt ab, d.h. die Genauigkeit der Beurteilung steigt. Mit zunehmender Zuverlässigkeit (Konfidenzwahrscheinlichkeit) steigt der Wert-erhöht, d.h. die Genauigkeit der Beurteilung nimmt ab.

Beispiel:

Als Ergebnis der Tests wurden die folgenden Werte erhalten: -25, 34, -20, 10, 21. Es ist bekannt, dass sie dem Gesetz der Normalverteilung mit einer Standardabweichung von 2 gehorchen. Finden Sie die Schätzung a* für die mathematische Erwartung a. Konstruieren Sie dafür ein 90 %-Konfidenzintervall.

Lösung:

Lassen Sie uns eine unvoreingenommene Schätzung finden

Dann


Das Konfidenzintervall für a beträgt: 4 – 1,47< A< 4+ 1,47 или 2,53 < a < 5, 47

Finden eines Konfidenzintervalls zur Schätzung der mathematischen Erwartung einer Normalverteilung, wenn die Standardabweichung unbekannt ist.

Es sei bekannt, dass die allgemeine Bevölkerung dem Gesetz der Normalverteilung unterliegt, wobei a und. Genauigkeit des Konfidenzintervalls, das die Zuverlässigkeit abdecktDer wahre Wert des Parameters a wird in diesem Fall nach der Formel berechnet:

, wobei n die Stichprobengröße ist, , - Schülerkoeffizient (er sollte aus den angegebenen Werten ermittelt werden). n und aus der Tabelle „Kritische Punkte der Student-Verteilung“).

Beispiel:

Als Ergebnis der Tests wurden folgende Werte erhalten: -35, -32, -26, -35, -30, -17. Es ist bekannt, dass sie dem Gesetz der Normalverteilung gehorchen. Finden Sie das Konfidenzintervall für den mathematischen Erwartungswert a der Grundgesamtheit mit einer Konfidenzwahrscheinlichkeit von 0,9.

Lösung:

Lassen Sie uns eine unvoreingenommene Schätzung finden.

Wir werden finden.

Dann

Das Konfidenzintervall nimmt die Form an(-29,2 - 5,62; -29,2 + 5,62) oder (-34,82; -23,58).

Ermitteln des Konfidenzintervalls für die Varianz und Standardabweichung einer Normalverteilung

Nehmen wir eine Zufallsstichprobe des Volumens aus einer bestimmten allgemeinen Grundgesamtheit von Werten, die nach dem Normalgesetz verteilt sindN < 30, für die Stichprobenvarianzen berechnet werden: voreingenommenund korrigiert s 2. Anschließend gilt es, Intervallschätzungen mit einer gegebenen Zuverlässigkeit zu findenfür allgemeine VarianzDallgemeine StandardabweichungDie folgenden Formeln werden verwendet.


oder,

Werte- ermittelt anhand einer Tabelle kritischer PunktwertePearson-Verteilungen.

Das Konfidenzintervall für die Varianz wird aus diesen Ungleichungen ermittelt, indem alle Seiten der Ungleichung quadriert werden.

Beispiel:

Die Qualität von 15 Schrauben wurde überprüft. Unter der Annahme, dass der Fehler bei ihrer Herstellung dem Normalverteilungsgesetz und der Stichprobenstandardabweichung unterliegtgleich 5 mm, zuverlässig ermittelnKonfidenzintervall für einen unbekannten Parameter

Wir stellen die Grenzen des Intervalls in Form einer doppelten Ungleichung dar:

Die Enden des zweiseitigen Konfidenzintervalls für die Varianz können ohne arithmetische Operationen für ein bestimmtes Konfidenzniveau und eine bestimmte Stichprobengröße anhand der entsprechenden Tabelle bestimmt werden (Grenzen der Konfidenzintervalle für die Varianz in Abhängigkeit von der Anzahl der Freiheitsgrade und der Zuverlässigkeit). . Dazu werden die aus der Tabelle ermittelten Intervallenden mit der korrigierten Varianz s 2 multipliziert.

Beispiel:

Lassen Sie uns das vorherige Problem auf andere Weise lösen.

Lösung:

Finden wir die korrigierte Varianz:

Anhand der Tabelle „Grenzen der Konfidenzintervalle für die Streuung in Abhängigkeit von der Anzahl der Freiheitsgrade und der Zuverlässigkeit“ finden wir die Grenzen des Konfidenzintervalls für die Streuung beik=14 und: Untergrenze 0,513 und Obergrenze 2,354.

Lassen Sie uns die resultierenden Grenzen mit multiplizierens 2 und extrahieren Sie die Wurzel (da wir ein Konfidenzintervall nicht für die Varianz, sondern für die Standardabweichung benötigen).

Wie aus den Beispielen ersichtlich ist, hängt die Größe des Konfidenzintervalls von der Methode seiner Konstruktion ab und liefert ähnliche, aber unterschiedliche Ergebnisse.

Für ausreichend große Proben (N>30) können die Grenzen des Konfidenzintervalls für die allgemeine Standardabweichung durch die Formel bestimmt werden: - eine bestimmte Zahl, die tabellarisch aufgeführt und in der entsprechenden Referenztabelle angegeben ist.

Wenn 1- Q<1, то формула имеет вид:

Beispiel:

Lassen Sie uns das vorherige Problem auf die dritte Weise lösen.

Lösung:

Zuvor gefundenS= 5,17. Q(0,95; 15) = 0,46 – ermittelt aus der Tabelle.

Dann:

Verschiedene statistische Schätzungen einer Stichprobe sind Stichprobenschätzungen der entsprechenden Merkmale einer Zufallsvariablen.

Der Stichprobenmittelwert (bezeichnet als M oder ) ist eine Schätzung der mathematischen Erwartung und wird als arithmetisches Mittel aller Elemente der Stichprobe definiert:

M= .

Der Stichprobenmittelwert kann auch als Häufigkeit der verschiedenen Stichprobenelemente ausgedrückt werden:

M = p 1 x 1 + … + p n x n,

wobei nur unterschiedliche Werte in die Summation einbezogen werden x i.

Der Stichprobenmittelwert hat die Eigenschaft, dass die Summe der Abweichungen aller Beobachtungen von dieser Zahl gleich 0 ist, d. h. Beobachtungen, die über dem Mittelwert liegen, werden durch Beobachtungen ausgeglichen, deren Werte unter dem Mittelwert liegen.

Beispiel 5. Für eine Stichprobe bestehend aus 8 Werten: 1, 1, 3, 4, 8, 9, 10, 12 beträgt der Durchschnitt (1 + 1+ 3 + 4 + 8 + 9+10+ 12)/8 = 48/8 = 6 .

Eine wichtige Rolle bei der Analyse von Beziehungen zwischen Variablen spielt die Summe der quadrierten Abweichungen der Beobachtungen vom Mittelwert (bezeichnet als SS):

SS = (x 1 –M) 2 + …+ (x n – M) 2

In praktischen Berechnungen ist es praktisch, einen anderen Ausdruck für die Quadratsumme zu verwenden (erhalten aus dem Original durch identische Transformationen):

SS = (x 1 2 – 2M x 1 M 2) + … + (x n 2 - 2M x n M 2) = (x 1 2 + … + x n 2) – 2M (x 1 + … + x n) + nM 2 =

= (x 1 2 + … + x n 2) - nM 2.

Die Stichprobenvarianzschätzung (bezeichnet als S 2, σ 2) ist die Summe der quadratischen Abweichungen dividiert durch die Anzahl der Beobachtungen minus 1:

S 2 = .

Diese Varianzschätzung ist erwartungstreu (d. h. ihr Erwartungswert entspricht der wahren Varianz der Zufallsvariablen). Manchmal wird der Wert SS /p als Stichprobenschätzung der Varianz verwendet. Die Theorie der statistischen Schätzung beweist, dass diese Schätzung verzerrt ist, weshalb es vorzuziehen ist, die oben angegebene Schätzung zu verwenden. Verschiedene Computerdatenanalysesysteme, angefangen bei Taschenrechnern mit integrierten Statistikfunktionen, implementieren verschiedene Optionen zur Schätzung der Varianz – voreingenommen oder unvoreingenommen (in einigen Fällen beides), denen Aufmerksamkeit geschenkt werden sollte.

Die quadratische Mittelwertabweichung (Standardabweichung) des Mittelwerts (bezeichnet als S, σ) ist als Quadratwurzel der Varianz definiert:

S= .

Beispiel 6. Für das Beispiel aus Beispiel 5.

SS = (1 – 6) 2 + (1 - 6) 2 + (3 – 6) 2 + (4 – 6) 2 + (8 – 6) 2 + (9 – 6) 2 + (10 – 6) 2 + (12 – 6) 2 =

= (-5) 2 + (-5) 2 + (-3) 2 +2 2 + 2 2 +3 2 + 4 2 + 6 2 = 128,

S 2= SS/7 = 18,29

S = = 4,28

Der Stichprobenmittelwert reagiert empfindlich auf „extreme“ Werte, die stark vom Rest der Stichprobe abweichen. Umso empfindlicher gegenüber dem Auftreten von für die Stichprobe untypischen Werten sind Schätzungen, die die Streuung relativ zum Mittelwert charakterisieren.


Beispiel 7. Wenn in der Variationsreihe aus Beispiel 5 der letzte Wert nicht 12, sondern 42 wäre, dann wäre der Stichprobenmittelwert 9,75 (d. h. ein Anstieg um 22 %), und die Standardabweichung wäre 13,5 (ein Anstieg um mehr als das Dreifache). ).

Die obige Situation veranschaulicht die Tatsache, dass es in der Praxis immer nützlich ist, auf die Primärdaten zu achten und vor der Verwendung mathematischer Algorithmen für die statistische Analyse deren Qualität, das Vorhandensein „extremer“ Abweichungen, die Möglichkeit von Artefakten usw. visuell zu beurteilen Treffen Sie danach eine Entscheidung darüber, ob es sich lohnt, eine statistische Verarbeitung durchzuführen oder das Experiment möglicherweise zu wiederholen. Manchmal werden in solchen Fällen die Extremwerte der Probe verworfen und die weitere Analyse ohne sie durchgeführt, aber diese Entscheidung muss bewusst und begründet sein.

Bei der Beschreibung experimenteller Daten in der Literatur wird häufig ein Merkmal wie der Standardfehler des Mittelwerts angegeben (normalerweise als m bezeichnet, und der Wertebereich des Mittelwerts unter Berücksichtigung des Fehlers wird als M ± m angegeben). Der Standardfehler des Mittelwerts ist definiert als die Standardabweichung dividiert durch die Quadratwurzel der Anzahl der Beobachtungen:

M= .

Dieser Wert ist im Gegensatz zu allen anderen in diesem Absatz betrachteten Schätzungen keine Schätzung eines der Verteilungsparameter einer Zufallsvariablen, sondern charakterisiert die Genauigkeit der Schätzung des Durchschnitts aus den verfügbaren Daten. Der Standardfehler des Mittelwerts hängt von der Anzahl der Beobachtungen ab: Mit zunehmender Anzahl der Tests nimmt er ab (auf beliebig kleine Werte für ausreichend großes n). Die obige Formel zur Schätzung des Standardfehlers des Mittelwerts gilt nur für eine Normalverteilung.

Der Stichprobenmedian ist die Zahl, bei der die Anzahl größerer Beobachtungen gleich der Anzahl kleinerer Beobachtungen ist. Um den Median zu ermitteln, muss die Stichprobe in aufsteigender Reihenfolge geordnet werden. Wenn die Anzahl der Beobachtungen ungerade ist, wird das durchschnittliche Element der Variationsreihe als Median verwendet, und wenn es gerade ist, das arithmetische Mittel zwischen den beiden nächsten Werten der Variationsreihe, gleich weit von ihrem Anfang und Ende entfernt. Stichprobenquartile sind als Zahlen definiert, die die Variationsreihe in vier Gruppen mit der gleichen Anzahl an Beobachtungen unterteilen. Für Stichproben mit einer großen Anzahl (mehrere Hundert) Beobachtungen können Quantile auf ähnliche Weise bestimmt werden.

Der Median ist resistenter gegenüber Extremwerten in der Stichprobe als der Stichprobenmittelwert.

Beispiel 8. Für die Stichprobe aus Beispiel 5 ist der Median gleich dem 5. Wert der Variationsreihe, also 8. Beim Ersetzen des letzten Wertes der Variationsreihe von 12 auf 42 ändert sich der Median nicht.

Der Stichprobenmodus für eine diskrete Zufallsvariable ist ein solcher Wert x k, dessen Häufigkeit in der Stichprobe größer ist als bei allen anderen Werten. Eine Probe kann mehr als einen Modus haben. Im Fall einer kontinuierlichen Zufallsvariablen wird der Modus durch Kicken in der Mitte des Intervalls bestimmt, das die größte Anzahl an Beobachtungen enthält. Die Ergebnisse der Modusbestimmung hängen in diesem Fall von der Wahl der Intervallanzahl ab.

Im Gegensatz zum Median und Mittelwert reagiert der Modus nicht auf extreme, sondern auf typische Werte für eine bestimmte Stichprobe. Daher ist es sinnvoll, den Probenmodus nur für sehr große Probenvolumina (in der Größenordnung von mehreren Hundert) zu bestimmen.

Beispiel 9. Für die Stichprobe aus Beispiel 5 ist der Modus 1. Wenn der 6. Wert von 9 auf 10 geändert würde, würde ein zweiter Modus gleich 10 erscheinen, während sich der Stichprobenmedian nicht ändern würde und der Mittelwert leicht ansteigen würde (um 0,125). ).

Der Stichprobenmittelwert, der Median und der Modus dienen als Schätzungen für die Lage des Verteilungszentrums. Für quantitative Variablen können alle drei Schätzungen berechnet werden. Die Beziehungen zwischen diesen Schätzungen enthalten wichtige Informationen über die Art der Verteilung (die Übereinstimmung von Median und Mittelwert zeigt die Symmetrie der Verteilung an, das Vorhandensein eines nicht eindeutigen Modus zeigt die Heterogenität der Stichprobe an) und werden daher bei der Beschreibung experimenteller Daten berücksichtigt Daten, es ist sinnvoll, sie alle zu berechnen.

Bei qualitativen Variablen ist der Modus das einzig mögliche Merkmal der zentralen Position der Verteilung.

Beispiel 10. Von den 100 untersuchten Personen hatten 43, 30, 18 und 9 Personen die Blutgruppen O, A, B und AB. Daher ist die modale Blutgruppe für diese Probe O.

Bei ordinalen Variablen ist der Modus auch der Hauptindikator für das Verteilungszentrum. Die Berechnung von Mittelwert und Median ist formal möglich, aber im Allgemeinen falsch, da sich die Ergebnisse solcher Berechnungen als Zahlen herausstellen können, die nicht zur Menge der zulässigen Werte einer diskreten Zufallsvariablen (z. B. Bruchzahl) gehören während diskreten Größen üblicherweise nur ganzzahlige Werte zugewiesen werden). In diesem Fall kann es jedoch sinnvoll sein, den Median als Grenze zu definieren, die die Stichprobe in zwei gleiche Untergruppen unterteilt. Wenn der Medianwert mit keinem der Niveaus der semiquantitativen Variablen übereinstimmt, zeigt er an, zwischen welchen Niveaus eine solche Grenze liegt.

Wenn die Abstände zwischen benachbarten Werten einer Ordinalvariablen gleichmäßig sind, ist auch die Berechnung des Durchschnitts zulässig. In diesem Fall zeigt der Wert des Durchschnitts nicht nur an, zwischen welchen Nachbarwerten der durchschnittliche wahrscheinliche Stichprobenwert liegt, sondern auch, an welchem ​​dieser Werte er näher liegt.

Bei der Entscheidung, ob der Durchschnitt für auf Punktskalen gemessene Variablen berechnet und gemeldet werden soll, muss geklärt werden, ob die Skala einheitlich ist. In einigen Fällen (insbesondere in der psychologischen Forschung) werden Skalen nicht aus Gründen der Skaleneinheitlichkeit speziell bewertet, sondern damit sie der Aufteilung der Bevölkerung in gleiche Gruppen entsprechen (z. B. ist eine 5-Punkte-Skala auf diese Weise aufgebaut). dass jede Stufe 20 % der Bevölkerung entspricht). Es gibt auch eine Abstufung der Skala in festen Anteilen der Standardabweichung (die durch eine ausreichend große Gruppe bestimmt wird, für die die Gültigkeit des Tests bestätigt wurde).

Beispiel 11. In der Tabelle Tabelle 4.1 zeigt die Ergebnisse einer Umfrage, die unter zwei Bevölkerungsgruppen gleicher Größe, Geschlecht, Alterszusammensetzung und sozioökonomischem Status durchgeführt wurde, die in Gebieten leben, von denen eine durch eine hohe Wasser- und Bodenverschmutzung gekennzeichnet ist.

Qualitative Abstufungen des Gesundheitszustands können mit Bewertungen auf einer 5-Punkte-Skala (in der Tabelle in Klammern dargestellt) verglichen werden, wobei diese Skala als mehr oder weniger einheitlich angesehen werden kann. Anschließend können Schätzungen zum Standort des Verteilzentrums für beide Gruppen berechnet werden. Der Modalwert der Bewertung für beide Gruppen beträgt 3. Auch die Mediane beider Gruppen stimmen überein und sind gleich 3 (der 50. und 51. Wert der Variationsreihe entsprechen in beiden Fällen diesem Bewertungswert). Die Unterschiede in der Verteilung der Punkte in den beiden Gruppen zeigen sich nur in der Differenz der Durchschnittswerte:

für die erste Gruppe M = 0,02 · 1 + 0,18 · 2 + 0,35 · 3 + 0,29 · 4 + 0,16 · 5 = 0,02 +

0,36 + 1,05 + 1,16 + 0,80 = 3,39;

für die zweite Gruppe M = 0,12 · 1 + 0,22 · 2 + 0,41 · 3 + 0,19 · 4 + 0,06 · 5 = 0,12 +

0,44 + 1,23 + 0,76 + 0,30 = 2,85.

Somit liegt der durchschnittliche wahrscheinliche Gesundheitszustand der Bewohner eines nicht kontaminierten Gebiets zwischen zufriedenstellend und gut und für ein kontaminiertes Gebiet zwischen schlecht und zufriedenstellend, d. h. Der Stichprobendurchschnitt, dessen Berechnung in diesem Fall völlig korrekt ist, erwies sich als die einzige Schätzung, die die Unterschiede im Gesundheitszustand (mit dieser Bewertungsmethode) zwischen Gebieten mit unterschiedlichem Verschmutzungsgrad erfasst.

Tabelle 4.1

Ergebnisse der Selbsteinschätzung des Gesundheitszustands in zwei Stichprobengruppen

Es sei eine Stichprobe aus der allgemeinen Bevölkerung entnommen, um ein quantitatives (diskretes oder kontinuierliches) Merkmal X zu untersuchen, und der Wert x 1 wurde n 1-mal beobachtet, der Wert x 2 wurde n 2-mal beobachtet, ..., der Wert x k war n k Mal beobachtet.

Die beobachteten Werte x i (i = 1, 2, ..., n) des Merkmals X heißen Varianten, und die Reihenfolge aller Varianten, in aufsteigender Reihenfolge geschrieben, ist Variationsreihe. Die Beobachtungszahlen n i werden aufgerufen Frequenzen, ihre Summe ─ Volumen Proben. Verhältnis von Häufigkeit zu Stichprobengröße ─ relative Häufigkeiten.

Statistische Stichprobenverteilung Sie nennen eine Liste die Variante x i der Variationsreihe und die entsprechenden Häufigkeiten n i (die Summe aller Häufigkeiten ist gleich der Stichprobengröße n) oder relative Häufigkeiten Wi (die Summe aller relativen Häufigkeiten ist gleich eins). Die statistische Verteilung kann auch als Folge von Intervallen und den ihnen entsprechenden Häufigkeiten angegeben werden (die Summe der Häufigkeiten, die in dieses Intervall fallen, wird als die dem Intervall entsprechende Häufigkeit angenommen).

Beachten Sie, dass unter Verteilung in der Wahrscheinlichkeitstheorie die Entsprechung zwischen möglichen Werten einer Zufallsvariablen und ihren Wahrscheinlichkeiten und in der mathematischen Statistik die Entsprechung zwischen beobachteten Optionen und ihren Häufigkeiten (oder relativen Häufigkeiten) verstanden wird.

Beispiel. Die Häufigkeitsverteilung einer Stichprobe mit dem Volumen n = 20 ist gegeben:

In diesem Beispiel wurden die folgenden Optionen erhalten: x 1 = 2; x 2 = 6; x 3 = 12,

entsprechende Frequenzen n 1 = 3; n2 = 10; n 3 = 7.

Schreiben wir die Verteilung der relativen Häufigkeiten.

Lösung. Ermitteln wir die relativen Häufigkeiten, indem wir die Häufigkeiten durch die Stichprobengröße dividieren = 3 + 10 + 7 = 20.

─ relative Häufigkeiten:

Schreiben wir die Verteilung der relativen Häufigkeiten:

Kontrolle: Die Summe aller relativen Häufigkeiten ist gleich eins:

§14. Empirische Verteilungsfunktion

Die statistische Häufigkeitsverteilung des quantitativen Merkmals X sei bekannt. Führen wir die Notation ein: die Anzahl der Beobachtungen, bei denen der Wert des Attributs beobachtet wurde, ist kleiner als x; n – Gesamtzahl der Beobachtungen (Stichprobengröße). Es ist klar, dass die relative Häufigkeit des Ereignisses X<х равна . Если х изменяется, то, вообще говоря, изменится и относительная частота, то есть относительная частотаесть функция от х. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Definition. Empirische Verteilungsfunktion(Stichprobenverteilungsfunktion) – Funktion F * (x), die für jeden Wert x die relative Häufigkeit des Ereignisses X bestimmt

wobei ─ Anzahl der Optionen kleiner als n – Stichprobengröße.

Um beispielsweise F * (x 2) zu finden, müssen Sie die Anzahl der Optionen kleiner als x 2 durch die Stichprobengröße dividieren:

Im Gegensatz zur empirischen Verteilungsfunktion der Stichprobe wird die Verteilungsfunktion F(x) der Grundgesamtheit genannt theoretische Verteilungsfunktion. Der Unterschied zwischen der empirischen und der theoretischen Funktion besteht darin, dass die theoretische Funktion F(x) die Wahrscheinlichkeit des Ereignisses X bestimmt

Aus dem Satz von Bernoulli folgt, dass die relative Häufigkeit des Ereignisses X . Daraus folgt, dass es ratsam ist, die empirische Verteilungsfunktion der Stichprobe zur Annäherung an die theoretische (integrale) Verteilungsfunktion der Gesamtbevölkerung zu verwenden. Diese Schlussfolgerung wird auch durch die Tatsache bestätigt, dass F * (x) alle Eigenschaften von F(x) hat.

Aus der Definition der Funktion F * (x) ergeben sich folgende Eigenschaften:

    Der Wert der empirischen Funktion gehört zum Segment;

    F * (x) – nicht abnehmende Funktion;

    Wenn x 1 ─ die kleinste Option, dann ist F * (x) = 0 bei x< х 1 ;

wenn x k ─ die größte Option, dann ist F * (x) = 1 für x > x k.

Die empirische Verteilungsfunktion der Stichprobe dient also dazu, die theoretische Verteilungsfunktion der Grundgesamtheit abzuschätzen.

Beispiel. Konstruieren Sie eine empirische Funktion basierend auf der gegebenen Stichprobenverteilung:

Optionen

Frequenzen

Lösung. Ermitteln wir die Stichprobengröße (Summe aller Häufigkeiten n i):

n = n 1 + n 1 + n 1 = 12 + 18 + 30 = 60.

Die kleinste Option ist 2 (x 1 = 2), daher ist F * (x) = 0 für x ≤ 2 (nach Eigenschaft 3 der Funktion F * (x));

Werte kleiner als 6 (x<6), а именно x 1 = 2, наблюдались n 1 = 12 раз, следовательно, um 2

x-Werte<10, а именно x 1 = 2, x 1 = 2 наблюдались n 1 + n 2 = 12 + 18 = 30 раз, следовательно при 6<х≤10.

Da x =10 die größte Option ist, ist F * (x) = 1 für x>10 (gemäß Eigenschaft 4 der Funktion F * (x)).

Die gewünschte empirische Funktion hat die Form:

Unten ist ein Diagramm der resultierenden empirischen Funktion.

In der Grafik sind auf den entsprechenden Achsen die Werte der Funktion F*(x) und die Intervalle der Variante aufgetragen

Reis. 5. Diagramm der empirischen Funktion.