Selektive empirische Verteilungsfunktion einer Zufallsvariablen. Empirische Verbreitung

Eine empirische Verteilung unterscheidet sich von einer theoretischen dadurch, dass die Werte eines darin enthaltenen Merkmals von zufälligen Faktoren beeinflusst werden. Mit zunehmendem Volumen der statistischen Grundgesamtheit schwächt sich der Einfluss von Zufallsfaktoren ab und die empirische Verteilung weicht immer weniger von der theoretischen ab.

Um die Nähe von Verteilungen zu beurteilen, werden spezielle Indikatoren verwendet - die Übereinstimmungskriterien.

Sie basieren auf der Verwendung verschiedener Abstandsmaße zwischen der empirischen und der theoretischen Verteilung.

In der Praxis am gebräuchlichsten sind folgende Übereinstimmungskriterien:

_ "Chi-Quadrat" - Kriterium (Kriterium von Pearson); Format:

_ "Lambda" - Kriterium "(Kolmogorovs Kriterium).

5.9.1. „Chi-Quadrat“ – das Kriterium ist eine Zufallsvariable mit einer Verteilung nahe der „Chi-Quadrat“-Verteilung. Sein Wert wird durch die Formel bestimmt:

2 \u003d y (ni - nT) 2

Je weniger sich empirische und theoretische Häufigkeiten in einzelnen Gruppen voneinander unterscheiden, desto weniger unterscheidet sich die empirische Verteilung von der theoretischen, d. h. desto mehr stimmen empirische und theoretische Verteilungen überein.

Zur Beurteilung der Aussagekraft des errechneten Wertes „Chi-Quadrat“. - Kriterium, es wird mit dem tabellarischen (kritischen) Wert x2 verglichen, der durch die statistischen Tabellen der x2-Werte bestimmt wird;

Kriterien. x2 wird abhängig vom Signifikanzniveau a und dem Parameter k=m-m1 -1 bestimmt, wobei a die Irrtumswahrscheinlichkeit ist, ml die Anzahl der geschätzten Parameter der theoretischen Verteilung gemäß den beobachteten Werten des Attributs ist.

Das Signifikanzniveau t wird so gewählt, dass Р(хР > х2)=a.

Üblicherweise wird a gleich 0,05 oder 0,01 genommen, was einer Wahrscheinlichkeit von 95 % oder 99 % entspricht.

Wenn xp ^ Xt, dann werden die Verteilungen als nahe beieinander betrachtet,

die Unterschiede zwischen ihnen sind unbedeutend.

Das Pearson-Kriterium kann verwendet werden, wenn das Format erfüllt ist: Liste der folgenden Bedingungen:

insgesamt mindestens 50 Beobachtungseinheiten (N > 50),

theoretische Häufigkeiten n, >5, - ist diese Bedingung nicht erfüllt, dann sollten die Intervalle zusammengefasst werden.

Lassen Sie uns in Tabelle 4.6 rechnen.

Abweichungswerte (nt-nh) und der tatsächliche Wert des x2-Kriteriums. Nach der Rechnung xp = 1,66. Dieser Wert

wird mit der Tabelle verglichen, die mit der Anzahl der Freiheitsgrade k = 4 und dem Signifikanzniveau = 0,05 bestimmt wurde. Es ist gleich xp = 9,49.

So werden x-Verteilungen mit einer Wahrscheinlichkeit von 95 % als nahe beieinander erkannt, die Abweichungen zwischen ihnen sind unbedeutend, verursacht durch eine zufällige Variation des Merkmals im Aggregat.

Aufgrund? - Kriterium, ein weiteres Übereinstimmungskriterium kann berechnet werden - das Romanovsky-Kriterium:

l / 2 (t - 3) "

Empirische und theoretische Verteilungen werden als nahe beieinander erkannt, wenn C 5.9.2. Das Kriterium der Anpassungsgüte von Kolmogorov basiert auf einem anderen Maß für die Nähe von Verteilungen. Um die Nähe der empirischen Verteilung zur Normalverteilung zu beurteilen, wird die maximale Differenz zwischen der akkumulierten empirischen und der akkumulierten theoretischen Häufigkeit verwendet. Der errechnete Wert des "Lambda"-Kriteriums wird durch die Formel bestimmt:

wo D \u003d max (N - N)

Nt - akkumulierte empirische Häufigkeit, N,. - akkumulierte theoretische Frequenz.

Gemäß dem berechneten Wert von Xp wird gemäß einem speziellen "Lambda"-Kriterium der Wahrscheinlichkeitstabelle die Wahrscheinlichkeit bestimmt, dass die betrachtete empirische Verteilung dem Normalverteilungsgesetz gehorcht. Für das betrachtete Beispiel ist D = 2 - gemäß der Berechnung in Tabelle 4.6.

Dann Yar = -= = = 0,283.

Gemäß der Wahrscheinlichkeitstabelle P(R) stellen wir fest, dass R = 0,283 der Wahrscheinlichkeit P(R) nahe 1 entspricht.

Der erhaltene Wahrscheinlichkeitswert zeigt an, dass die Diskrepanzen zwischen der empirischen und der theoretischen Verteilung unbedeutend sind, verursacht durch eine zufällige Variation eines Merkmals in der statistischen Grundgesamtheit. Die empirische Verteilung der Arbeitnehmer nach Betriebszugehörigkeit basiert auf dem Gesetz der Normalverteilung.

Mehr zum Thema 5.9. Abschätzung der Nähe der empirischen und theoretischen Verteilungen:

  1. Empirische und theoretische Ebenen des politischen Wissens
  2. Abschnitt II VERKAUFSMANAGEMENT IN VERTRIEBSKANÄLEN: THEORETISCHE ASPEKTE KAPITEL 8 Vertriebskanäle: Wesen, Funktionen, Teilnehmertypen

Variationsreihe. Polygon und Histogramm.

Verbreitungsgebiet- stellt eine geordnete Verteilung von Einheiten der untersuchten Population in Gruppen gemäß einem bestimmten variierenden Attribut dar.

Je nach Merkmal, das der Bildung einer Verbreitungsreihe zugrunde liegt, gibt es attributiv und variabel Verteilungsränge:

§ Verteilungsreihen, die in aufsteigender oder absteigender Reihenfolge der Werte eines quantitativen Attributs aufgebaut sind, werden genannt variabel.

Die Variationsreihe der Distribution besteht aus zwei Spalten:

Die erste Spalte enthält die quantitativen Werte des variablen Merkmals, die aufgerufen werden Optionen und gekennzeichnet sind. Diskrete Variante - ausgedrückt als ganze Zahl. Die Intervalloption liegt im Bereich von und bis. Je nach Art der Varianten ist es möglich, eine diskrete oder intervallartige Variationsreihe zu konstruieren.
Die zweite Spalte enthält Anzahl der spezifischen Option, ausgedrückt in Frequenzen oder Häufigkeiten:

Frequenzen- Dies sind absolute Zahlen, die angeben, wie oft der angegebene Wert des Merkmals insgesamt vorkommt, die angeben. Die Summe aller Häufigkeiten sollte gleich der Anzahl der Einheiten der gesamten Grundgesamtheit sein.

Frequenzen() sind die als Prozentsatz der Gesamtzahl ausgedrückten Häufigkeiten. Die prozentuale Summe aller Häufigkeiten muss in Bruchteilen von eins gleich 100 % sein.

Grafische Darstellung von Vertriebsserien

Die Verbreitungsreihen werden mit grafischen Bildern visualisiert.

Die Verteilungsserien werden wie folgt angezeigt:

§ Polygon

§ Histogramme

§ Kumuliert

Vieleck

Beim Erstellen eines Polygons werden auf der horizontalen Achse (Abszisse) die Werte des variablen Attributs und auf der vertikalen Achse (Ordinate) - Frequenzen oder Frequenzen aufgetragen.

1. Vieleck in Abb. 6.1 wurde nach der Mikrozählung der Bevölkerung Russlands im Jahr 1994 gebaut.


Balkendiagramm



Um ein Histogramm entlang der Abszisse zu erstellen, geben Sie die Werte der Grenzen der Intervalle an und erstellen Sie auf ihrer Grundlage Rechtecke, deren Höhe proportional zu den Frequenzen (oder Frequenzen) ist.

Auf Abb. 6.2. Vorgeführt ist das Histogramm der Verteilung der Bevölkerung Russlands im Jahr 1997 nach Altersgruppen.

Abb.1. Verteilung der Bevölkerung Russlands nach Altersgruppen

Empirische Verteilungsfunktion, Eigenschaften.

Gegeben sei die statistische Verteilung der Häufigkeiten des quantitativen Merkmals X. Bezeichnen wir mit der Anzahl der Beobachtungen, bei denen der Wert des Merkmals kleiner als x beobachtet wurde, und mit n die Gesamtzahl der Beobachtungen. Offensichtlich ist die relative Häufigkeit des Ereignisses X

Eine empirische Verteilungsfunktion (Stichproben-Verteilungsfunktion) ist eine Funktion, die für jeden Wert x die relative Häufigkeit des Ereignisses X bestimmt

Anders als die empirische Verteilungsfunktion der Stichprobe wird die Populationsverteilungsfunktion als theoretische Verteilungsfunktion bezeichnet. Der Unterschied zwischen diesen Funktionen besteht darin, dass die theoretische Funktion die Wahrscheinlichkeit des Ereignisses X bestimmt

Wenn n wächst, die relative Häufigkeit des Ereignisses X

Grundeigenschaften

Lassen Sie das elementare Ergebnis festgelegt werden. Dann ist die Verteilungsfunktion der diskreten Verteilung gegeben durch die folgende Wahrscheinlichkeitsfunktion:

wo ein - die Anzahl der Probenelemente gleich . Insbesondere dann, wenn alle Elemente der Probe verschieden sind .

Die mathematische Erwartung dieser Verteilung ist:

.

Der Stichprobenmittelwert ist also der theoretische Mittelwert der Stichprobenverteilung.

Ebenso ist die Stichprobenvarianz die theoretische Varianz der Stichprobenverteilung.

Die Zufallsvariable ist binomialverteilt:

Die Stichprobenverteilungsfunktion ist eine unverzerrte Schätzung der Verteilungsfunktion:

.

Die Varianz der Stichprobenverteilungsfunktion hat die Form:

.

Nach dem starken Gesetz der großen Zahlen konvergiert die Stichprobenverteilungsfunktion fast sicher gegen die theoretische Verteilungsfunktion:

ziemlich sicher bei .

Die Stichprobenverteilungsfunktion ist eine asymptotisch normale Schätzung der theoretischen Verteilungsfunktion. Wenn, dann

Durch Verteilung bei .

Anleitung zur Durchführung und Gestaltung von Laborarbeiten

Die Arbeiten werden auf Blättern im A-4-Format ausgeführt. Das Titelblatt enthält den Titel des Werkes, den Nach- und Namen des Interpreten, Gruppe, Abteilung, laufendes Jahr und Semester.

Zeichnungen, Diagramme, Zeichnungen, Tabellen werden mit Zeichenwerkzeugen erstellt. Alle müssen mit Namen und notwendigen Inschriften versehen sein. Der aktuelle Text ist mit Kugelschreiber geschrieben. Wichtige Arbeitsorte können farblich hervorgehoben werden. Die Arbeit kann am Computer erledigt werden.

Bei der Durchführung der Arbeiten werden in jedem Fall die angewandten Formeln, Zwischenrechnungen festgehalten und die notwendigen schriftlichen Erläuterungen gegeben. Besonders hervorzuheben sind die bei der Datenverarbeitung erzielten Ergebnisse.

Am Ende jeder Arbeit wird eine schriftliche Analyse der erzielten Ergebnisse gegeben, Hypothesen aufgestellt, Schlussfolgerungen und Verallgemeinerungen gezogen, Prognosen erstellt.

Auswahl von numerischem Material für die Durchführung der Arbeit

Werke 1-2.

H die Wortdaten werden aus der Tabelle "Statistische Daten" ausgewählt. Es ist diesem Arbeitspaket beigefügt. Die Variante wird vom Lehrer gemeldet.

Arbeit 3.

Die ursprünglichen numerischen Daten sind dieselben wie die in Job 1 verwendeten numerischen Daten.

Arbeit 4.

Zwei Sätze numerischer Daten sind erforderlich: der X-Score und der Y-Score Der X-Score ist derselbe wie die numerischen Daten, die im ersten Job verwendet wurden. Der Y-Indikator wird aus der nächsten Zeile der Tabelle "Statistische Daten" bezogen auf die in der Erstarbeit verwendete Zeile entnommen.

Arbeit 5

Zwei Gruppen numerischer Daten sind erforderlich: Test und Retest. Der Test stimmt mit den numerischen Daten überein, die im ersten Job verwendet wurden. Die Retest-Werte werden aus der zweiten Zeile der Tabelle „Statistische Daten“ entnommen, bezogen auf die im ersten Job verwendete Zeile.

Arbeit 6

Benötigt 5 Datensätze (5 Tests). Die Arbeit wird für 7 Athleten erledigt. Ihre Namen werden unabhängig gewählt, während die Nachnamen nicht erwähnt werden.

Um die Werte des Tests "Körpergewicht" zu erhalten, müssen die numerischen Daten der Zeile der in Arbeit 1 verwendeten Tabelle "Statistische Daten" genommen und jeweils um die gleiche Zahl aus dem Intervall erhöht werden 50 - 100. Runden Sie die resultierenden Zahlen auf ganzzahlige Werte. Achten Sie darauf, dass die Massewerte plausibel waren.

Um die Werte des Tests "Wachstum" zu erhalten, müssen die numerischen Daten der Zeile der Tabelle "Statistische Daten", die in Arbeit 1 verwendet wurde, genommen und jeweils um die gleiche Zahl aus dem Intervall 100 erhöht werden - 150. Runden Sie die resultierenden Zahlen auf ganzzahlige Werte. Achten Sie darauf, dass die Höhenwerte plausibel sind.

Passen Sie die resultierende Masse und Höhe auf ihre plausiblen Werte an.

Die verbleibenden fünf Tests und ihre numerischen Werte werden unabhängig voneinander ausgewählt.

Arbeit 7,

Ein Test und zwei Kriterien sind erforderlich. Die Testwerte werden der Zeile 33 der Tabelle „Statistische Daten“ entnommen. Für das erste Kriterium werden numerische Daten aus der Zeichenkette entnommen, die beim Ausführen des ersten Jobs verwendet wurde. Für das zweite Kriterium wird die nächste Zeile der Tabelle „Statistische Daten“ bezogen auf die in der ersten Arbeit verwendete Zeile genommen.

Thema 1. Verarbeitung von statistischem Material nach der Methode der Durchschnittswerte

Theoretische Informationen

Die Verarbeitung statistischer Daten nach der Durchschnittsmethode ist bei Arbeitern in der Körperkultur und im Sport am beliebtesten. Es besteht darin, eine Reihe von Durchschnittsindikatoren zu erhalten, mit denen Sie statistische Daten analysieren können.

a). Primäre Verarbeitung eingehender Daten

Der Stichprobenumfang wird festgelegt, dh die Anzahl der verarbeiteten Daten wird bestimmt. Es ist zu beachten, dass die erhaltenen Indikatoren umso genauer und schwieriger zu berechnen sind, je größer der Stichprobenumfang ist. Bei Wettbewerben oder anderen Aktionen (es werden Wettbewerbsprotokolle verwendet) werden Daten in zufälliger Reihenfolge empfangen. Der Einfachheit halber wird empfohlen, Datensätze in Form einer Tabelle mit fünf oder zehn Nummern in jeder Zeile zu führen, was das Ermitteln ihrer Nummer erleichtert.

b). Konstruktion einer Variationsreihe (Variationstabelle) und Bestimmung ihrer Parameter und numerischen Merkmale für die betrachtete Grundgesamtheit.

Jede Variationsreihe ist ein mathematisches System, d.h. Gruppe von Zahlen, die miteinander verbunden sind. Ein solches System zeichnet sich durch folgende Indikatoren aus:

~ arithmetisches Mittel, bezeichnet als: , X Medien, , X vgl, x vgl

~ Dispersion, bezeichnet: d oder s 2

~ Standardabweichung, bezeichnet: s

~ Variationskoeffizient, bezeichnet: u

2. Ablauf der Datenverarbeitung:

1. Datenranking.

Notieren Sie die aus der Tabelle (siehe Anhang) entnommenen Daten in der für Sie bequemen Reihenfolge

a). Eine Rangliste wird nach dem Muster von Tabelle 1-1 aufgebaut.

In der ersten Spalte Die Zahlenwerte der Indikatoren werden in aufsteigender Reihenfolge aufgezeichnet. Es wird empfohlen, alle Werte nacheinander vom Minimalwert bis zum Maximalwert aufzuzeichnen. Benachbarte Werte können sich um den Messgenauigkeitswert unterscheiden.

In der zweiten Spalte das Vorhandensein solcher Indikatoren in der Probe wird vermerkt. Dazu wird beim sequentiellen Betrachten der Probe ein Stab (Sternchen, Punkt oder anderes Zeichen) an den entsprechenden Indikator gehalten. Einige Zeilen in dieser Spalte können leer sein.

In der dritten Spalte die Anzahl der angetroffenen identischen Indikatoren wird aufgezeichnet.

b). Basierend auf Tabelle 1-1 wird eine verallgemeinerte Tabelle 1-2 aufgebaut, die aus zwei Spalten besteht.

Erste (linke) Spalte besteht aus eigenen Indikatoren - Option. Es wird mit x i bezeichnet und enthält die Werte des nächsten Indikators.

Zweite (rechte) Spalte enthält die Anzahl der Indikatoren (Variante), Frequenz genannt. Sie zeigt die Anzahl entsprechender identischer Indikatoren und wird mit n i bezeichnet

Die Summe der Häufigkeiten bestimmt das Volumen der Population.

Kommentar. Eigener Indikator und Häufigkeit werden mit lateinischen Buchstaben bezeichnet, der Index gibt die Nummer des Sets an, zu dem der entsprechende Indikator gehört. Das Bevölkerungsvolumen wird durch einen Buchstaben ohne Index angegeben. Beispiel: n = 40. Bei gleichzeitiger Betrachtung mehrerer Variationsreihen empfiehlt es sich, unterschiedliche Buchstaben zu verwenden.

2. Berechnung des arithmetischen Mittels.

Dieses Merkmal ist der am einfachsten zu berechnende Indikator und wird daher häufig von Forschern verwendet.

, n ist das Bevölkerungsvolumen; x 1 , x 2 ... x n - Indikatoren aus der Originaltabelle 1-1.

Um das arithmetische Mittel zu berechnen, ist es bequem, Tabelle 1-3 zusammenzustellen, und dann lautet die Formel zur Berechnung des arithmetischen Mittels:

X media = , wobei x i – Häufigkeit; n ist das Bevölkerungsvolumen

In Zukunft werden weitere Merkmale der Variationsreihe berücksichtigt.

Anmerkungen:

1. Tabelle 3 ist Teil von Tabelle 4, sodass sie kombiniert werden können.

2. Die Genauigkeit der bei den Berechnungen erzielten Berechnungsergebnisse und die Genauigkeit der Messungen müssen übereinstimmen. (Haben die gleiche Anzahl von Dezimalstellen nach dem Komma). Zwischenergebnisse sollten eine höhere Genauigkeit haben: eine oder zwei Ersatzziffern. Das Endergebnis wird auf die erforderliche Genauigkeit gerundet. Wenn das Runden auf die erforderliche Genauigkeit zu einem Ergebnis von Null führt, wird auf die erste signifikante Stelle ungleich Null gerundet, wobei von links gezählt wird.

3. Berechnung der Varianz.

Streuung gibt die Streuung (Streuung) der Originaldaten relativ zum arithmetischen Mittel an. Die Streuung wird mit Buchstaben bezeichnet d oder σ2 und errechnet sich nach der Formel:

d=

1. Es wird ein Tabellenlayout 1-4 gezeichnet, in das die zuvor gewonnenen Daten eingetragen werden. Dies ist beispielsweise von der ersten bis zur vierten Spalte. Der Rest - wird ausgefüllt, wenn die Berechnungen durchgeführt werden. Bitte beachten Sie, dass in dieser Tabelle die ersten vier Spalten die vorherige Tabelle 1-3 wiederholen. Wenn der Forscher plant, die Varianz im Voraus zu berechnen, können die Tabellen 1-3 daher separat weggelassen werden.

2. X Umgebungen werden bestimmt

3. Die fünfte Spalte der Tabelle 1-4 wird ausgefüllt, dazu wird der Durchschnittsindikator von jedem Indikator der zweiten Spalte abgezogen: x i - x mittel

4. Die gefundenen Differenzen, das sind die Indikatoren der fünften Spalte, werden quadriert: (x i - x media) 2 und in die sechste Spalte der Tabelle 1-4 eingetragen

5. Die resultierenden Quadrate (Spalte 6) werden mit den entsprechenden Häufigkeiten (Spalte 3) multipliziert, die Ergebnisse werden in die letzte Spalte von Tabelle 1-4 eingetragen: nämlich (x i - x media) 2 ·n i .

6. Die Summe S der erhaltenen Produkte wird ermittelt - die letzte Spalte dieser Tabelle wird summiert.

7. Die resultierende Summe S wird durch das Volumen der Bevölkerung n=25 dividiert. Das erhaltene Ergebnis ist die Varianz. Aufgerundet auf die Genauigkeit der ursprünglichen (verarbeiteten) Indikatoren.

4. Berechnung der Standardabweichung

Der quadratische Mittelwert wird nach der Formel s = = berechnet

5. Berechnung des Variationskoeffizienten.

Der Variationskoeffizient wird nach folgender Formel berechnet: wenn der Koeffizient in Prozent dargestellt wird. Wenn Sie es als Dezimalbruch darstellen müssen, enthält die Formel keinen 100-%-Faktor

6. Analyse der erhaltenen Indikatoren

Die Hauptparameter der Variationsreihe sind arithmetisches Mittel, quadratischer Mittelwert, Streuungskoeffizient.

Eine Ungleichung wird aufgestellt

EIN< X сред < B, где А = X сред - s, В = X сред + s

oder X-Medien - s< X сред < В = X сред + s

Aus diesen Merkmalen sind typische Indikatoren ersichtlich, die im Intervall (A; B) enthalten sind, und atypische, die nicht im angegebenen Intervall enthalten sind. Zur Betrachtung können wir das Intervall empfehlen, d.h. die Grenzen der Lücke sind enthalten.

Funktion y

Empirische Verbreitung

Empirische und theoretische Verteilungsfunktionen

In einer selektiven Studie wird die Verteilung der Werte eines kontinuierlichen Merkmals j in der Allgemeinbevölkerung ist unbekannt.

Wir bilden einige Stichproben von Merkmalswerten bei und konstruieren darauf basierend eine diskrete Verteilungsreihe (Tab. 1.10.1). Diese Verteilung heißt empirisch, da es empirisch ermittelt wurde (durch Messung des Merkmals j für Mustergeräte) .

Tisch 1.10.1

Optionen - Frequenzen -
n

Für jede Zahl X aus dem numerischen Intervall, das durch die Anzahl der Werte des Merkmals angegeben ist j in der Stichprobe kleinere Zahlen X. Das Verhältnis ist die relative Häufigkeit des Ereignisses:

Jede Zahl X entspricht nur einer relativen Häufigkeit. Daher ist die Funktion definiert:

dann können wir, wenn wir die Funktion (1.10.1) kennen, die empirische Verteilung der relativen Häufigkeiten der Attributwerte finden bei. Daher wird die Funktion (1.10.1) aufgerufen Empirische Verteilungsfunktion.

Beispiel 1.10.1. Lassen Sie uns eine empirische Merkmalsverteilungsfunktion konstruieren j, dessen Verteilung in der Stichprobe bekannt ist (Tabelle 1.10.2).

Tisch 1.10.2

Die Stichprobengröße beträgt 60.

Zeichenwert j weniger als 2 wurde nicht beobachtet. Deshalb und deshalb bei.

Zeichenwert j, weniger als 6, d.h. 12 mal beobachtet. Deshalb und deshalb bei.

Eigenschaftswerte j, kleinere Zahlen 10, d.h. und 12 + 18 = 30 Mal beobachtet. Deshalb und deshalb bei.

Da heißt die größte Variante dann at und damit at.

Die empirische Funktion dieser Verteilung ist also die Funktion

Der Graph der Funktion (1.10.3) ist in Abb. 1 dargestellt. 1.10.5.

x
1

Reis. 1.10.5. Funktionsgraph (1.10.3)

Aus den Formeln (1.10.2) folgt, dass die Funktion (1.10.3) die empirische Verteilung mit Optionen bestimmt, und die entsprechenden relativen Häufigkeiten 0,2 (0,2-0), 0,3 (0,5-0,2), 0,5 (1-0,5).

Funktion (1.10.1) hat folgende Eigenschaften:

1) die Funktion wird auf der gesamten numerischen Achse definiert;

2) die Funktion ist nicht abnehmend;

3) wenn - die kleinste Option, dann bei;

4) wenn die größte Variante ist, dann at.

Mit unbegrenzter Erhöhung der Stichprobengröße n die relative Häufigkeit tendiert zur Wahrscheinlichkeit des Ereignisses: der Wert des Merkmals y ist kleiner als die Zahl x, und die Funktion (1.10.1) nähert sich der Funktion, deren Werte die Wahrscheinlichkeiten des Ereignisses sind: der Wert des Merkmals y ist kleiner als die Zahl x.



Die Funktion wird aufgerufen theoretische Funktion Verteilung, es bestimmt theoretisch Verteilung von Kennwerten j in der Allgemeinbevölkerung.

In der mathematischen Statistik ist bewiesen, dass die theoretische stetige Verteilungsfunktion differenzierbar ist. Die Ableitung wird aufgerufen Wahrscheinlichkeitsdichtefunktion, und sein Graph ist theoretische Kurve Verteilung.

Bei unbegrenzter Erhöhung des Stichprobenumfangs tendiert das Polygon der relativen Häufigkeiten zur theoretischen Verteilungskurve. Daher wird auch das Polygon der relativen Häufigkeiten genannt Empirische Kurve Verteilung.

Die theoretische Verteilung kann als mathematisches Modell der empirischen Verteilung betrachtet werden, bei dem der Einfluss zufälliger Faktoren ausgeschlossen ist. Andererseits die empirische Verteilungsfunktion des Merkmals bei in der Probe kann für eine ungefähre Darstellung der theoretischen Merkmalsfunktion verwendet werden bei in der Allgemeinbevölkerung.

Stichprobenmittelwert.

Lassen Sie eine Stichprobe der Größe n extrahieren, um die allgemeine Bevölkerung in Bezug auf das quantitative Attribut X zu untersuchen.

Der Stichprobenmittelwert ist das arithmetische Mittel des Merkmals der Stichprobe.

Stichprobenabweichung.

Um die Streuung eines quantitativen Attributs von Stichprobenwerten um seinen Mittelwert zu beobachten, wird ein zusammenfassendes Merkmal eingeführt - die Stichprobenvarianz.

Die Stichprobenvarianz ist das arithmetische Mittel der Quadrate der Abweichung der beobachteten Werte eines Merkmals von ihrem Mittelwert.

Wenn alle Werte des Mustermerkmals unterschiedlich sind, dann

Korrigierte Abweichung.

Die Stichprobenvarianz ist eine voreingenommene Schätzung der allgemeinen Varianz, d. h. die mathematische Erwartung der Stichprobenvarianz ist nicht gleich der geschätzten allgemeinen Varianz, sondern gleich

Um die Stichprobenvarianz zu korrigieren, reicht es aus, sie mit einem Bruch zu multiplizieren

Stichproben-Korrelationskoeffizient wird nach der Formel gefunden

wo sind die Stichproben-Standardabweichungen von und .

Der Stzeigt die Enge der linearen Beziehung zwischen und : Je näher an Eins, desto stärker die lineare Beziehung zwischen und .

23. Ein Frequenzpolygon ist eine unterbrochene Linie, deren Segmente die Punkte verbinden. Um ein Polygon aus Frequenzen zu erstellen, tragen Sie auf der Abszissenachse die Optionen und auf der Ordinatenachse die entsprechenden Frequenzen auf und verbinden Sie die Punkte mit geraden Liniensegmenten.

Das Polygon der relativen Häufigkeiten ist auf ähnliche Weise konstruiert, außer dass die relativen Häufigkeiten auf der y-Achse aufgetragen sind.

Ein Histogramm von Häufigkeiten ist eine gestufte Figur, die aus Rechtecken besteht, deren Basen Teilintervalle der Länge h sind und deren Höhen dem Verhältnis entsprechen. Um ein Häufigkeitshistogramm zu erstellen, werden Teilintervalle auf der x-Achse aufgetragen und Segmente darüber parallel zur x-Achse in einem Abstand (Höhe) gezeichnet. Die Fläche des i-ten Rechtecks ​​ist gleich - der Summe der Häufigkeiten der Variante des i-o-Intervalls, daher ist die Fläche des Häufigkeitshistogramms gleich der Summe aller Häufigkeiten, d.h. Stichprobengröße.

Empirische Verteilungsfunktion

wo n x- Anzahl der Beispielwerte kleiner als x; n- Probengröße.

22Lassen Sie uns die Grundkonzepte der mathematischen Statistik definieren

.Grundbegriffe der mathematischen Statistik. Grundgesamtheit und Stichprobe. Variationsreihen, statistische Reihen. Gruppierte Auswahl. Gruppierte statistische Reihen. Frequenzpolygon. Stichprobenverteilungsfunktion und Histogramm.

Bevölkerung- alle verfügbaren Objekte.

Probe- eine Reihe von Objekten, die zufällig aus der allgemeinen Bevölkerung ausgewählt werden.

Eine Folge von Optionen, die in aufsteigender Reihenfolge geschrieben sind, wird aufgerufen variabel nebeneinander, und die Liste der Optionen und ihre entsprechenden Häufigkeiten oder relativen Häufigkeiten - Statistische Reihe:Tee ausgewählt aus der allgemeinen Bevölkerung.

Vieleck Frequenzen wird eine unterbrochene Linie genannt, deren Segmente die Punkte verbinden.

Frequenzhistogramm eine Stufenfigur genannt, die aus Rechtecken besteht, deren Grundflächen Teilintervalle der Länge h sind und deren Höhen gleich dem Verhältnis sind.

Beispiel (empirische) Verteilungsfunktion Rufen Sie die Funktion auf F*(x), die für jeden Wert bestimmt X relative Häufigkeit des Ereignisses X< x.

Wenn ein kontinuierliches Merkmal untersucht wird, kann die Variationsreihe aus einer sehr großen Anzahl von Zahlen bestehen. In diesem Fall ist es bequemer zu verwenden gruppierte Probe. Um es zu erhalten, wird das Intervall, das alle beobachteten Werte des Merkmals enthält, in mehrere gleich lange Teilintervalle unterteilt h, und dann für jedes Teilintervall suchen n ich ist die Summe der Häufigkeiten der Variante, in die hineingefallen ist ich-ten Intervall.

20. Das Gesetz der großen Zahlen sollte nicht als ein allgemeines Gesetz verstanden werden, das mit großen Zahlen verbunden ist. Das Gesetz der großen Zahlen ist ein verallgemeinerter Name für mehrere Sätze, woraus folgt, dass bei unbegrenzter Erhöhung der Anzahl der Versuche die Mittelwerte zu einigen Konstanten tendieren.

Dazu gehören die Chebyshev- und Bernoulli-Theoreme. Der Satz von Tschebyscheff ist das allgemeinste Gesetz der großen Zahlen.

Grundlage des Beweises von Theoremen, vereint durch den Begriff "Gesetz der großen Zahlen", ist die Chebyshev-Ungleichung, die die Wahrscheinlichkeit der Abweichung von ihrer mathematischen Erwartung festlegt:

19 Pearson-Verteilung (Chi-Quadrat) - Verteilung einer Zufallsvariablen

wo Zufallsvariablen X 1 , X 2 ,…, X n unabhängig sind und die gleiche Verteilung haben N(0,1). In diesem Fall ist die Anzahl der Terme, d.h. n, wird die "Anzahl der Freiheitsgrade" der Chi-Quadrat-Verteilung genannt.

Die Chi-Quadrat-Verteilung wird zum Schätzen der Varianz (unter Verwendung eines Konfidenzintervalls), zum Testen von Hypothesen der Übereinstimmung, Homogenität, Unabhängigkeit,

Verteilung t Student ist die Verteilung einer Zufallsvariablen

wo Zufallsvariablen U und X unabhängig, U hat eine Standardnormalverteilung N(0,1) und X– Verteilung Chi – Quadrat mit n Freiheitsgrade. Dabei n wird die "Anzahl der Freiheitsgrade" der Student-Verteilung genannt.

Es wird bei der Bewertung der mathematischen Erwartung, des Vorhersagewerts und anderer Merkmale unter Verwendung von Konfidenzintervallen verwendet, um Hypothesen über die Werte mathematischer Erwartungen, Regressionsabhängigkeitskoeffizienten zu testen,

Die Fisher-Verteilung ist die Verteilung einer Zufallsvariablen

Die Fisher-Verteilung wird verwendet, um Hypothesen über die Angemessenheit des Modells in der Regressionsanalyse, über die Gleichheit der Varianzen und bei anderen Problemen der angewandten Statistik zu testen.

18Lineare Regression ist ein statistisches Tool zur Vorhersage zukünftiger Preise aus vergangenen Daten und wird häufig verwendet, um festzustellen, wann die Preise überhitzt sind. Die Methode der kleinsten Quadrate wird verwendet, um die "beste passende" gerade Linie durch eine Reihe von Preis-Wert-Punkten zu ziehen. Die als Eingabe verwendeten Preispunkte können eine der folgenden sein: Eröffnung, Schluss, Hoch, Tief,

17. Eine zweidimensionale Zufallsvariable ist eine geordnete Menge von zwei Zufallsvariablen oder .

Beispiel: Es werden zwei Würfel geworfen. - die Anzahl der beim ersten bzw. zweiten Würfel gewürfelten Punkte

Eine universelle Möglichkeit, das Verteilungsgesetz einer zweidimensionalen Zufallsvariablen anzugeben, ist die Verteilungsfunktion.

15.m.o Diskrete Zufallsvariablen

Eigenschaften:

1) M(C) = C, C- konstant;

2) M(CX) = CM(X);

3) M(x1 + x2) = M(x1) + M(x2), wo x1, x2- unabhängige Zufallsvariablen;

4) M(x 1 x 2) = M(x1)M(x2).

Der mathematische Erwartungswert der Summe der Zufallsvariablen ist gleich der Summe ihrer mathematischen Erwartungswerte, d.h.

Die mathematische Erwartung der Differenz von Zufallsvariablen ist gleich der Differenz ihrer mathematischen Erwartung, d.h.

Die mathematische Erwartung des Produkts von Zufallsvariablen ist gleich dem Produkt ihrer mathematischen Erwartungen, d.h.

Wenn alle Werte einer Zufallsvariablen um dieselbe Zahl C erhöht (verringert) werden, erhöht (verringert) sich ihre mathematische Erwartung um dieselbe Zahl

14. Exponentiell(exponentiell)Vertriebsrecht X hat ein exponentielles (exponentielles) Verteilungsgesetz mit Parameter λ > 0, wenn seine Wahrscheinlichkeitsdichte die Form hat:

Erwarteter Wert: .

Streuung: .

Das Exponentialverteilungsgesetz spielt eine wichtige Rolle in der Warteschlangentheorie und der Zuverlässigkeitstheorie.

13. Das Normalverteilungsgesetz ist gekennzeichnet durch eine Ausfallrate a (t) oder eine Ausfallwahrscheinlichkeitsdichte f (t) der Form:

, (5.36)

wobei σ die Standardabweichung von SW ist x;

m x– mathematische Erwartung von CB x. Dieser Parameter wird oft als Dispersionszentrum oder wahrscheinlichster Wert des SW bezeichnet. X.

x- eine Zufallsvariable, die als Zeit, Stromwert, elektrischer Spannungswert und andere Argumente genommen werden kann.

Das Normalgesetz ist ein Zwei-Parameter-Gesetz, für das Sie m kennen müssen x und σ.

Die Normalverteilung (Gaußsche Verteilung) wird verwendet, um die Zuverlässigkeit von Produkten zu bewerten, die von einer Reihe von Zufallsfaktoren beeinflusst werden, von denen jeder nur einen geringen Einfluss auf die resultierende Wirkung hat.

12. Gesetz über die einheitliche Verteilung. Kontinuierliche Zufallsvariable X hat ein Gleichverteilungsgesetz auf dem Intervall [ a, b], wenn seine Wahrscheinlichkeitsdichte auf diesem Segment konstant und außerhalb davon gleich Null ist, d.h.

Bezeichnung: .

Erwarteter Wert: .

Streuung: .

Zufallswert X, gleichmäßig auf einem Segment verteilt heißt Zufallszahl von 0 bis 1. Es dient als Ausgangsmaterial zur Gewinnung von Zufallsvariablen mit beliebigen Verteilungsgesetzen. Das Gleichverteilungsgesetz wird bei der Analyse von Rundungsfehlern in numerischen Berechnungen, bei einer Reihe von Warteschlangenproblemen und bei der statistischen Modellierung von Beobachtungen, die einer bestimmten Verteilung unterliegen, verwendet.

11. Definition. Verteilungsdichte Wahrscheinlichkeiten einer kontinuierlichen Zufallsvariablen X heißt Funktion f(x) ist die erste Ableitung der Verteilungsfunktion F(x).

Verteilungsdichte wird auch genannt Differentialfunktion. Um eine diskrete Zufallsvariable zu beschreiben, ist die Verteilungsdichte nicht akzeptabel.

Die Bedeutung der Verteilungsdichte ist, dass sie anzeigt, wie oft eine Zufallsvariable X in irgendeiner Umgebung des Punktes vorkommt X beim Wiederholen von Experimenten.

Nach der Einführung der Verteilungsfunktionen und der Verteilungsdichte können wir die folgende Definition einer kontinuierlichen Zufallsvariablen geben.

10. Wahrscheinlichkeitsdichte, die Wahreiner Zufallsvariablen x, ist eine Funktion p(x), so dass

und für jedes a< b вероятность события a < x < b равна
.

Wenn p(x) stetig ist, dann ist für hinreichend kleines ∆x die Wahrscheinlichkeit der Ungleichung x< X < x+∆x приближенно равна p(x) ∆x (с точностью до малых более высокого порядка). Функция распределения F(x) случайной величины x, связана с плотностью распределения соотношениями

und wenn F(x) differenzierbar ist, dann

©2015-2019 Seite
Alle Rechte liegen bei ihren Autoren. Diese Website erhebt keinen Anspruch auf Urheberschaft, sondern bietet eine kostenlose Nutzung.
Erstellungsdatum der Seite: 2017-12-29