Der durchschnittliche Stichprobenfehler ist kleiner, wenn er größer ist. Spezifische, mittlere und marginale Stichprobenfehler. Bevölkerung und Stichprobe daraus

Systematische und zufällige Fehler

Moduleinheit 2 Stichprobenfehler

Da eine Stichprobe in der Regel einen sehr kleinen Teil der Grundgesamtheit abdeckt, ist davon auszugehen, dass es Unterschiede zwischen der Schätzung und den Merkmalen der Grundgesamtheit gibt, die die Schätzung widerspiegelt. Diese Unterschiede werden Abbildungsfehler oder Repräsentativitätsfehler genannt. Repräsentativitätsfehler werden in zwei Typen unterteilt: systematische und zufällige.

Systematische Fehler- Hierbei handelt es sich um eine ständige Über- oder Unterschätzung des Beurteilungswertes im Vergleich zu den Merkmalen der Gesamtbevölkerung. Der Grund für das Auftreten eines systematischen Fehlers ist die Nichteinhaltung des Grundsatzes der gleichen Wahrscheinlichkeit, dass jede Einheit der Gesamtbevölkerung in die Stichprobe einbezogen wird, d. h. die Stichprobe wird überwiegend aus den „schlechtesten“ (oder „besten“) Stichproben gebildet. Vertreter der allgemeinen Bevölkerung. Die Einhaltung des Grundsatzes der Chancengleichheit für jede in die Stichprobe einzubeziehende Einheit ermöglicht es uns, diese Art von Fehlern vollständig auszuschließen.

Zufällige Fehler - Hierbei handelt es sich um Unterschiede, die von Stichprobe zu Stichprobe in Vorzeichen und Ausmaß zwischen der Schätzung und dem bewerteten Merkmal der Grundgesamtheit variieren. Der Grund für das Auftreten von Zufallsfehlern ist das Zufallsspiel bei der Bildung einer Stichprobe, die nur einen Teil der Gesamtbevölkerung ausmacht. Diese Art von Fehler ist der Stichprobenmethode organisch inhärent. Es ist unmöglich, sie vollständig auszuschließen; die Aufgabe besteht darin, ihr mögliches Ausmaß vorherzusagen und sie auf ein Minimum zu reduzieren. Die damit verbundene Handlungsreihenfolge ergibt sich aus der Betrachtung von drei Arten von Zufallsfehlern: spezifisch, durchschnittlich und extrem.

2.2.1 Spezifisch Fehler ist der Fehler einer entnommenen Probe. Wenn der Mittelwert für diese Stichprobe () eine Schätzung für den allgemeinen Mittelwert (0) ist und wir davon ausgehen, dass dieser allgemeine Mittelwert uns bekannt ist, dann ist die Differenz = -0 und der spezifische Fehler dieser Stichprobe. Wenn wir die Stichprobe aus dieser Grundgesamtheit viele Male wiederholen, erhalten wir jedes Mal einen neuen Wert für einen bestimmten Fehler: ... und so weiter. Zu diesen spezifischen Fehlern können wir Folgendes sagen: Einige von ihnen werden in Größe und Vorzeichen miteinander übereinstimmen, das heißt, es gibt eine Fehlerverteilung, einige von ihnen werden gleich 0 sein, es liegt eine Übereinstimmung der Schätzung vor und der Parameter der Gesamtbevölkerung;

2.2.2 Durchschnittlicher Fehler ist das mittlere Quadrat aller zufällig möglichen spezifischen Schätzfehler: , wobei die Größe der sich ändernden spezifischen Fehler ist; Häufigkeit (Wahrscheinlichkeit) des Auftretens eines bestimmten Fehlers. Der durchschnittliche Stichprobenfehler gibt an, wie viel Fehler im Durchschnitt gemacht werden kann, wenn auf der Grundlage der Schätzung eine Beurteilung über einen Populationsparameter vorgenommen wird. Die obige Formel offenbart den Inhalt des durchschnittlichen Fehlers, kann jedoch nicht für praktische Berechnungen verwendet werden, schon allein deshalb, weil sie die Kenntnis des Populationsparameters voraussetzt, was an sich die Notwendigkeit einer Stichprobenentnahme überflüssig macht.



Praktische Berechnungen des durchschnittlichen Schätzfehlers basieren auf der Annahme, dass dieser (der durchschnittliche Fehler) im Wesentlichen die Standardabweichung aller möglichen Schätzwerte ist. Diese Prämisse ermöglicht es uns, Algorithmen zur Berechnung des durchschnittlichen Fehlers basierend auf Daten einer einzelnen Stichprobe zu erhalten. Insbesondere kann der durchschnittliche Fehler des Stichprobenmittelwerts auf der Grundlage der folgenden Überlegungen ermittelt werden. Es gibt eine Stichprobe (,…), die aus Einheiten besteht. Für die Stichprobe wird der Stichprobenmittelwert als Schätzung des allgemeinen Durchschnitts definiert. Jeder Wert (,...) unter dem Summenzeichen sollte als unabhängige Zufallsvariable betrachtet werden, da bei unendlicher Wiederholung der Stichprobe der erste, zweite usw. Einheiten können jeden der in der Bevölkerung vorhandenen Werte annehmen. Somit Da bekanntlich die Varianz der Summe unabhängiger Zufallsvariablen gleich der Summe der Varianzen ist, dann . Daraus folgt, dass der durchschnittliche Fehler für den Stichprobendurchschnitt gleich ist und in einem umgekehrten Verhältnis zur Größe der Stichprobe (durch deren Quadratwurzel) und in direktem Verhältnis zur Standardabweichung des Merkmals in der Gesamtbevölkerung steht. Dies ist logisch, da der Stichprobendurchschnitt eine konsistente Schätzung für den allgemeinen Durchschnitt darstellt und sich sein Wert mit zunehmender Stichprobengröße dem geschätzten Parameter der Gesamtbevölkerung annähert. Die direkte Abhängigkeit des durchschnittlichen Fehlers von der Variabilität eines Merkmals ist darauf zurückzuführen, dass es umso schwieriger ist, auf der Grundlage der Stichprobe ein adäquates Modell der Allgemeinbevölkerung zu erstellen, je größer die Variabilität des Merkmals in der Gesamtbevölkerung ist. In der Praxis wird die Standardabweichung eines Merkmals in der Grundgesamtheit durch seine Schätzung in der Stichprobe ersetzt, und dann nimmt die Formel zur Berechnung des durchschnittlichen Fehlers des Stichprobenmittelwerts die Form an: unter Berücksichtigung der Abweichung der Stichprobenvarianz, der Stichprobe Die Standardabweichung wird mit der Formel = berechnet. Da das Symbol n die Stichprobengröße bezeichnet. , dann sollte der Nenner bei der Berechnung der Standardabweichung nicht die Stichprobengröße (n), sondern die sogenannte Anzahl der Freiheitsgrade (n-1) verwenden. Unter der Anzahl der Freiheitsgrade versteht man die Anzahl der Einheiten in einem Aggregat, die frei variieren (verändern) können, wenn aus dem Aggregat ein beliebiges Merkmal ermittelt wird. Da in unserem Fall der Durchschnitt der Stichprobe ermittelt wird, können die Einheiten frei variieren.

Tabelle 2.2 enthält Formeln zur Berechnung der durchschnittlichen Fehler verschiedener Stichprobenschätzungen. Wie aus dieser Tabelle hervorgeht, steht der durchschnittliche Fehler für alle Schätzungen im umgekehrten Verhältnis zur Stichprobengröße und direkt im Zusammenhang mit der Variabilität. Dies gilt auch für den durchschnittlichen Fehler der Stichprobenfraktion (Häufigkeit). Unter der Wurzel steht die Varianz des alternativen Merkmals, ermittelt aus der Stichprobe ()

Die in Tabelle 2.2 angegebenen Formeln beziehen sich auf die sogenannte zufällige, wiederholte Auswahl von Einheiten in der Stichprobe. Bei anderen Auswahlmethoden, auf die weiter unten eingegangen wird, werden die Formeln leicht modifiziert.

Tabelle 2.2

Formeln zur Berechnung der durchschnittlichen Fehler von Stichprobenschätzungen

2.2.3 Grenzstichprobenfehler Die Kenntnis der Schätzung und ihres durchschnittlichen Fehlers ist teilweise völlig unzureichend. Wenn beispielsweise bei der Verwendung von Hormonen in der Tierfütterung nur die durchschnittliche Größe ihrer unzersetzten schädlichen Rückstände und der durchschnittliche Fehler bekannt sind, bedeutet dies, dass Verbraucher des Produkts einer ernsthaften Gefahr ausgesetzt werden. Dies deutet stark auf die Notwendigkeit hin, das Maximum zu bestimmen ( maximaler Fehler). Bei der Stichprobenmethode wird der maximale Fehler nicht in Form eines bestimmten Wertes, sondern in Form gleicher Grenzen festgelegt

(Intervalle) in beide Richtungen vom Bewertungswert.

Die Bestimmung der Grenzen des maximalen Fehlers basiert auf den Merkmalen der Verteilung spezifischer Fehler. Bei sogenannten Großstichproben, deren Anzahl mehr als 30 Einheiten beträgt (), werden spezifische Fehler nach dem Normalverteilungsgesetz verteilt; Bei kleinen Stichproben () werden spezifische Fehler gemäß dem Gosset-Verteilungsgesetz verteilt

(Student). Bezogen auf spezifische Fehler im Stichprobenmittelwert hat die Normalverteilungsfunktion die Form: , wo ist die Wahrscheinlichkeitsdichte des Auftretens bestimmter Werte, vorausgesetzt, wo sind die Stichprobenmittelwerte; - allgemeiner Durchschnitt, - durchschnittlicher Fehler für den Stichprobendurchschnitt. Da der durchschnittliche Fehler () ein konstanter Wert ist, werden bestimmte Fehler gemäß dem Normalgesetz verteilt, ausgedrückt in Anteilen des durchschnittlichen Fehlers oder den sogenannten normalisierten Abweichungen.

Indem wir das Integral der Normalverteilungsfunktion nehmen, können wir die Wahrscheinlichkeit ermitteln, dass der Fehler in einem bestimmten Änderungsintervall t enthalten sein wird, und die Wahrscheinlichkeit, dass der Fehler über dieses Intervall hinausgeht (das gegenteilige Ereignis). Например, вероятность того, что ошибка не превысит половину средней ошибки (в ту и другую сторону от генеральной средней) составляет 0,3829, что ошибка будет заключена в пределах одной средней ошибки - 0,6827, 2-х средних ошибок -0,9545 usw.

Die Beziehung zwischen dem Wahrscheinlichkeitsniveau und dem Änderungsintervall t (und letztendlich dem Fehleränderungsintervall) ermöglicht es uns, uns der Bestimmung des Intervalls (oder der Grenzen) des maximalen Fehlers zu nähern und seinen Wert mit der Wahrscheinlichkeit von zu verknüpfen Auftreten. Die Eintrittswahrscheinlichkeit ist die Wahrscheinlichkeit, dass der Fehler in einem bestimmten Intervall auftritt. Die Eintrittswahrscheinlichkeit ist „Konfidenz“, wenn das entgegengesetzte Ereignis (der Fehler liegt außerhalb des Intervalls) eine solche Eintrittswahrscheinlichkeit aufweist, dass es vernachlässigt werden kann. Daher wird das Konfidenzniveau der Wahrscheinlichkeit in der Regel auf mindestens 0,90 festgelegt (die Wahrscheinlichkeit des gegenteiligen Ereignisses beträgt 0,10). Je negativer das Auftreten von Fehlern außerhalb des festgelegten Intervalls ist, desto höher sollte das Konfidenzniveau der Wahrscheinlichkeit sein (0,95; 0,99; 0,999 usw.).

Nachdem Sie das Konfidenzniveau der Wahrscheinlichkeit aus der Tabelle des Wahrscheinlichkeitsintegrals der Normalverteilung ausgewählt haben, sollten Sie den entsprechenden Wert von t ermitteln und dann mithilfe des Ausdrucks = das Intervall des maximalen Fehlers bestimmen. Der erhaltene Wert hat folgende Bedeutung: Mit dem akzeptierten Konfidenzniveau der Wahrscheinlichkeit wird der maximale Fehler des Stichprobenmittelwerts den Wert nicht überschreiten.

Um die Grenzen des maximalen Fehlers anhand großer Stichproben für andere Schätzungen (Varianz, Standardabweichung, Anteil usw.) festzulegen, wird der oben diskutierte Ansatz verwendet, wobei die Tatsache berücksichtigt wird, dass ein anderer Algorithmus zur Bestimmung des Durchschnitts verwendet wird Fehler für jede Schätzung.

Bei kleinen Stichproben () entspricht die Verteilung der Schätzfehler in diesem Fall, wie bereits erwähnt, der t-Student-Verteilung. Die Besonderheit dieser Verteilung besteht darin, dass als Parameter neben dem Fehler die Stichprobengröße bzw. nicht die Stichprobengröße, sondern die Anzahl der Freiheitsgrade vorhanden ist. Mit zunehmender Stichprobengröße entsteht die t-Student-Verteilung nähert sich dem Normalwert und stimmt bei diesen Verteilungen praktisch überein. Wenn wir die Werte des t-Student-Werts und der t-Normalverteilung auf demselben Konfidenzniveau vergleichen, können wir sagen, dass der t-Student-Wert immer größer als die t-Normalverteilung ist und die Unterschiede mit abnehmendem Wert zunehmen der Stichprobengröße und mit einem Anstieg des Konfidenzniveaus der Wahrscheinlichkeit. Folglich gibt es bei der Verwendung kleiner Stichproben im Vergleich zu großen Stichproben breitere Grenzen des maximalen Fehlers, und diese Grenzen erweitern sich mit abnehmender Stichprobengröße und steigendem Konfidenzniveau der Wahrscheinlichkeit.

Basierend auf den Werten der Merkmale von Einheiten in der Stichprobenpopulation, die gemäß dem statistischen Beobachtungsprogramm registriert wurden, werden verallgemeinerte Stichprobenmerkmale berechnet: Stichprobenmittelwert() Und Beispielfreigabe Einheiten, die ein für Forscher interessantes Merkmal besitzen, in ihrer Gesamtzahl ( w).

Der Unterschied zwischen den Indikatoren der Stichprobe und der Gesamtbevölkerung wird aufgerufen Stichprobenfehler.

Stichprobenfehler werden wie Fehler bei jeder anderen Art statistischer Beobachtung in Registrierungsfehler und Repräsentativitätsfehler unterteilt. Das Hauptziel der Stichprobenmethode besteht darin, zufällige Fehler der Repräsentativität zu untersuchen und zu messen.

Stichprobenmittelwert und Stichprobenanteil sind Zufallsvariablen, die je nachdem, welche Bevölkerungseinheiten in die Stichprobe einbezogen werden, unterschiedliche Werte annehmen können. Daher kommt es auch zu Stichprobenfehlern sind Zufallsvariablen und kann unterschiedliche Bedeutungen annehmen. Daher wird der Durchschnitt der möglichen Fehler ermittelt.

Durchschnittlicher Stichprobenfehler (µ - mu) ist gleich:

für durchschnittlich ; zum Teilen ,

Wo R- der Anteil eines bestimmten Merkmals in der Gesamtbevölkerung.

In diesen Formeln σ x 2 Und R(1-R) sind Merkmale der Allgemeinbevölkerung, die bei der Stichprobenbeobachtung unbekannt sind. In der Praxis werden sie durch ähnliche Merkmale der Stichprobenpopulation auf der Grundlage des Gesetzes der großen Zahlen ersetzt, wonach die Stichprobenpopulation bei ausreichend großem Volumen die Merkmale der Gesamtbevölkerung recht genau wiedergibt. Methoden zur Berechnung der durchschnittlichen Stichprobenfehler für den Durchschnitt und den Anteil bei wiederholter und nicht wiederholter Stichprobe sind in der Tabelle aufgeführt. 6.1.

Tabelle 6.1.

Formeln zur Berechnung des durchschnittlichen Stichprobenfehlers für den Mittelwert und für den Anteil

Der Wert ist immer kleiner als eins, sodass der durchschnittliche Stichprobenfehler bei nicht wiederholter Stichprobe geringer ist als bei wiederholter Stichprobe. In Fällen, in denen der Stichprobenanteil unbedeutend ist und der Multiplikator nahe bei eins liegt, kann die Korrektur vernachlässigt werden.

Man kann davon ausgehen, dass der allgemeine Durchschnittswert eines Indikators bzw. der allgemeine Anteil die Grenzen des durchschnittlichen Stichprobenfehlers nur mit einer gewissen Wahrscheinlichkeit nicht überschreitet. Um den Stichprobenfehler zu charakterisieren, berechnen Sie daher zusätzlich zum durchschnittlichen Fehler marginaler Stichprobenfehler(Δ), das mit dem Wahrscheinlichkeitsniveau verbunden ist, das dies garantiert.

Wahrscheinlichkeitsniveau ( R) bestimmt den Wert der normalisierten Abweichung ( T), umgekehrt. Werte T werden in Normalverteilungstabellen angegeben. Am häufigsten verwendete Kombinationen T Und R sind in der Tabelle angegeben. 6.2.


Tabelle 6.2

Normalisierte Abweichungswerte T bei entsprechenden Werten der Wahrscheinlichkeitsniveaus R

T 1,0 1,5 2,0 2,5 3,0 3,5
R 0,683 0,866 0,954 0,988 0,997 0,999

T- Konfidenzkoeffizient, abhängig von der Wahrscheinlichkeit, mit der garantiert werden kann, dass der maximale Fehler nicht überschritten wird T- mehrfacher durchschnittlicher Fehler. Es zeigt an, wie viele durchschnittliche Fehler im Grenzfehler enthalten sind. Also, wenn T= 1, dann kann mit einer Wahrscheinlichkeit von 0,683 angegeben werden, dass die Differenz zwischen Stichprobe und allgemeinen Indikatoren einen durchschnittlichen Fehler nicht überschreitet.

Formeln zur Berechnung der maximalen Stichprobenfehler sind in der Tabelle aufgeführt. 6.3.

Tabelle 6.3.

Formeln zur Berechnung des maximalen Stichprobenfehlers für den Durchschnitt und für den Anteil

Nach der Berechnung der maximalen Stichprobenfehler finden wir Konfidenzintervalle für allgemeine Indikatoren. Die Wahrscheinlichkeit, die bei der Berechnung des Fehlers eines Stichprobenmerkmals zugrunde gelegt wird, wird als Konfidenz bezeichnet. Ein Konfidenzniveau von 0,95 bedeutet, dass der Fehler nur in 5 von 100 Fällen über die festgelegten Grenzen hinausgehen kann; Wahrscheinlichkeiten von 0,954 - in 46 Fällen von 1000 und mit 0,999 - in 1 Fall von 1000.

Für den allgemeinen Durchschnitt haben die wahrscheinlichsten Grenzen, in denen er sich unter Berücksichtigung des maximalen Repräsentativitätsfehlers befindet, die Form:

.

Die wahrscheinlichsten Grenzen, innerhalb derer sich die gemeinsame Aktie befinden wird, sind:

.

Von hier, allgemeiner Durchschnitt , allgemeiner Anteil .

In der Tabelle angegeben. 6.3. Formeln dienen zur Bestimmung von Stichprobenfehlern, die mit rein zufälligen und mechanischen Methoden durchgeführt werden.

Bei der geschichteten Stichprobe umfasst die Stichprobe notwendigerweise Vertreter aller Gruppen und in der Regel in den gleichen Anteilen wie in der Gesamtbevölkerung. Daher hängt der Stichprobenfehler in diesem Fall hauptsächlich vom Durchschnitt der Varianzen innerhalb der Gruppe ab. Basierend auf der Regel zum Addieren von Varianzen können wir schlussfolgern, dass der Stichprobenfehler bei der geschichteten Stichprobe immer geringer sein wird als bei der Zufallsstichprobe selbst.

Bei der seriellen (Cluster-)Auswahl ist das Maß für die Variabilität die Streuung zwischen den Gruppen.

Die Abweichungen zwischen dem Wert eines durch statistische Beobachtung ermittelten Indikators und seiner tatsächlichen Größe werden aufgerufen Beobachtungsfehler . Abhängig von den Gründen für ihr Auftreten werden Registrierungsfehler und Repräsentativitätsfehler unterschieden.

Registrierungsfehler entstehen durch falsche Sachverhaltsermittlung oder fehlerhafte Aufzeichnung während des Beobachtungs- oder Befragungsprozesses. Sie können zufällig oder systematisch sein. Zufällige Registrierungsfehler können sowohl von den Befragten in ihren Antworten als auch von den Interviewern gemacht werden. Systematische Fehler können sowohl beabsichtigt als auch unbeabsichtigt sein. Bewusste – bewusste, tendenziöse Verzerrung der tatsächlichen Lage. Unbeabsichtigte werden durch verschiedene zufällige Gründe (Fahrlässigkeit, Unaufmerksamkeit) verursacht.

Repräsentativitätsfehler (Repräsentativität) entstehen durch eine unvollständige Erhebung und wenn die befragte Bevölkerung die Gesamtbevölkerung nicht vollständig wiedergibt. Sie können zufällig oder systematisch sein. Zufällige Repräsentativitätsfehler sind Abweichungen, die bei unvollständiger Beobachtung dadurch entstehen, dass die Menge der ausgewählten Beobachtungseinheiten (Stichprobe) die gesamte Grundgesamtheit nicht vollständig wiedergibt. Systematische Repräsentativitätsfehler sind Abweichungen, die durch Verstöße gegen die Grundsätze der zufälligen Auswahl von Einheiten entstehen. Repräsentativitätsfehler sind der selektiven Beobachtung organisch inhärent und entstehen dadurch, dass die Stichprobenpopulation die Gesamtbevölkerung nicht vollständig reproduziert. Repräsentativitätsfehler lassen sich nicht vermeiden, jedoch können diese Fehler mit Methoden der Wahrscheinlichkeitstheorie, die auf der Verwendung von Grenzwertsätzen des Gesetzes der großen Zahlen basieren, auf Minimalwerte reduziert werden, deren Grenzen mit ausreichend hoher Genauigkeit festgelegt werden.

Stichprobenfehler – der Unterschied zwischen den Merkmalen der Stichprobe und der Allgemeinbevölkerung. Für den Durchschnittswert wird der Fehler durch die Formel bestimmt

Wo

Größe
angerufen extremer Fehler Proben.

Der maximale Stichprobenfehler ist ein Zufallswert. Grenzwertsätze des Gesetzes der großen Zahlen widmen sich der Untersuchung der Muster zufälliger Stichprobenfehler. Diese Muster werden am besten in den Theoremen von P. L. Chebyshev und A. M. Lyapunov offenbart.

Satz von P. L. Chebyshev In Bezug auf die betrachtete Methode lässt sich Folgendes formulieren: Bei einer ausreichend großen Anzahl unabhängiger Beobachtungen kann mit einer Wahrscheinlichkeit nahe eins (d. h. fast mit Sicherheit) behauptet werden, dass die Abweichung der Stichprobe vorliegt Der Durchschnitt aus dem allgemeinen Durchschnitt wird beliebig klein sein. Im Satz von P. L. Chebyshev wird bewiesen, dass die Größe des Fehlers nicht größer sein sollte . Im Gegenzug der Wert , der die Standardabweichung des Stichprobenmittelwerts vom allgemeinen Mittelwert ausdrückt, hängt von der Variabilität des Merkmals in der Grundgesamtheit ab und Anzahl der ausgewählten Einheiten N. Diese Abhängigkeit wird durch die Formel ausgedrückt

, (7.2)

Wo hängt auch von der Probenahmemethode ab.

Größe =angerufen durchschnittlicher Stichprobenfehler. In diesem Ausdruck – allgemeine Varianz, N– Größe der Stichprobenpopulation.

Betrachten wir, wie sich die Anzahl der ausgewählten Einheiten auf den durchschnittlichen Fehler auswirkt N. Logischerweise ist es nicht schwer zu überprüfen, dass bei der Auswahl einer großen Anzahl von Einheiten die Unterschiede zwischen den Durchschnittswerten kleiner werden, d. h. es besteht eine umgekehrte Beziehung zwischen dem durchschnittlichen Stichprobenfehler und der Anzahl der ausgewählten Einheiten. In diesem Fall wird nicht nur eine umgekehrte mathematische Beziehung gebildet, sondern eine Beziehung, die zeigt, dass das Quadrat der Abweichung zwischen den Durchschnittswerten umgekehrt proportional zur Anzahl der ausgewählten Einheiten ist.

Eine Erhöhung der Variabilität eines Merkmals führt zu einer Erhöhung der Standardabweichung und damit zu einem Fehler. Wenn wir davon ausgehen, dass alle Einheiten den gleichen Wert des Attributs haben, wird die Standardabweichung Null und der Stichprobenfehler verschwindet ebenfalls. Dann ist keine Probenahme erforderlich. Allerdings ist zu bedenken, dass das Ausmaß der Variabilität eines Merkmals in der Allgemeinbevölkerung unbekannt ist, da die Größe der darin enthaltenen Einheiten unbekannt ist. Es ist möglich, nur die Variabilität eines Merkmals in einer Stichprobenpopulation zu berechnen. Die Beziehung zwischen den Varianzen der Gesamt- und Stichprobenpopulation wird durch die Formel ausgedrückt

Da der Wert bei ausreichender Größe N nahe bei Eins liegt, können wir ungefähr davon ausgehen, dass die Stichprobenvarianz gleich der allgemeinen Varianz ist, d. h.

Folglich zeigt der durchschnittliche Stichprobenfehler, welche möglichen Abweichungen die Merkmale der Stichprobenpopulation von den entsprechenden Merkmalen der Allgemeinbevölkerung aufweisen können. Die Größe dieses Fehlers lässt sich jedoch mit einer gewissen Wahrscheinlichkeit abschätzen. Der Wahrscheinlichkeitswert wird durch den Multiplikator angegeben

Satz von A. M. Lyapunov . A. M. Lyapunov hat bewiesen, dass die Verteilung der Stichprobenmittelwerte (und damit ihrer Abweichungen vom allgemeinen Mittelwert) bei einer ausreichend großen Anzahl unabhängiger Beobachtungen annähernd normal ist, vorausgesetzt, dass die Gesamtbevölkerung einen endlichen Mittelwert und eine begrenzte Varianz aufweist.

Mathematisch Satz von Lyapunov kann so geschrieben werden:

(7.3)

Wo
, (7.4)

Wo
– mathematische Konstante;

marginaler Stichprobenfehler , Dadurch lässt sich herausfinden, innerhalb welcher Grenzen der Wert des allgemeinen Durchschnitts liegt.

Die Werte dieses Integrals für verschiedene Werte des Konfidenzkoeffizienten T berechnet und in speziellen mathematischen Tabellen dargestellt. Insbesondere wenn:

Weil das T gibt die Wahrscheinlichkeit einer Diskrepanz an
, also die Wahrscheinlichkeit, um wie viel der Gesamtdurchschnitt vom Stichprobendurchschnitt abweicht, dann lässt sich das wie folgt ablesen: Mit einer Wahrscheinlichkeit von 0,683 lässt sich sagen, dass die Differenz zwischen Stichprobe und Gesamtdurchschnitt einen Wert nicht überschreitet des durchschnittlichen Stichprobenfehlers. Mit anderen Worten: In 68,3 % der Fälle wird der Repräsentativitätsfehler die Grenzwerte nicht überschreiten
Mit einer Wahrscheinlichkeit von 0,954 kann angegeben werden, dass der Repräsentativitätsfehler nicht größer ist
(also in 95 % der Fälle). Bei einer Wahrscheinlichkeit von 0,997, also ziemlich nahe bei eins, können wir davon ausgehen, dass die Differenz zwischen der Stichprobe und dem allgemeinen Durchschnitt das Dreifache des durchschnittlichen Stichprobenfehlers usw. nicht überschreitet.

Logischerweise sieht der Zusammenhang hier ganz klar aus: Je größer die Grenzen, innerhalb derer ein möglicher Fehler zulässig ist, desto wahrscheinlicher ist es, dessen Ausmaß zu beurteilen.

Den Stichprobenmittelwert des Attributs kennen
und marginaler Stichprobenfehler
, ist es möglich, die Grenzen (Grenzen) zu bestimmen, innerhalb derer der allgemeine Durchschnitt enthalten ist

1 . Richtige Zufallsauswahl – Diese Methode konzentriert sich auf die Auswahl von Einheiten aus der Gesamtbevölkerung ohne Unterteilung in Teile oder Gruppen. Gleichzeitig wird zur Wahrung des Grundprinzips der Stichprobe – gleiche Chance für die Auswahl aller Einheiten der Gesamtbevölkerung – ein Schema zur zufälligen Gewinnung von Einheiten durch Auslosung (Lotterie) oder eine Tabelle mit Zufallszahlen verwendet . Wiederholte und nicht wiederkehrende Auswahl von Einheiten ist möglich

Der durchschnittliche Fehler einer Zufallsstichprobe ist die Standardabweichung möglicher Werte des Stichprobendurchschnitts vom Gesamtdurchschnitt. Die durchschnittlichen Stichprobenfehler bei der rein zufälligen Stichprobenmethode sind in der Tabelle dargestellt. 7.2.

Tabelle 7.2

Durchschnittlicher Stichprobenfehler μ

Bei der Auswahl

wiederholt

wiederholbar

Für durchschnittlich

In der Tabelle werden folgende Notationen verwendet:

– Varianz der Stichprobenpopulation;

– Stichprobengröße;

– Größe der Gesamtbevölkerung;

– Stichprobenanteil der Einheiten, die das untersuchte Merkmal besitzen;

– die Anzahl der Einheiten, die das untersuchte Merkmal besitzen;

– Stichprobengröße.

Zur Erhöhung der Genauigkeit anstelle eines Multiplikators Sie sollten einen Multiplikator nehmen
, aber mit einer großen Anzahl N Der Unterschied zwischen diesen Ausdrücken hat keine praktische Bedeutung.

Maximaler Fehler einer wirklich zufälligen Stichprobe
nach der Formel berechnet

, (7.6)

Wo T – Der Konfidenzkoeffizient hängt vom Wahrscheinlichkeitswert ab.

Beispiel. Bei der Untersuchung von einhundert stichprobenartig aus der Charge ausgewählten Produktproben stellte sich heraus, dass 20 davon nicht dem Standard entsprachen. Bestimmen Sie mit einer Wahrscheinlichkeit von 0,954 die Grenzen, innerhalb derer der Anteil nicht standardmäßiger Produkte in der Charge liegt.

Lösung. Berechnen wir den allgemeinen Anteil ( R):
.

Anteil nicht standardmäßiger Produkte:
.

Der maximale Fehler des Stichprobenanteils mit einer Wahrscheinlichkeit von 0,954 wird mit Formel (7.6) anhand der Formel in der Tabelle berechnet. 7.2 für Anteil:

Mit einer Wahrscheinlichkeit von 0,954 kann angegeben werden, dass der Anteil nicht standardmäßiger Produkte in einer Warencharge innerhalb von 12 % ≤ liegt P≤ 28 %.

In der Praxis der Stichprobenbeobachtung besteht die Notwendigkeit, die Größe der Stichprobe zu bestimmen, was notwendig ist, um eine gewisse Genauigkeit bei der Berechnung allgemeiner Durchschnittswerte sicherzustellen. Der maximale Stichprobenfehler und seine Wahrscheinlichkeit werden angegeben. Aus der Formel
und Formeln für durchschnittliche Stichprobenfehler wird die erforderliche Stichprobengröße ermittelt. Formeln zur Bestimmung der Stichprobengröße ( N) hängen von der Auswahlmethode ab. Die Berechnung der Stichprobengröße für eine reine Zufallsstichprobe ist in der Tabelle angegeben. 7.3.

Tabelle 7.3

Geschätzte Auswahl

für durchschnittlich

Wiederholt

Wiederhollos

2 . Mechanische Probenahme – Bei dieser Methode gehen sie davon aus, bestimmte Merkmale des Standorts von Objekten in der Gesamtbevölkerung und ihre Reihenfolge (nach Liste, Nummer, Alphabet) zu berücksichtigen. Die mechanische Probenahme erfolgt durch Auswahl einzelner Objekte der Allgemeinbevölkerung in einem bestimmten Intervall (jeden 10. oder 20.). Das Intervall wird im Verhältnis zu berechnet , Wo N– Stichprobengröße, N– Größe der Gesamtbevölkerung. Wenn also erwartet wird, dass aus einer Grundgesamtheit von 500.000 Einheiten eine Stichprobe von 2 % erhalten wird, d. h. 10.000 Einheiten ausgewählt werden, dann beträgt der Auswahlanteil
Die Auswahl der Einheiten erfolgt entsprechend dem festgelegten Anteil in regelmäßigen Abständen. Wenn die Position von Objekten in der Gesamtbevölkerung zufällig ist, ähnelt die mechanische Stichprobe inhaltlich der Zufallsauswahl. Bei der mechanischen Auswahl wird nur eine nicht wiederkehrende Probenahme verwendet.

Der durchschnittliche Fehler und die Stichprobengröße bei der mechanischen Auswahl werden mithilfe der Formeln für eine ordnungsgemäße Zufallsstichprobe berechnet (siehe Tabellen 7.2 und 7.3).

3 . Typische Probe , bei dem die Gesamtbevölkerung nach einigen wesentlichen Merkmalen in typische Gruppen eingeteilt wird; Die Auswahl der Einheiten erfolgt aus typischen Gruppen. Bei dieser Auswahlmethode wird die Gesamtbevölkerung in in gewisser Hinsicht homogene Gruppen mit jeweils eigenen Merkmalen eingeteilt, und es kommt darauf an, die Größe der Stichproben aus jeder Gruppe zu bestimmen. Kann sein einheitliche Probenahme – Bei dieser Methode wird aus jeder typischen Gruppe die gleiche Anzahl an Einheiten ausgewählt
Dieser Ansatz ist nur dann gerechtfertigt, wenn die Anzahl der ursprünglichen typischen Gruppen gleich ist. Bei der typischen Auswahl, die in keinem Verhältnis zur Größe der Gruppen steht, wird die Gesamtzahl der ausgewählten Einheiten durch die Anzahl der typischen Gruppen dividiert. Der resultierende Wert gibt die Anzahl der ausgewählten Einheiten aus jeder typischen Gruppe an.

Eine fortgeschrittenere Form der Auswahl ist proportionale Probenahme . Ein Schema zur Bildung einer Stichprobenpopulation wird als proportional bezeichnet, wenn die Anzahl der aus jeder typischen Gruppe in der Gesamtbevölkerung entnommenen Stichproben proportional zu den Zahlen und Varianzen (oder einer Kombination aus Zahlen und Varianzen) ist. Wir legen die Stichprobengröße bedingt auf 100 Einheiten fest und wählen Einheiten aus den Gruppen aus:

im Verhältnis zur Größe ihrer Gesamtbevölkerung (Tabelle 7.4). Die Tabelle zeigt:

N ich– Größe der typischen Gruppe;

D J- Aktie ( N ich/ N);

N– Größe der Gesamtbevölkerung;

N ich– Die Stichprobengröße aus einer typischen Gruppe wird berechnet:

, (7.7)

N– Größe der Stichprobe aus der Allgemeinbevölkerung.

Tabelle 7.4

N ich

D J

N ich

proportional zur Standardabweichung (Tabelle 7.5).

hier  ich– Standardabweichung typischer Gruppen;

N ich – Die Stichprobengröße einer typischen Gruppe wird anhand der Formel berechnet

(7.8)

Tabelle 7.5

N ich

N ich

kombiniert (Tabelle 7.6).

Die Stichprobengröße wird anhand der Formel berechnet

. (7.9)

Tabelle 7.6

ich N ich

Bei der Durchführung einer typischen Stichprobe erfolgt die direkte Auswahl aus jeder Gruppe mittels Zufallsstichprobe.

Die durchschnittlichen Stichprobenfehler werden anhand der Formeln in der Tabelle berechnet. 7,7 abhängig von der Auswahlmethode aus typischen Gruppen.

Tabelle 7.7

Auswahlmethode

Wiederholt

Wiederhollos

für durchschnittlich

zum Teilen

für durchschnittlich

zum Teilen

Unverhältnismäßig zur Gruppengröße

Proportional zur Gruppengröße

Proportional zu Schwankungen in Gruppen (ist am profitabelsten)

Hier
– der Durchschnitt der gruppeninternen Varianzen typischer Gruppen;

– der Anteil der Einheiten, die das untersuchte Merkmal besitzen;

– der Durchschnitt der gruppeninternen Varianzen für den Anteil;

– Standardabweichung in einer Stichprobe von ich die typische Gruppe;

– Stichprobengröße aus einer typischen Gruppe;

– Gesamtstichprobengröße;

– Volumen einer typischen Gruppe;

– Umfang der Gesamtbevölkerung.

Die Stichprobengröße jeder typischen Gruppe sollte proportional zur Standardabweichung in dieser Gruppe sein
.Berechnung von Zahlen
hergestellt nach den in der Tabelle angegebenen Formeln. 7.8.

Tabelle 7.8

4 . Serienbemusterung – praktisch in Fällen, in denen Bevölkerungseinheiten zu kleinen Gruppen oder Serien zusammengefasst werden. Bei der Reihenstichprobe wird die Gesamtbevölkerung in gleich große Gruppen – Reihen – eingeteilt. Reihen werden in die Stichprobenpopulation ausgewählt. Das Wesen der Serienbemusterung ist die zufällige oder mechanische Auswahl von Serien, innerhalb derer eine kontinuierliche Prüfung der Einheiten durchgeführt wird. Der durchschnittliche Fehler einer Reihenstichprobe mit gleichen Reihen hängt nur von der Größe der Varianz zwischen den Gruppen ab. Die durchschnittlichen Fehler sind in der Tabelle zusammengefasst. 7.9.

Tabelle 7.9

Methode zur Serienauswahl

für durchschnittlich

zum Teilen

Wiederholt

Wiederhollos

Hier R– Anzahl der Serien in der Gesamtbevölkerung;

R– Anzahl der ausgewählten Serien;

– Streuung der Mittelwerte zwischen den Reihen (zwischen den Gruppen);

– Interserien-(Intergruppen-)Streuung des Anteils.

Bei der Serienauswahl wird die benötigte Anzahl der ausgewählten Serien auf die gleiche Weise ermittelt wie bei der rein zufälligen Auswahlmethode.

Die Anzahl der Serienproben wird anhand der in der Tabelle angegebenen Formeln berechnet. 7.10.

Tabelle 7.10

Beispiel. In der mechanischen Werkstatt des Werks arbeiten 100 Arbeiter in zehn Teams. Um die Qualifikationen der Arbeitnehmer zu untersuchen, wurde eine 20-prozentige serielle, nicht wiederkehrende Stichprobe durchgeführt, an der zwei Teams teilnahmen. Es ergab sich folgende Verteilung der befragten Arbeitnehmer nach Kategorien:

Kategorien der Arbeiter in Brigade 1

Kategorien der Arbeiter in Brigade 2

Kategorien der Arbeiter in Brigade 1

Kategorien der Arbeiter in Brigade 2

Es ist notwendig, mit einer Wahrscheinlichkeit von 0,997 die Grenzen zu bestimmen, innerhalb derer die durchschnittliche Kategorie der Arbeiter in einer Maschinenwerkstatt liegt.

Lösung. Definieren wir Stichprobendurchschnitte für Teams und den Gesamtdurchschnitt als gewichteten Durchschnitt der Gruppendurchschnitte:

Bestimmen wir die Streuung zwischen den Reihen mithilfe der Formeln (5.25):

Berechnen wir den durchschnittlichen Stichprobenfehler mithilfe der Formel in der Tabelle. 7.9:

Berechnen wir den maximalen Stichprobenfehler mit einer Wahrscheinlichkeit von 0,997:

Mit einer Wahrscheinlichkeit von 0,997 kann angegeben werden, dass die durchschnittliche Kategorie der Arbeiter in einer Maschinenwerkstatt innerhalb dieses Bereichs liegt

Wie wir bereits wissen, ist Repräsentativität die Eigenschaft einer Stichprobenpopulation, die Merkmale der Gesamtbevölkerung darzustellen. Liegt keine Übereinstimmung vor, spricht man von einem Repräsentativitätsfehler – einem Maß für die Abweichung der statistischen Struktur der Stichprobe von der Struktur der entsprechenden Gesamtbevölkerung. Nehmen wir an, dass das durchschnittliche monatliche Familieneinkommen der Rentner in der Allgemeinbevölkerung 2.000 Rubel und in der Stichprobenbevölkerung 6.000 Rubel beträgt. Das bedeutet, dass der Soziologe nur den wohlhabenden Teil der Rentner befragte und sich in seiner Studie ein Repräsentativitätsfehler eingeschlichen hat. Mit anderen Worten, der Repräsentativitätsfehler ist die Diskrepanz zwischen zwei Bevölkerungsgruppen – der Allgemeinbevölkerung, auf die sich das theoretische Interesse des Soziologen richtet und eine Vorstellung von deren Eigenschaften er letztendlich erhalten möchte, und der Stichprobe, auf die der Soziologe zielt Es richtet sich an das praktische Interesse, das gleichzeitig als Untersuchungsgegenstand und Mittel zur Informationsbeschaffung über die Allgemeinbevölkerung fungiert.

Neben dem Begriff „Repräsentativitätsfehler“ findet sich in der heimischen Literatur ein weiterer Begriff: „Stichprobenfehler“. Manchmal werden sie synonym verwendet, und manchmal wird „Stichprobenfehler“ anstelle von „repräsentativer Fehler“ als quantitativ präziseres Konzept verwendet.

Der Stichprobenfehler ist die Abweichung der durchschnittlichen Merkmale der Stichprobenpopulation von den durchschnittlichen Merkmalen der Gesamtbevölkerung.

In der Praxis wird der Stichprobenfehler durch den Vergleich bekannter Populationsmerkmale mit Stichprobenmittelwerten bestimmt. In der Soziologie werden bei der Befragung der erwachsenen Bevölkerung am häufigsten Daten aus Volkszählungen, aktuellen Statistiken und Ergebnissen früherer Befragungen herangezogen. Als Steuerungsparameter werden üblicherweise soziodemografische Merkmale herangezogen. Der Vergleich der Durchschnittswerte der Gesamt- und Stichprobenpopulation, auf dessen Grundlage die Bestimmung des Stichprobenfehlers und seine Reduzierung wird als Kontrolle der Repräsentativität bezeichnet. Da nach Abschluss der Studie ein Vergleich der eigenen und fremden Daten möglich ist, nennt man diese Kontrollmethode a posteriori, d. h. nach dem Erlebnis durchgeführt.

Bei Gallup-Umfragen wird die Repräsentativität mithilfe von Daten kontrolliert, die in nationalen Volkszählungen zur Verteilung der Bevölkerung nach Geschlecht, Alter, Bildung, Einkommen, Beruf, Rasse, Wohnort und Siedlungsgröße verfügbar sind. Das Allrussische Zentrum für das Studium der öffentlichen Meinung (VTsIOM) verwendet für solche Zwecke Indikatoren wie Geschlecht, Alter, Bildung, Art der Ansiedlung, Familienstand, Beschäftigungsbereich, Berufsstatus des Befragten, die entlehnt sind das Staatliche Komitee für Statistik der Russischen Föderation. In beiden Fällen ist die Population bekannt. Der Stichprobenfehler kann nicht bestimmt werden, wenn die Werte der Variablen in der Stichprobe und Grundgesamtheit unbekannt sind.

Die Spezialisten von VTsIOM sorgen für eine sorgfältige Reparatur der Probe während der Datenanalyse, um Abweichungen zu minimieren, die während der Feldarbeitsphase aufgetreten sind. Besonders starke Verzerrungen sind hinsichtlich Geschlecht und Alter zu beobachten. Dies erklärt sich aus der Tatsache, dass Frauen und Menschen mit höherer Bildung mehr Zeit zu Hause verbringen und leichter Kontakt zum Interviewer aufnehmen, d. h. sind im Vergleich zu Männern und „ungebildeten“ Menschen eine leicht zugängliche Gruppe35.

Stichprobenfehler werden durch zwei Faktoren verursacht: Stichprobenmethode und Stichprobengröße.

Stichprobenfehler werden in zwei Arten unterteilt: zufällige und systematische. Der Zufallsfehler ist die Wahrscheinlichkeit, dass der Stichprobenmittelwert außerhalb eines bestimmten Intervalls liegt (oder nicht). Zu den Zufallsfehlern zählen statistische Fehler, die der Stichprobenmethode selbst innewohnen. Sie nehmen mit zunehmender Stichprobengröße ab.

Die zweite Art von Stichprobenfehlern ist der systematische Fehler. Entscheidet sich ein Soziologe, die Meinung aller Stadtbewohner über die Sozialpolitik der Kommunen zu erfahren und befragt nur diejenigen, die über ein Telefon verfügen, so entsteht in der Stichprobe eine bewusste Verzerrung zugunsten der wohlhabenden Schichten, d.h. systematischer Fehler.

Systematische Fehler sind also das Ergebnis der eigenen Aktivitäten des Forschers. Sie sind am gefährlichsten, weil sie zu erheblichen Verzerrungen der Forschungsergebnisse führen. Systematische Fehler gelten als schlimmer als zufällige Fehler, auch weil sie nicht kontrolliert und gemessen werden können.

Sie entstehen beispielsweise, wenn: 1) die Stichprobe nicht den Zielen der Studie entspricht (der Soziologe beschloss, nur erwerbstätige Rentner zu untersuchen, befragte aber alle); 2) es besteht eine offensichtliche Unkenntnis über die Natur der allgemeinen Bevölkerung (der Soziologe ging davon aus, dass 70 % aller Rentner nicht arbeiteten, es stellte sich jedoch heraus, dass nur 10 % nicht arbeiteten); 3) Es werden nur „gewinnende“ Elemente der Gesamtbevölkerung ausgewählt (z. B. nur wohlhabende Rentner).

Aufmerksamkeit! Im Gegensatz zu Zufallsfehlern nehmen systematische Fehler nicht mit zunehmender Stichprobengröße ab.

Nachdem die Methodiker alle Fälle systematischer Fehler zusammengefasst hatten, erstellten sie ein Register. Sie glauben, dass die folgenden Faktoren die Ursache für unkontrollierte Verzerrungen in der Verteilung der Stichprobenbeobachtungen sein könnten:
♦ methodische und methodische Regeln für die Durchführung soziologischer Forschung wurden verletzt;
♦ Es wurden unzureichende Methoden zur Bildung einer Stichprobenpopulation sowie Methoden zur Erhebung und Berechnung von Daten gewählt.
♦ die erforderlichen Beobachtungseinheiten wurden durch andere, besser zugängliche ersetzt;
♦ Es wurde eine unvollständige Abdeckung der Stichprobenpopulation festgestellt (unzureichender Eingang der Fragebögen, unvollständiges Ausfüllen derselben, Unzugänglichkeit der Beobachtungseinheiten).

Ein Soziologe macht selten absichtliche Fehler. Fehler entstehen häufiger dadurch, dass der Soziologe die Struktur der Gesamtbevölkerung kaum kennt: die Verteilung der Menschen nach Alter, Beruf, Einkommen usw.

Systematische Fehler sind leichter zu verhindern (im Vergleich zu zufälligen), aber sehr schwer zu beseitigen. Es ist am besten, systematische Fehler zu verhindern, indem man ihre Quellen im Voraus – gleich zu Beginn der Studie – genau vorhersieht.

Hier sind einige Möglichkeiten, Stichprobenfehler zu vermeiden:
♦ Jede Einheit in der Grundgesamtheit muss die gleiche Wahrscheinlichkeit haben, in die Stichprobe aufgenommen zu werden.
♦ es ist ratsam, aus homogenen Populationen auszuwählen;
♦ Sie müssen die Merkmale der allgemeinen Bevölkerung kennen;
♦ Bei der Zusammenstellung einer Stichprobenpopulation müssen zufällige und systematische Fehler berücksichtigt werden.

Wenn die Stichprobenpopulation (oder einfach eine Stichprobe) korrekt zusammengestellt ist, erhält der Soziologe verlässliche Ergebnisse, die die gesamte Bevölkerung charakterisieren. Bei einer fehlerhaften Zusammenstellung vervielfacht sich der bei der Stichprobenziehung entstandene Fehler in jeder weiteren Phase der soziologischen Forschung und erreicht letztendlich einen Wert, der den Wert der durchgeführten Forschung übersteigt. Sie sagen, dass solche Forschung mehr schadet als nützt.

Solche Fehler können nur bei einer Stichprobenpopulation auftreten. Um die Fehlerwahrscheinlichkeit zu vermeiden oder zu verringern, besteht der einfachste Weg darin, die Stichprobengröße zu erhöhen (idealerweise auf die Größe der Gesamtstichprobe: Wenn beide Grundgesamtheiten übereinstimmen, verschwindet der Stichprobenfehler vollständig). Aus wirtschaftlicher Sicht ist diese Methode unmöglich. Es bleibt noch ein anderer Weg – die mathematischen Methoden zur Stichprobenziehung zu verbessern. Sie werden in der Praxis eingesetzt. Dies ist der erste Kanal des Eindringens in die Soziologie der Mathematik. Der zweite Kanal ist die mathematische Datenverarbeitung.

Besonders wichtig wird das Fehlerproblem in der Marktforschung, wo kleine Stichproben verwendet werden. Normalerweise sind es mehrere Hundert, seltener - tausend Befragte. Ausgangspunkt der Stichprobenberechnung ist hier die Frage nach der Bestimmung der Größe der Stichprobenpopulation. Die Größe der Stichprobenpopulation hängt von zwei Faktoren ab: 1) den Kosten für das Sammeln von Informationen und 2) dem Wunsch nach einem gewissen Grad an statistischer Zuverlässigkeit der Ergebnisse, die der Forscher erzielen möchte. Natürlich verstehen auch Menschen, die keine Erfahrung in Statistik und Soziologie haben, intuitiv, dass je größer die Stichprobengröße, d. h. Je näher sie an der Größe der Gesamtbevölkerung liegen, desto zuverlässiger und valider sind die gewonnenen Daten. Wir haben jedoch oben bereits über die praktische Unmöglichkeit kontinuierlicher Untersuchungen gesprochen, wenn sie an Objekten durchgeführt werden, deren Anzahl Zehntausende, Hunderttausende und sogar Millionen übersteigt. Es ist klar, dass die Kosten für das Sammeln von Informationen (einschließlich der Bezahlung für die Replikation von Tools, der Arbeit von Fragebögen, Feldmanagern und Computereingabebedienern) von dem Betrag abhängen, den der Kunde bereit ist, bereitzustellen, und wenig von den Forschern abhängen. Was den zweiten Faktor betrifft, werden wir etwas ausführlicher darauf eingehen.

Je größer also die Stichprobe ist, desto kleiner ist der mögliche Fehler. Allerdings ist zu beachten, dass Sie die Stichprobe nicht um zwei, sondern um vier erhöhen müssen, wenn Sie die Genauigkeit verdoppeln möchten. Um beispielsweise eine Schätzung der Daten aus einer Befragung von 400 Personen doppelt so genau zu machen, müssten Sie 1.600 Personen statt 800 befragen. Es ist jedoch unwahrscheinlich, dass die Marktforschung eine 100-prozentige Genauigkeit erfordert. Wenn ein Brauer herausfinden muss, wie viel Prozent der Bierkonsumenten seine Marke gegenüber der Marke seines Konkurrenten bevorzugen – 60 % oder 40 % –, werden seine Pläne durch die Differenz zwischen 57 %, 60 oder 63 % in keiner Weise beeinflusst.

Der Stichprobenfehler kann nicht nur von seiner Größe abhängen, sondern auch vom Grad der Unterschiede zwischen einzelnen Einheiten innerhalb der von uns untersuchten Population. Wenn wir beispielsweise wissen wollen, wie viel Bier konsumiert wird, werden wir feststellen, dass innerhalb unserer Bevölkerung die Konsumraten zwischen verschiedenen Personen (heterogene Bevölkerung) erheblich variieren. In einem anderen Fall werden wir den Brotkonsum untersuchen und feststellen, dass er zwischen verschiedenen Menschen (homogene Bevölkerung) viel weniger stark variiert. Je größer die Variation (oder Heterogenität) innerhalb einer Population ist, desto größer ist das Ausmaß des möglichen Stichprobenfehlers. Dieses Muster bestätigt nur, was uns der einfache gesunde Menschenverstand sagt. Wie V. Yadov zu Recht feststellt, „hängt die Größe (das Volumen) der Probe vom Grad der Homogenität oder Heterogenität der untersuchten Objekte ab.“ Je homogener sie sind, desto kleiner sind die Zahlen, die statistisch belastbare Aussagen ermöglichen.“

Die Bestimmung des Stichprobenumfangs hängt auch von der Höhe des Konfidenzintervalls des zulässigen statistischen Fehlers ab. Dabei handelt es sich um sogenannte Zufallsfehler, die mit der Art etwaiger statistischer Fehler zusammenhängen. IN UND. Paniotto liefert die folgenden Berechnungen für eine repräsentative Stichprobe unter der Annahme eines Fehlers von 5 %:
Das heißt, wenn Sie nach einer Befragung von beispielsweise 400 Personen in einer Regionalstadt, in der die erwachsene zahlungsfähige Bevölkerung 100.000 Menschen beträgt, feststellen, dass 33 % der befragten Käufer die Produkte eines örtlichen Fleischverarbeitungsbetriebes bevorzugen, dann sind es bei 95 % Wahrscheinlich kann man sagen, dass 33+5 % (d. h. 28 bis 38 %) der Einwohner dieser Stadt regelmäßige Käufer dieser Produkte sind.

Sie können auch Gallup-Berechnungen verwenden, um das Stichprobengrößenverhältnis und den Stichprobenfehler abzuschätzen.

In der Regel gibt es einige Unstimmigkeiten zwischen den Indikatoren der Stichprobenpopulation und den gewünschten Indikatoren (Parametern) der Allgemeinbevölkerung, die aufgerufen werden Stichprobenfehler. Der allgemeine Stichprobenfehler besteht aus zwei Arten von Fehlern: Registrierungsfehler und Repräsentativitätsfehler.

Registrierungsfehler sind charakteristisch für jede statistische Beobachtung und ihr Auftreten kann durch Nachlässigkeit des Registrators, Ungenauigkeit der Berechnungen, Unvollkommenheit der Messgeräte usw. verursacht werden.

Repräsentativitätsfehler sind nur der selektiven Beobachtung inhärent und liegen in ihrer Natur, denn egal wie sorgfältig und korrekt die Auswahl der Einheiten durchgeführt wird, die durchschnittlichen und relativen Indikatoren der Stichprobenpopulation weichen immer in gewissem Maße von den entsprechenden Indikatoren ab der allgemeinen Bevölkerung.

Es gibt systematische und zufällige Fehler der Repräsentativität. Systematische Repräsentativitätsfehler sind Ungenauigkeiten, die dadurch entstehen, dass die Bedingungen für die Auswahl von Einheiten in der Stichprobenpopulation nicht eingehalten werden und nicht für jede Einheit der Gesamtbevölkerung die gleiche Chance besteht, in die Stichprobe aufgenommen zu werden. Zufällige Repräsentativitätsfehler sind Fehler, die dadurch entstehen, dass die Stichprobenpopulation aufgrund der nicht kontinuierlichen Natur der Umfrage die Merkmale der Gesamtbevölkerung (Mittelwert, Anteil, Varianz usw.) nicht genau wiedergibt.

Bei Beachtung des Zufallsprinzips hängt die Größe des Stichprobenfehlers in erster Linie von der Größe der Stichprobe ab. Je größer die Stichprobengröße ist, desto kleiner ist der Stichprobenfehler, wenn alle anderen Bedingungen gleich sind. Bei einer großen Stichprobengröße kommt die Wirkung des Gesetzes der großen Zahlen deutlicher zum Ausdruck, wonach: mit einer Wahrscheinlichkeit, die willkürlich nahe bei Eins liegt, argumentiert werden kann, dass bei einer ausreichend großen Stichprobengröße und begrenzten Streuung die Stichprobeneigenschaften ( durchschnittlicher Anteil) willkürlich wenig von den entsprechenden allgemeinen Merkmalen abweichen.

Die Größe des Stichprobenfehlers steht auch in direktem Zusammenhang mit dem Variationsgrad des untersuchten Merkmals, und der Variationsgrad wird, wie oben erwähnt, in der Statistik durch die Größe der Streuung (Streuung) charakterisiert: Je kleiner die Streuung, Je kleiner der Stichprobenfehler ist, desto zuverlässiger sind die statistischen Schlussfolgerungen. Daher wird in der Praxis Varianz mit Stichprobenfehlern gleichgesetzt.

Da der Populationsparameter der gewünschte Wert ist und unbekannt ist, muss man sich nicht auf einen bestimmten Fehler konzentrieren, sondern auf den Durchschnitt aller möglichen Stichproben.

Wenn mehrere Stichprobenpopulationen aus der allgemeinen Grundgesamtheit ausgewählt werden, ergibt jede der resultierenden Stichproben einen anderen Wert für einen bestimmten Fehler.

Effektiver Mittelwert /Und berechnet aus allen möglichen Werten spezifischer Fehler (;) wird sein:

wobei * und Stichprobendurchschnitte sind; x - allgemeiner Durchschnitt;)] - Anzahl der Stichproben nach Wert є1 = ~si - x.

Die Standardabweichung der Stichprobenmittelwerte vom allgemeinen Mittelwert wird als mittlerer Stichprobenfehler bezeichnet.

Die Abhängigkeit der Größe des Stichprobenfehlers von seiner Größe und vom Variationsgrad des Merkmals wird in der Formel für den durchschnittlichen Stichprobenfehler /u ausgedrückt.

Der quadratische mittlere Fehler (Varianz der Stichprobenmittelwerte) ist direkt proportional zur Varianz Einhundert und ist umgekehrt proportional zur Stichprobengröße n:

Wo ist die Varianz des Merkmals in der Population?

Von hier aus wird der durchschnittliche Fehler im Allgemeinen durch die Formel bestimmt:

Nachdem wir also die Standardabweichung für die Stichprobe bestimmt haben, können wir den Wert des durchschnittlichen Stichprobenfehlers ermitteln, dessen Wert, wie aus der Formel hervorgeht, umso größer ist, je größer die Variation der Zufallsvariablen ist, und je kleiner, desto größer größer die Stichprobengröße.

Daher nimmt die Größe des durchschnittlichen Fehlers mit zunehmender Stichprobengröße ab. Wenn es beispielsweise erforderlich ist, den durchschnittlichen Stichprobenfehler um die Hälfte zu reduzieren, sollte die Stichprobengröße um das Vierfache erhöht werden. Wenn es erforderlich ist, den Stichprobenfehler um das Dreifache zu verringern, sollte die Stichprobengröße um das Neunfache erhöht werden. usw.

In praktischen Berechnungen werden für den Mittelwert und für den Anteil zwei Formeln für den durchschnittlichen Stichprobenfehler verwendet.

In einer Beispielstudie zu Durchschnittsindikatoren lautet die Formel für den durchschnittlichen Fehler wie folgt:

Bei der Untersuchung relativer Indikatoren (besonderer Merkmale) lautet die Formel für den durchschnittlichen Fehler wie folgt:

WoG - der Anteil eines Merkmals an der Grundgesamtheit.

Die Anwendung der obigen Formeln für den durchschnittlichen Fehler setzt voraus, dass die allgemeine Varianz und der allgemeine Anteil bekannt sind. In der Realität sind diese Indikatoren jedoch unbekannt und können aufgrund fehlender Daten zur Gesamtbevölkerung nicht berechnet werden. Daher besteht die Notwendigkeit, die allgemeine Streuung und den allgemeinen Anteil durch andere Werte in ihrer Nähe zu ersetzen.

In der mathematischen Statistik wurde nachgewiesen, dass solche Größen Stichprobenvarianz (st) und Stichprobenanteil (co) sein können.

Unter Berücksichtigung des oben Gesagten können die durchschnittlichen Fehlerformeln wie folgt geschrieben werden:

Diese Formeln ermöglichen die Bestimmung des durchschnittlichen Fehlers beim Resampling. Der Einsatz einfacher zufälliger Neuabtastung ist in der Praxis begrenzt. Erstens ist es unpraktisch und manchmal unmöglich, dieselben Einheiten erneut zu untersuchen. Die Verwendung einer nichtwiederholten Probenahme anstelle einer wiederholten Probenahme wird auch durch die Anforderung bedingt, den Grad der Genauigkeit und Zuverlässigkeit der Probe zu erhöhen. Daher wird in der Praxis häufiger die Methode der sich nicht wiederholenden Zufallsauswahl verwendet. Gemäß dieser Auswahlmethode nimmt eine für die Stichprobe ausgewählte Bevölkerungseinheit nicht an der weiteren Auswahl teil. Einheiten werden aus einer Population ausgewählt, die um die Anzahl der zuvor ausgewählten Einheiten reduziert wird. Daher wird im Zusammenhang mit der Änderung der Größe der Gesamtbevölkerung nach jeder Auswahl und der Auswahlwahrscheinlichkeit für die verbleibenden Einheiten ein Korrekturfaktor in die Formeln für den durchschnittlichen Stichprobenfehler eingeführt

wobei N die Größe der Gesamtbevölkerung ist; P- Stichprobengröße. Wenn der Wert von N groß genug ist, kann man im Nenner vernachlässigt werden. Dann

Folglich haben die Formeln für den durchschnittlichen Stichprobenfehler bei nicht wiederholter Stichprobe für den Durchschnitt bzw. für den Anteil die Form:

Weil das P immer kleiner als M ist, dann ist der zusätzliche Faktor immer kleiner als eins. Folglich ist der Absolutwert des Stichprobenfehlers bei nicht wiederholter Stichprobe immer kleiner als bei wiederholter Stichprobe.

Wenn die Stichprobengröße groß genug ist, liegt der Wert von 1^ nahe bei eins und kann daher vernachlässigt werden. Dann wird der durchschnittliche Fehler der zufälligen, nicht wiederkehrenden Stichprobe durch die Formel der richtigen zufälligen, wiederholten Stichprobe bestimmt.

Berechnen wir für unser Beispiel den durchschnittlichen Fehler für den Ertrag und den Anteil der Parzellen mit einem Ertrag von 25 c/ha oder mehr.

Durchschnittlicher Stichprobenfehler

a) durchschnittlicher Gerstenertrag

Durchschnittlicher Gerstenertrag in der Population x -G^= 25,1 ± 0,12 c/ha, das heißt, sie reicht von 24,98 bis 25,22 c/ha.

Der Anteil der Parzellen mit einem Ertrag von 25 c/ha oder mehr an der Gesamtbevölkerung p

T-^G = 0,80 ± 0,07, d.h. liegt zwischen 73 und 87 %.

Der durchschnittliche Stichprobenfehler zeigt mögliche Abweichungen der Merkmale der Stichprobenpopulation von den Merkmalen der Gesamtbevölkerung. Gleichzeitig stehen Forscher bei Stichprobenbeobachtungen häufig vor der Aufgabe, nicht nur den durchschnittlichen Fehler zu berechnen, sondern auch den maximal möglichen Stichprobenfehler zu ermitteln. Wenn Sie den durchschnittlichen Fehler kennen, können Sie die Grenzen bestimmen, die der Stichprobenfehler nicht überschreitet. Allerdings kann nicht mit absoluter Sicherheit, sondern nur mit einer gewissen Wahrscheinlichkeit davon ausgegangen werden, dass diese Abweichungen einen bestimmten Wert nicht überschreiten. Das Wahrscheinlichkeitsniveau, das bei der Bestimmung der möglichen Grenzen akzeptiert wird, die die Werte der Parameter der Grundgesamtheit enthalten, wird als Konfidenzniveau der Wahrscheinlichkeit bezeichnet.

Konfidenzwahrscheinlichkeit- Dies ist eine ziemlich hohe Wahrscheinlichkeit und so, dass praktisch davon ausgegangen wird, dass sie in jedem Einzelfall durchgeführt wird, was den Erhalt zuverlässiger statistischer Schlussfolgerungen gewährleistet. Bezeichnen wir es mit G und die Wahrscheinlichkeit, dieses Niveau zu überschreiten, beträgt A. Also,A =1 - R WahrscheinlichkeitA wird als Signifikanzniveau bezeichnet(Substantialität), die die relative Anzahl fehlerhafter Schlussfolgerungen in der Gesamtzahl der Schlussfolgerungen charakterisiert und als Differenz zwischen Eins und der akzeptierten Konfidenzwahrscheinlichkeit definiert ist.

Das Maß an Konfidenzniveau wird vom Forscher anhand des Verantwortungsgrades und der Art der zu lösenden Aufgaben festgelegt. In statistischen Studien in den Wirtschaftswissenschaften wird am häufigsten das Konfidenzniveau verwendet G = 0,95; P = 0,99 (bzw. das Signifikanzniveau). A = 0,05; A = 0,01) seltener G = 0,999. Zum Beispiel die KonfidenzwahrscheinlichkeitГ = 0,99 bedeutet, dass der Schätzfehler in 99 von 100 Fällen den ermittelten Wert nicht überschreitet und nur in einem von 100 Fällen den berechneten Wert erreichen oder überschreiten kann.

Der mit einem bestimmten Grad an zuverlässiger Wahrscheinlichkeit berechnete Stichprobenfehler wird aufgerufen marginaler Stichprobenfehler Ähm.

Betrachten wir, wie der Wert des möglichen maximalen Stichprobenfehlers ermittelt wird. Größeähm ist mit der normalisierten Abweichung verbunden und ist als Verhältnis des maximalen Stichprobenfehlers definiertähm zum durchschnittlichen Fehler Und:

Zur Vereinfachung der Berechnungen werden Abweichungen einer Zufallsvariablen von ihrem Mittelwert normalerweise in Einheiten der Standardabweichung ausgedrückt. Ausdruck

angerufen normalisierte Abweichung. V In der statistischen Literatur Und angerufen Vertrauensfaktor, oder das Vielfache des durchschnittlichen Stichprobenfehlers.

Somit kann die normalisierte Abweichung des Stichprobenmittelwerts durch die Formel bestimmt werden:

und _є_р_

Aus dem Ausdruck 1 Sie können den möglichen maximalen Stichprobenfehler ermitteln

er = i/l.

Stattdessen ersetzen B. in seiner Bedeutung stellen wir die Formeln für die maximalen Stichprobenfehler für den Durchschnitt und für den Anteil bei nicht wiederkehrender Zufallsauswahl vor:

Folglich hängt der maximale Stichprobenfehler vom Wert des durchschnittlichen Fehlers und der normalisierten Abweichung ab und beträgt ± ein Vielfaches der durchschnittlichen Stichprobenfehler.

Der durchschnittliche und der maximale Stichprobenfehler sind benannte Größen und werden in denselben Einheiten ausgedrückt wie das arithmetische Mittel und die Standardabweichung.

Die normalisierte Abweichung hängt funktional mit der Wahrscheinlichkeit zusammen. Werte findenUnd Es wurden spezielle Tabellen zusammengestellt (Erw. 2), aus denen Sie den Wert entnehmen könnenUnd für ein gegebenes Konfidenzniveau Wahrscheinlichkeit und Wahrscheinlichkeitswert für ein bekanntes und.

Geben wir die Werte an Und und ihre entsprechenden Wahrscheinlichkeiten für Stichprobengrößenp> 30, die in praktischen Berechnungen am häufigsten verwendet wird:

Deshalb wann und = 1, die Wahrscheinlichkeit einer Abweichung der Stichprobenmerkmale von den allgemeinen um den Wert eines einzelnen durchschnittlichen Stichprobenfehlers beträgt 0,6827. Dies bedeutet, dass im Durchschnitt von jeweils 1000 Stichproben 683 verallgemeinerte Merkmale ergeben, die sich von den allgemeinen verallgemeinerten Merkmalen um nicht mehr als einen einzigen durchschnittlichen Fehler unterscheiden. Bei u = 2 beträgt die Wahrscheinlichkeit 0,9545. V Das bedeutet, dass von jedem 1000 Stichproben 954 ergeben verallgemeinerte Merkmale, die sich von den allgemeinen verallgemeinerten Merkmalen um nicht mehr als das Zweifache des durchschnittlichen Stichprobenfehlers usw. unterscheiden.

Aufgrund der Tatsache, dass in der Regel jedoch nur eine Stichprobe entnommen wird, kann beispielsweise mit einer Wahrscheinlichkeit von 0,9545 garantiert werden, dass die Größe des Grenzfehlers das Zweifache des durchschnittlichen Stichprobenfehlers nicht überschreitet .

Es wurde mathematisch nachgewiesen, dass das Verhältnis von Stichprobenfehler zu Durchschnittsfehler in der Regel nicht überschritten wird± 3d für eine ausreichend große Zahl n, obwohl der Stichprobenfehler jeden Wert annehmen kann. Mit anderen Worten können wir sagen, dass bei ausreichend hoher Beurteilungswahrscheinlichkeit (P = 0,9973) der maximale Stichprobenfehler in der Regel drei durchschnittliche Stichprobenfehler nicht überschreitet. Daher kann der Wert Ep = 3d als Grenze des möglichen Stichprobenfehlers angenommen werden.

Für unser Beispiel ermitteln wir den maximalen Stichprobenfehler für den Durchschnittsertrag und den Anteil der Parzellen mit einem Ertrag von 25 c/ha oder mehr. Wir gehen von einem Konfidenzniveau der Wahrscheinlichkeit von P = 0,9545 aus. V Laut Tabelle (adj..2) Finden Sie die Werte und = 2. Die durchschnittlichen Stichprobenfehler für den Ertrag und den Anteil der Parzellen mit einem Ertrag von 25 c/ha und mehr wurden früher ermittelt und waren dementsprechend: Ts~= ±0,12 c/ha; MP = ± 0,07.

Grenzfehler des durchschnittlichen Gerstenertrags:

Die Differenz zwischen dem durchschnittlichen Ertrag der Stichprobe und dem allgemeinen Durchschnitt beträgt also nicht mehr als 0,24 c/ha. Die Grenzen des durchschnittlichen Ertrags in der Allgemeinbevölkerung: x = x ± beträgt ~ = 25,1 + 0,24, also von 24,86 bis 25,34 c/ha.

Maximaler Fehler des Anteils der Parzellen mit einem Ertrag von 25 c/ha oder mehr:

Folglich wird der maximale Fehler bei der Bestimmung des Anteils der Parzellen mit einem Ertrag von 25 c/ha oder mehr 14 % nicht überschreiten, d. h. der Anteil der Parzellen mit dem angegebenen Ertrag an der Gesamtbevölkerung liegt innerhalb der Grenzen: G= a> ± ep = 0,80 ± 0,14, also von 66 bis 94 %.