Zuverlässigkeit statistischer Daten, Zuverlässigkeitskriterien. Einführung eines festen Koeffizienten. Was versteht man unter Verifizierung?

Statistische Zuverlässigkeit ist in der Berechnungspraxis der FCC von wesentlicher Bedeutung. Es wurde bereits erwähnt, dass mehrere Stichproben aus derselben Grundgesamtheit ausgewählt werden können:

Bei richtiger Auswahl weichen ihre Durchschnittsindikatoren und die Indikatoren der Gesamtbevölkerung unter Berücksichtigung der akzeptierten Zuverlässigkeit geringfügig in der Größe des Repräsentativitätsfehlers voneinander ab;

Wenn sie aus verschiedenen Populationen ausgewählt werden, erweist sich der Unterschied zwischen ihnen als signifikant. Bei der Statistik geht es vor allem um den Vergleich von Stichproben.

Wenn sie sich unbedeutend, unprinzipiell, unbedeutend unterscheiden, d. h. sie gehören tatsächlich zur gleichen Grundgesamtheit, wird der Unterschied zwischen ihnen als statistisch unzuverlässig bezeichnet.

Statistisch zuverlässig Eine Stichprobendifferenz ist eine Stichprobe, die sich erheblich und grundlegend unterscheidet, das heißt, sie gehört zu verschiedenen Grundgesamtheiten.

Bei der FCC bedeutet die Beurteilung der statistischen Signifikanz von Stichprobenunterschieden die Lösung vieler praktischer Probleme. Beispielsweise ist die Einführung neuer Lehrmethoden, Programme, Übungssätze, Tests, Kontrollübungen mit deren experimenteller Erprobung verbunden, die zeigen soll, dass sich die Testgruppe grundlegend von der Kontrollgruppe unterscheidet. Daher werden spezielle statistische Methoden, sogenannte statistische Signifikanzkriterien, verwendet, um das Vorhandensein oder Fehlen eines statistisch signifikanten Unterschieds zwischen Proben festzustellen.

Alle Kriterien sind in zwei Gruppen unterteilt: parametrisch und nichtparametrisch. Parametrische Kriterien erfordern das Vorhandensein eines Normalverteilungsgesetzes, d. h. Dies bedeutet die obligatorische Bestimmung der Hauptindikatoren des Normalgesetzes – des arithmetischen Mittels und der Standardabweichung s. Parametrische Kriterien sind am genauesten und korrektesten. Nichtparametrische Tests basieren auf Rangunterschieden (Ordinalunterschieden) zwischen Stichprobenelementen.

Hier sind die Hauptkriterien für die statistische Signifikanz, die in der FCC-Praxis verwendet werden: Student-Test und Fisher-Test.

Schüler-T-Test benannt nach dem englischen Wissenschaftler K. Gosset (Student - Pseudonym), der diese Methode entdeckte. Der Student-Test ist parametrisch und dient zum Vergleich der Absolutwerte von Stichproben. Die Größe der Proben kann variieren.

Schüler-T-Test ist so definiert.

1. Finden Sie den Student-t-Test mithilfe der folgenden Formel:


wo sind die arithmetischen Mittelwerte der verglichenen Stichproben; t 1, t 2 – Fehler der Repräsentativität, die anhand der Indikatoren der verglichenen Stichproben identifiziert wurden.

2. Die Praxis bei der FCC hat gezeigt, dass es für die Sportarbeit ausreicht, die Zuverlässigkeit des Kontos P = 0,95 zu akzeptieren.

Für die Zählsicherheit: P = 0,95 (a = 0,05), mit der Anzahl der Freiheitsgrade

k = n 1 + n 2 - 2 anhand der Tabelle in Anhang 4 ermitteln wir den Wert des Grenzwertes des Kriteriums ( t gr).

3. Basierend auf den Eigenschaften des Normalverteilungsgesetzes vergleicht das Student-Kriterium t und t gr.

Wir ziehen Schlussfolgerungen:

wenn t t gr, dann ist der Unterschied zwischen den verglichenen Stichproben statistisch signifikant;

wenn t t gr, dann ist der Unterschied statistisch unbedeutend.

Für Forscher auf dem Gebiet der FCS ist die Beurteilung der statistischen Signifikanz der erste Schritt zur Lösung eines bestimmten Problems: ob sich die verglichenen Stichproben grundlegend oder nicht grundlegend voneinander unterscheiden. Der nächste Schritt besteht darin, diesen Unterschied aus pädagogischer Sicht zu bewerten, die durch die Bedingungen der Aufgabe bestimmt wird.

Betrachten wir die Anwendung des Student-Tests anhand eines konkreten Beispiels.

Beispiel 2.14. Eine Gruppe von 18 Probanden wurde vor x i und danach auf ihre Herzfrequenz (Schläge pro Minute) untersucht y i sich warm laufen.

Beurteilen Sie die Wirksamkeit des Aufwärmens anhand der Herzfrequenz. Erste Daten und Berechnungen sind in der Tabelle dargestellt. 2.30 und 2.31.

Tabelle 2.30

Verarbeitung von Herzfrequenzindikatoren vor dem Aufwärmen


Die Fehler für beide Gruppen stimmten überein, da die Stichprobengrößen gleich waren (die gleiche Gruppe wurde unter unterschiedlichen Bedingungen untersucht) und die Standardabweichungen s x = s y = 3 Schläge/Minute betrugen. Fahren wir mit der Definition des Schülertests fort:

Wir legen die Zuverlässigkeit des Kontos fest: P = 0,95.

Anzahl der Freiheitsgrade k 1 = n 1 + n 2 - 2 = 18 + 18-2 = 34. Aus der Tabelle in Anhang 4 finden wir t gr= 2,02.

Statistische Inferenz. Da t = 11,62 und die Grenze t gr = 2,02, dann ist 11,62 > 2,02, d. h. t > t gr, daher ist der Unterschied zwischen den Proben statistisch signifikant.

Pädagogische Schlussfolgerung. Es wurde festgestellt, dass hinsichtlich der Herzfrequenz der Unterschied zwischen dem Zustand der Gruppe vor und nach dem Aufwärmen statistisch signifikant ist, d. h. bedeutsam, grundlegend. Anhand der Herzfrequenzanzeige können wir also schließen, dass das Aufwärmen effektiv ist.

Fisher-Kriterium ist parametrisch. Es wird beim Vergleich der Probendispersionsraten verwendet. Dies bedeutet in der Regel einen Vergleich hinsichtlich der Stabilität der sportlichen Arbeit oder der Stabilität funktioneller und technischer Indikatoren in der Ausübung von Körperkultur und Sport. Proben können unterschiedlich groß sein.

Das Fisher-Kriterium wird in der folgenden Reihenfolge definiert.

1. Finden Sie das Fisher-Kriterium F mithilfe der Formel


wobei , die Varianzen der verglichenen Stichproben sind.

Die Bedingungen des Fisher-Kriteriums legen dies im Zähler der Formel fest F es gibt eine große Streuung, d.h. die Zahl F ist immer größer als eins.

Wir stellen die Berechnungszuverlässigkeit ein: P = 0,95 – und bestimmen die Anzahl der Freiheitsgrade für beide Stichproben: k 1 = n 1 – 1, k 2 = n 2 – 1.

Anhand der Tabelle in Anlage 4 ermitteln wir den Grenzwert des Kriteriums F GR.

Vergleich der F- und F-Kriterien GR lässt uns Schlussfolgerungen formulieren:

wenn F > F gr, dann ist der Unterschied zwischen den Stichproben statistisch signifikant;

wenn F< F гр, то различие между выборками статически недо­стоверно.

Lassen Sie uns ein konkretes Beispiel geben.

Beispiel 2.15. Lassen Sie uns zwei Gruppen von Handballspielern analysieren: x i (n 1= 16 Personen) und y i (n 2 = 18 Personen). Diese Athletengruppen wurden hinsichtlich der Abflugzeit(en) beim Werfen des Balls ins Tor untersucht.

Sind die Abstoßungsindikatoren vom gleichen Typ?

Erste Daten und grundlegende Berechnungen sind in der Tabelle dargestellt. 2.32 und 2.33.

Tabelle 2.32

Verarbeitung von Abstoßungsindikatoren der ersten Gruppe von Handballspielern


Definieren wir das Fisher-Kriterium:





Gemäß den in der Tabelle in Anhang 6 dargestellten Daten finden wir Fgr: Fgr = 2,4

Achten wir darauf, dass in der Tabelle in Anhang 6 die Auflistung der Zahlen der Freiheitsgrade sowohl größerer als auch kleinerer Streuung gröber wird, je näher wir uns größeren Zahlen nähern. Somit folgt die Anzahl der Freiheitsgrade der größeren Dispersion in dieser Reihenfolge: 8, 9, 10, 11, 12, 14, 16, 20, 24 usw. und der kleineren - 28, 29, 30, 40 , 50 usw. d.

Dies erklärt sich dadurch, dass mit zunehmender Stichprobengröße die Unterschiede im F-Test abnehmen und es möglich ist, Tabellenwerte zu verwenden, die nahe an den Originaldaten liegen. Im Beispiel 2,15 =17 fehlt also und wir können den ihm am nächsten liegenden Wert k = 16 annehmen, woraus wir Fgr = 2,4 erhalten.

Statistische Inferenz. Da beim Fisher-Test F= 2,5 > F= 2,4 gilt, sind die Stichproben statistisch unterscheidbar.

Pädagogische Schlussfolgerung. Die Werte der Absprungzeit(en) beim Einwurf des Balls ins Tor unterscheiden sich bei Handballspielern beider Gruppen deutlich. Diese Gruppen sollten als unterschiedlich betrachtet werden.

Weitere Untersuchungen sollten den Grund für diesen Unterschied aufdecken.

Beispiel 2.20.(auf die statistische Zuverlässigkeit der Stichprobe ). Hat sich die Qualifikation des Fußballspielers verbessert, wenn die Zeit(en) vom Signalgeben bis zum Abstoßen des Balls zu Beginn des Trainings x i und am Ende y i betrugen?

Ausgangsdaten und Grundberechnungen sind in der Tabelle aufgeführt. 2,40 und 2,41.

Tabelle 2.40

Verarbeitungszeitindikatoren vom Signalgeben bis zum Schlagen des Balls zu Beginn des Trainings


Lassen Sie uns den Unterschied zwischen Gruppen von Indikatoren anhand des Student-Kriteriums bestimmen:

Mit Zuverlässigkeit P = 0,95 und Freiheitsgraden k = n 1 + n 2 - 2 = 22 + 22 - 2 = 42 finden wir anhand der Tabelle in Anhang 4 t gr= 2,02. Da t = 8,3 > t gr= 2,02 – der Unterschied ist statistisch signifikant.

Lassen Sie uns den Unterschied zwischen Gruppen von Indikatoren anhand des Fisher-Kriteriums bestimmen:


Gemäß der Tabelle im Anhang 2 beträgt bei Zuverlässigkeit P = 0,95 und Freiheitsgraden k = 22-1 = 21 der Wert F gr = 21. Da F = 1,53< F гр = = 2,1, различие в рассеивании исходных данных статистически недостоверно.

Statistische Inferenz. Nach dem arithmetischen Mittel ist der Unterschied zwischen den Indikatorengruppen statistisch signifikant. In Bezug auf die Streuung (Streuung) ist der Unterschied zwischen Gruppen von Indikatoren statistisch unzuverlässig.

Pädagogische Schlussfolgerung. Die Qualifikationen des Fußballspielers haben sich deutlich verbessert, allerdings sollte auf die Stabilität seiner Aussage geachtet werden.

Vorbereitung auf die Arbeit

Vor der Durchführung dieser Laborarbeit in der Disziplin „Sportmesstechnik“ alle Studierenden der Lerngruppe müssen Arbeitsteams mit jeweils 3-4 Studierenden bilden, den Arbeitsauftrag aller Laborarbeiten gemeinsam zu erledigen.

Zur Vorbereitung auf die Arbeit Machen Sie sich mit den relevanten Abschnitten der empfohlenen Literatur (siehe Abschnitt 6 dieser Richtlinien) und Vorlesungsskripten vertraut. Studieren Sie die Abschnitte 1 und 2 für diese Laborarbeit sowie den Arbeitsauftrag dazu (Abschnitt 4).

Bereiten Sie ein Berichtsformular vor auf handelsüblichem A4-Briefpapier aus und füllen Sie es mit den für die Arbeit notwendigen Materialien.

Der Bericht muss enthalten :

Titelseite mit Angabe der Abteilung (UC und TR), der Studiengruppe, des Nachnamens, des Vornamens, des Patronyms des Studierenden, der Nummer und des Titels der Laborarbeit, des Abschlussdatums sowie des Nachnamens, des akademischen Grades, des akademischen Titels und der Position dass der Lehrer die Arbeit annimmt;

Ziel der Arbeit;

Formeln mit Zahlenwerten zur Erläuterung von Zwischen- und Endergebnissen von Berechnungen;

Tabellen gemessener und berechneter Werte;

Für den Auftrag erforderliches grafisches Material;

Kurze Schlussfolgerungen zu den Ergebnissen jeder Phase des Arbeitsauftrags und zur durchgeführten Arbeit im Allgemeinen.

Alle Grafiken und Tabellen werden sorgfältig mit Zeichenwerkzeugen gezeichnet. Herkömmliche Grafik- und Buchstabensymbole müssen den GOSTs entsprechen. Es ist erlaubt, einen Bericht mithilfe von Computertechnologie zu erstellen.

Arbeitsauftrag

Bevor alle Messungen durchgeführt werden, muss jedes Teammitglied die in Anhang 7 aufgeführten Regeln für die Verwendung des Sportspiels Darts studieren, die für die Durchführung der folgenden Forschungsschritte erforderlich sind.

Stufe I der Forschung„Untersuchung der Ergebnisse des Treffens der Zielscheibe des Darts-Sportspiels durch jedes Mitglied der Mannschaft auf Einhaltung des Normalverteilungsgesetzes gemäß dem Kriterium χ 2 Pearson und das Drei-Sigma-Kriterium“

1. Messen (testen) Sie Ihre (persönliche) Geschwindigkeit und Koordination von Handlungen, indem man im Sportspiel Darts 30–40 Mal Pfeile auf ein kreisförmiges Ziel wirft.

2. Ergebnisse von Messungen (Tests) x i(in Gläsern) in Form einer Variationsreihe formatiert und in Tabelle 4.1 (Spalten) eingetragen, alle notwendigen Berechnungen durchführen, die notwendigen Tabellen ausfüllen und entsprechende Rückschlüsse auf die Übereinstimmung der resultierenden empirischen Verteilung mit dem Normalverteilungsgesetz ziehen, durch Analogie zu ähnlichen Berechnungen, Tabellen und Schlussfolgerungen von Beispiel 2.12, angegeben in Abschnitt 2 dieser Richtlinien auf den Seiten 7–10.

Tabelle 4.1

Übereinstimmung der Geschwindigkeit und Koordination der Handlungen der Probanden mit dem Normalverteilungsgesetz

NEIN. gerundet
Gesamt

II – Forschungsphase

„Bewertung der durchschnittlichen Indikatoren der Gesamtpopulation von Treffern auf das Ziel des Sportspiels Darts aller Studierenden der Studiengruppe basierend auf den Ergebnissen der Messungen von Mitgliedern einer Mannschaft“

Bewerten Sie die durchschnittlichen Indikatoren für Geschwindigkeit und Handlungskoordination aller Schüler in der Lerngruppe (gemäß der Liste der Lerngruppe im Klassenmagazin) anhand der in der ersten Phase erzielten Ergebnisse beim Erreichen des Dartziels aller Teammitglieder der Forschung dieser Laborarbeit.

1. Dokumentieren Sie die Ergebnisse von Geschwindigkeits- und Handlungskoordinationsmessungen beim Dartwerfen auf ein kreisförmiges Ziel im Sportspiel Darts aller Mitglieder Ihres Teams (2 – 4 Personen), die eine Stichprobe von Messergebnissen aus der Allgemeinbevölkerung darstellen (Messergebnisse aller Schüler einer Lerngruppe – z. B. 15 Personen), tragen Sie diese in die zweite und dritte Spalte Tabelle 4.2 ein.

Tabelle 4.2

Verarbeitung von Indikatoren für Geschwindigkeit und Koordination von Aktionen

Brigademitglieder

NEIN.
Gesamt

In Tabelle 4.2 unten sollte verstanden werden , passende durchschnittliche Punktzahl (siehe Berechnungsergebnisse in Tabelle 4.1) Mitglieder Ihres Teams ( , in der ersten Forschungsphase erhalten. Es ist darauf hinzuweisen, dass, allgemein, Tabelle 4.2 enthält den berechneten Durchschnittswert der Messergebnisse, die ein Mitglied des Teams in der ersten Forschungsphase erhalten hat , da die Wahrscheinlichkeit, dass die Messergebnisse verschiedener Teammitglieder übereinstimmen, sehr gering ist. Dann, in der Regel die Werte in der Spalte Tabelle 4.2 für jede Zeile - gleich 1, A in der Zeile „Gesamt „Spalten“ wird geschrieben die Anzahl der Mitglieder Ihres Teams.

2. Führen Sie alle erforderlichen Berechnungen durch, um Tabelle 4.2 auszufüllen, sowie andere Berechnungen und Schlussfolgerungen, die den Berechnungen und Schlussfolgerungen von Beispiel 2.13 im 2. Abschnitt dieser methodischen Entwicklung auf den Seiten 13-14 ähneln. Dies sollte bei der Berechnung des Repräsentativitätsfehlers berücksichtigt werden "M" Es ist notwendig, die auf Seite 13 dieser methodischen Entwicklung angegebene Formel 2.4 zu verwenden, da die Stichprobe klein ist (n und die Anzahl der Elemente der Gesamtbevölkerung N bekannt ist und gleich der Anzahl der Studierenden in der Studiengruppe ist. gemäß der Liste der Zeitschrift der Studiengruppe.

III – Forschungsphase

Bewertung der Wirksamkeit des Aufwärmens anhand des Indikators „Geschwindigkeit und Koordination der Aktionen“ durch jedes Teammitglied mithilfe des Student-T-Tests

Um die Wirksamkeit des Aufwärmens für das Werfen von Darts auf das Ziel des Sportspiels „Darts“ zu bewerten, das in der ersten Forschungsphase dieser Laborarbeit von jedem Mitglied des Teams anhand des Indikators „Geschwindigkeit und“ durchgeführt wurde Koordinierung von Handlungen“, unter Verwendung des Student-Kriteriums – ein parametrisches Kriterium für die statistische Zuverlässigkeit des empirischen Verteilungsgesetzes gegenüber dem Normalverteilungsgesetz.

… Gesamt

2. Abweichungen und RMS , Ergebnisse von Messungen des Indikators „Geschwindigkeit und Koordination von Aktionen“ basierend auf den Ergebnissen des Aufwärmens, in Tabelle 4.3 angegeben, (siehe ähnliche Berechnungen unmittelbar nach Tabelle 2.30 von Beispiel 2.14 auf Seite 16 dieser methodischen Entwicklung).

3. Jedes Mitglied des Arbeitsteams Messen (testen) Sie Ihre (persönliche) Geschwindigkeit und Koordination von Aktionen nach dem Aufwärmen,

… Gesamt

5. Führen Sie Durchschnittsberechnungen durch Abweichungen und RMS ,Ergebnisse der Messungen des Indikators „Geschwindigkeit und Koordination der Aktionen“ nach dem Aufwärmen, in Tabelle 4.4 angegeben, Notieren Sie das Gesamtmessergebnis basierend auf den Aufwärmergebnissen (siehe ähnliche Berechnungen unmittelbar nach Tabelle 2.31 von Beispiel 2.14 auf Seite 17 dieser methodischen Entwicklung).

6. Führen Sie alle erforderlichen Berechnungen und Schlussfolgerungen durch, ähnlich den Berechnungen und Schlussfolgerungen von Beispiel 2.14 im 2. Abschnitt dieser methodischen Entwicklung auf den Seiten 16–17. Dies sollte bei der Berechnung des Repräsentativitätsfehlers berücksichtigt werden "M" Es ist notwendig, die auf Seite 12 dieser methodischen Entwicklung angegebene Formel 2.1 zu verwenden, da die Stichprobe n ist und die Anzahl der Elemente in der Grundgesamtheit N ( unbekannt ist.

IV – Forschungsstadium

Bewertung der Einheitlichkeit (Stabilität) der Indikatoren „Geschwindigkeit und Handlungskoordination“ zweier Teammitglieder anhand des Fisher-Kriteriums

Bewerten Sie die Einheitlichkeit (Stabilität) der Indikatoren „Geschwindigkeit und Koordination der Aktionen“ zweier Teammitglieder anhand des Fisher-Kriteriums, basierend auf den Messergebnissen, die in der dritten Forschungsphase dieser Laborarbeit erzielt wurden.

Dazu müssen Sie Folgendes tun.

Unter Verwendung der Daten aus den Tabellen 4.3 und 4.4 werden die Ergebnisse der Berechnung der Varianzen aus diesen Tabellen, die in der dritten Forschungsphase erhalten wurden, sowie die Methodik zur Berechnung und Anwendung des Fisher-Kriteriums zur Bewertung der Einheitlichkeit (Stabilität) von Sportindikatoren, angegeben in Ziehen Sie anhand von Beispiel 2.15 auf den Seiten 18-19 dieser methodischen Weiterentwicklung entsprechende statistische und pädagogische Schlussfolgerungen.

V – Forschungsstadium

Bewertung der Indikatorengruppen „Geschwindigkeit und Handlungskoordination“ eines Teammitglieds vor und nach dem Aufwärmen

Die Hauptmerkmale jeder Beziehung zwischen Variablen.

Wir können die beiden einfachsten Eigenschaften der Beziehung zwischen Variablen feststellen: (a) die Größe der Beziehung und (b) die Zuverlässigkeit der Beziehung.

- Größe . Das Ausmaß der Abhängigkeit ist leichter zu verstehen und zu messen als die Zuverlässigkeit. Wenn beispielsweise ein Mann in der Stichprobe einen höheren Wert für die Anzahl der weißen Blutkörperchen (WCC) aufwies als der einer Frau, dann kann man sagen, dass die Beziehung zwischen den beiden Variablen (Geschlecht und WCC) sehr hoch ist. Mit anderen Worten: Sie könnten die Werte einer Variablen aus den Werten einer anderen vorhersagen.

- Zuverlässigkeit ("Wahrheit"). Die Verlässlichkeit der gegenseitigen Abhängigkeit ist ein weniger intuitives Konzept als das Ausmaß der Abhängigkeit, aber sie ist äußerst wichtig. Die Zuverlässigkeit der Beziehung steht in direktem Zusammenhang mit der Repräsentativität einer bestimmten Stichprobe, auf deren Grundlage Schlussfolgerungen gezogen werden. Mit anderen Worten bezieht sich die Zuverlässigkeit darauf, wie wahrscheinlich es ist, dass ein Zusammenhang mithilfe von Daten aus einer anderen Stichprobe aus derselben Grundgesamtheit wiederentdeckt (mit anderen Worten bestätigt) wird.

Es sollte daran erinnert werden, dass das ultimative Ziel fast nie darin besteht, diese bestimmte Stichprobe von Werten zu untersuchen; Eine Stichprobe ist nur insoweit von Interesse, als sie Informationen über die gesamte Bevölkerung liefert. Wenn die Studie bestimmte spezifische Kriterien erfüllt, kann die Zuverlässigkeit der gefundenen Beziehungen zwischen Stichprobenvariablen quantifiziert und mithilfe eines statistischen Standardmaßes dargestellt werden.

Abhängigkeitsgröße und Zuverlässigkeit stellen zwei unterschiedliche Merkmale von Abhängigkeiten zwischen Variablen dar. Man kann jedoch nicht sagen, dass sie völlig unabhängig sind. Je größer die Beziehung (Verbindung) zwischen Variablen in einer Stichprobe normaler Größe ist, desto zuverlässiger ist sie (siehe nächster Abschnitt).

Die statistische Signifikanz eines Ergebnisses (p-Level) ist ein geschätztes Maß für das Vertrauen in seine „Wahrheit“ (im Sinne von „Repräsentativität der Stichprobe“). Technisch gesehen ist der p-Level ein Maß, das mit der Zuverlässigkeit des Ergebnisses in abnehmender Größenordnung variiert. Ein höherer p-Wert entspricht einem geringeren Grad an Vertrauen in die Beziehung zwischen den in der Stichprobe gefundenen Variablen. Das p-Level stellt nämlich die Fehlerwahrscheinlichkeit dar, die mit der Verteilung des beobachteten Ergebnisses auf die gesamte Population verbunden ist.

Zum Beispiel, p-Level = 0,05(d. h. 1/20) gibt an, dass eine Wahrscheinlichkeit von 5 % besteht, dass die Beziehung zwischen den in der Stichprobe gefundenen Variablen nur ein zufälliges Merkmal der Stichprobe ist. In vielen Studien wird ein p-Wert von 0,05 als „akzeptabler Spielraum“ für die Fehlerquote angesehen.

Es führt kein Weg daran vorbei, willkürlich zu entscheiden, welches Signifikanzniveau wirklich als „signifikant“ angesehen werden soll. Die Wahl eines bestimmten Signifikanzniveaus, ab dem Ergebnisse als falsch verworfen werden, ist recht willkürlich.



In der Praxis hängt die endgültige Entscheidung normalerweise davon ab, ob das Ergebnis a priori (d. h. vor der Durchführung des Experiments) vorhergesagt wurde oder a posteriori als Ergebnis zahlreicher Analysen und Vergleiche mit einer Vielzahl von Daten sowie anhand der Ergebnisse entdeckt wurde Tradition des Studienfachs.

Im Allgemeinen ist in vielen Bereichen ein Ergebnis von p 0,05 ein akzeptabler Grenzwert für die statistische Signifikanz. Beachten Sie jedoch, dass dieser Wert immer noch eine relativ große Fehlerquote (5 %) aufweist.

Ergebnisse, die auf dem Niveau von p 0,01 signifikant sind, werden im Allgemeinen als statistisch signifikant angesehen, während Ergebnisse auf dem Niveau von p 0,005 oder p 0,00 im Allgemeinen als statistisch signifikant angesehen werden. 001 als sehr bedeutsam. Es sollte jedoch klar sein, dass diese Klassifizierung der Signifikanzniveaus recht willkürlich ist und lediglich eine informelle Vereinbarung auf der Grundlage praktischer Erfahrungen darstellt in einem bestimmten Studienbereich.

Es ist klar, dass je mehr Analysen auf der Gesamtheit der gesammelten Daten durchgeführt werden, desto mehr signifikante (auf der ausgewählten Ebene) Ergebnisse werden rein zufällig entdeckt.

Einige statistische Methoden, die viele Vergleiche umfassen und daher ein erhebliches Risiko haben, dass sich diese Art von Fehler wiederholt, nehmen eine spezielle Anpassung oder Korrektur für die Gesamtzahl der Vergleiche vor. Viele statistische Methoden (insbesondere einfache explorative Datenanalysemethoden) bieten jedoch keine Möglichkeit, dieses Problem zu lösen.

Wenn die Beziehung zwischen Variablen „objektiv“ schwach ist, gibt es keine andere Möglichkeit, eine solche Beziehung zu testen, als eine große Stichprobe zu untersuchen. Selbst wenn die Stichprobe vollkommen repräsentativ ist, ist der Effekt statistisch nicht signifikant, wenn die Stichprobe klein ist. Wenn ein Zusammenhang „objektiv“ sehr stark ist, kann er auch in einer sehr kleinen Stichprobe mit hoher Signifikanz nachgewiesen werden.

Je schwächer die Beziehung zwischen Variablen ist, desto größer ist die Stichprobengröße, die für eine sinnvolle Erkennung erforderlich ist.

Viele verschiedene Maße der Beziehung zwischen Variablen. Die Wahl eines bestimmten Maßes in einer bestimmten Studie hängt von der Anzahl der Variablen, den verwendeten Messskalen, der Art der Beziehungen usw. ab.

Die meisten dieser Messungen folgen jedoch einem allgemeinen Prinzip: Sie versuchen, einen beobachteten Zusammenhang abzuschätzen, indem sie ihn mit dem „maximal denkbaren Zusammenhang“ zwischen den betreffenden Variablen vergleichen. Technisch gesehen besteht der übliche Weg, solche Schätzungen vorzunehmen, darin, zu untersuchen, wie die Werte der Variablen variieren, und dann zu berechnen, wie viel der vorhandenen Gesamtvariation durch das Vorhandensein einer „gemeinsamen“ („gemeinsamen“) Variation erklärt werden kann zwei (oder mehr) Variablen.

Die Signifikanz hängt hauptsächlich von der Stichprobengröße ab. Wie bereits erläutert, sind in sehr großen Stichproben auch sehr schwache Beziehungen zwischen Variablen signifikant, während in kleinen Stichproben selbst sehr starke Beziehungen nicht zuverlässig sind.

Um den Grad der statistischen Signifikanz zu bestimmen, ist daher eine Funktion erforderlich, die die Beziehung zwischen der „Größe“ und der „Signifikanz“ der Beziehung zwischen Variablen für jede Stichprobengröße darstellt.

Eine solche Funktion würde genau angeben, „wie wahrscheinlich es ist, in einer Stichprobe einer bestimmten Größe eine Abhängigkeit von einem bestimmten Wert (oder mehr) zu erhalten, vorausgesetzt, dass in der Grundgesamtheit keine solche Abhängigkeit besteht.“ Mit anderen Worten: Diese Funktion würde ein Signifikanzniveau liefern
(p-Level) und damit die Wahrscheinlichkeit, die Annahme des Fehlens dieser Abhängigkeit in der Bevölkerung fälschlicherweise abzulehnen.

Diese „alternative“ Hypothese (dass es in der Bevölkerung keinen Zusammenhang gibt) wird üblicherweise als „alternative“ Hypothese bezeichnet Nullhypothese.

Ideal wäre es, wenn die Funktion, die die Fehlerwahrscheinlichkeit berechnet, linear wäre und nur für unterschiedliche Stichprobengrößen unterschiedliche Steigungen hätte. Leider ist diese Funktion wesentlich komplexer und nicht immer exakt gleich. In den meisten Fällen ist seine Form jedoch bekannt und kann zur Bestimmung der Signifikanzniveaus in Studien an Stichproben einer bestimmten Größe verwendet werden. Die meisten dieser Funktionen sind einer Klasse von Verteilungen namens zugeordnet normal .

Die statistische Signifikanz oder das p-Signifikanzniveau ist das Hauptergebnis des Tests

statistische Hypothese. Technisch gesehen ist dies die Wahrscheinlichkeit, ein bestimmtes Ergebnis zu erhalten

das Ergebnis einer Stichprobenstudie, sofern dies tatsächlich für das Allgemeine gilt

Insgesamt ist die statistische Nullhypothese wahr – das heißt, es besteht kein Zusammenhang. Mit anderen Worten, dies

die Wahrscheinlichkeit, dass die erkannte Beziehung zufällig und keine Eigenschaft ist

Gesamtheit. Es handelt sich um die statistische Signifikanz, also um das p-Signifikanzniveau

quantitative Beurteilung der Kommunikationszuverlässigkeit: Je geringer diese Wahrscheinlichkeit, desto zuverlässiger ist die Verbindung.

Angenommen, beim Vergleich zweier Stichprobenmittelwerte wurde ein Pegelwert erhalten

statistische Signifikanz p=0,05. Dies bedeutet, dass die statistische Hypothese getestet wird

Gleichheit der Mittelwerte in der Grundgesamtheit zeigte, dass, wenn es wahr ist, die Wahrscheinlichkeit steigt

Das zufällige Auftreten der festgestellten Unterschiede beträgt nicht mehr als 5 %. Mit anderen Worten, wenn

Es wurden wiederholt zwei Proben aus derselben Population gezogen, dann in einer von

In 20 Fällen würde der Unterschied zwischen den Mittelwerten dieser Stichproben gleich oder größer sein.

Das heißt, es besteht eine Wahrscheinlichkeit von 5 %, dass die gefundenen Unterschiede auf Zufall zurückzuführen sind.

Charakter und sind keine Eigenschaft des Aggregats.

In Bezug auf eine wissenschaftliche Hypothese ist der Grad der statistischen Signifikanz quantitativ

ein aus den Ergebnissen errechneter Indikator für den Grad des Misstrauens gegenüber der Schlussfolgerung über das Bestehen eines Zusammenhangs

selektive, empirische Überprüfung dieser Hypothese. Je niedriger der p-Level-Wert, desto höher

die statistische Signifikanz eines Forschungsergebnisses, das eine wissenschaftliche Hypothese bestätigt.

Es ist hilfreich zu wissen, was das Signifikanzniveau beeinflusst. Signifikanzniveau unter sonst gleichen Bedingungen

Die Bedingungen sind höher (der p-Level-Wert ist niedriger), wenn:

Die Größe des Zusammenhangs (Differenz) ist größer;

Die Variabilität der Merkmale ist geringer;

Die Stichprobengröße(n) ist/sind größer.

Einseitig Zweiseitige Signifikanztests

Wenn der Zweck der Studie darin besteht, Unterschiede in den Parametern zweier allgemeiner Parameter zu ermitteln

Aggregate, die seinen verschiedenen natürlichen Bedingungen (Lebensbedingungen,

Alter der Probanden usw.), dann ist oft unbekannt, welcher dieser Parameter größer sein wird, und

Welches ist kleiner?

Wenn Sie beispielsweise an der Variabilität der Ergebnisse in einem Test interessiert sind und

Versuchsgruppen, dann besteht in der Regel kein Vertrauen in das Vorzeichen der Varianzdifferenz bzw

Standardabweichungen der Ergebnisse, anhand derer die Variabilität bewertet wird. In diesem Fall

Die Nullhypothese besagt, dass die Varianzen gleich sind, und der Zweck der Studie ist es

beweisen Sie das Gegenteil, d.h. Vorhandensein von Unterschieden zwischen Varianzen. Das ist erlaubt

Der Unterschied kann jedes beliebige Zeichen haben. Solche Hypothesen werden als zweiseitig bezeichnet.

Aber manchmal besteht die Herausforderung darin, eine Zunahme oder Abnahme eines Parameters nachzuweisen;

Beispielsweise ist das durchschnittliche Ergebnis in der Experimentalgruppe höher als in der Kontrollgruppe. Dabei

Es ist nicht mehr zulässig, dass die Differenz ein anderes Vorzeichen hat. Solche Hypothesen nennt man

Einseitig.

Signifikanztests, mit denen zweiseitige Hypothesen getestet werden, werden als Signifikanztests bezeichnet

Doppelseitig und einseitig - einseitig.

Es stellt sich die Frage, welches Kriterium im konkreten Fall zu wählen ist. Antwort

Diese Frage geht über den Rahmen formaler statistischer Methoden hinaus und ist vollständig

Hängt von den Zielen der Studie ab. Auf keinen Fall sollten Sie sich für das eine oder andere Kriterium entscheiden

Durchführung eines Experiments basierend auf der Analyse experimenteller Daten, sofern dies möglich ist

Zu falschen Schlussfolgerungen führen. Wenn vor der Durchführung eines Experiments davon ausgegangen wird, dass der Unterschied besteht

Die verglichenen Parameter können entweder positiv oder negativ sein, dann sollten Sie das auch tun

Die statistische Signifikanz eines Ergebnisses (p-Wert) ist ein geschätztes Maß für das Vertrauen in seine „Wahrheit“ (im Sinne von „Repräsentativität der Stichprobe“). Technisch gesehen ist ein p-Wert ein Maß, das in abnehmender Größenordnung mit der Zuverlässigkeit des Ergebnisses variiert. Ein höherer p-Wert entspricht einem geringeren Maß an Vertrauen in die Beziehung zwischen den in der Stichprobe gefundenen Variablen. Insbesondere stellt der p-Wert die Fehlerwahrscheinlichkeit dar, die mit der Verallgemeinerung des beobachteten Ergebnisses auf die gesamte Bevölkerung verbunden ist. Beispielsweise gibt ein p-Wert von 0,05 (d. h. 1/20) an, dass eine Wahrscheinlichkeit von 5 % besteht, dass die Beziehung zwischen den in der Stichprobe gefundenen Variablen nur ein zufälliges Merkmal der Stichprobe ist. Mit anderen Worten: Wenn eine bestimmte Beziehung in einer Population nicht existiert und Sie ähnliche Experimente viele Male durchführen, dann würden Sie in etwa einer von zwanzig Wiederholungen des Experiments die gleiche oder eine stärkere Beziehung zwischen den Variablen erwarten.

In vielen Studien wird ein p-Wert von 0,05 als „akzeptabler Spielraum“ für die Fehlerquote angesehen.

Es führt kein Weg daran vorbei, willkürlich zu entscheiden, welcher Signifikanzgrad wirklich als „signifikant“ angesehen werden soll. Die Wahl eines bestimmten Signifikanzniveaus, ab dem Ergebnisse als falsch verworfen werden, ist recht willkürlich. In der Praxis hängt die endgültige Entscheidung normalerweise davon ab, ob das Ergebnis a priori (d. h. vor der Durchführung des Experiments) vorhergesagt wurde oder a posteriori als Ergebnis zahlreicher Analysen und Vergleiche mit einer Vielzahl von Daten sowie anhand der Ergebnisse entdeckt wurde Tradition des Studienfachs. Typischerweise ist in vielen Bereichen ein Ergebnis von p 0,05 eine akzeptable Grenze für die statistische Signifikanz, es sollte jedoch beachtet werden, dass dieser Wert immer noch eine relativ hohe Fehlerquote (5 %) beinhaltet. Ergebnisse, die auf dem Niveau von p 0,01 signifikant sind, werden im Allgemeinen als statistisch signifikant angesehen, und Ergebnisse mit einem Niveau von p 0,005 oder p 0,001 werden im Allgemeinen als hochsignifikant angesehen. Es sollte jedoch klar sein, dass diese Klassifizierung der Signifikanzniveaus recht willkürlich ist und lediglich eine informelle Vereinbarung darstellt, die auf der Grundlage praktischer Erfahrungen in einem bestimmten Forschungsbereich getroffen wird.

Wie bereits erwähnt, stellen die Größe des Zusammenhangs und die Zuverlässigkeit zwei unterschiedliche Merkmale der Beziehungen zwischen Variablen dar. Man kann jedoch nicht sagen, dass sie völlig unabhängig sind. Im Allgemeinen ist die Beziehung (Beziehung) zwischen Variablen in einer Stichprobe normaler Größe umso zuverlässiger, je größer sie ist.

Wenn wir davon ausgehen, dass zwischen den entsprechenden Variablen in der Grundgesamtheit kein Zusammenhang besteht, ist am wahrscheinlichsten zu erwarten, dass in der untersuchten Stichprobe auch kein Zusammenhang zwischen diesen Variablen besteht. Je stärker also eine Beziehung in einer Stichprobe gefunden wird, desto unwahrscheinlicher ist es, dass die Beziehung in der Grundgesamtheit, aus der sie gezogen wird, nicht besteht.


Die Stichprobengröße beeinflusst die Signifikanz der Beziehung. Wenn es wenige Beobachtungen gibt, dann gibt es entsprechend wenige mögliche Wertekombinationen für diese Variablen und somit ist die Wahrscheinlichkeit, zufällig eine Wertekombination zu entdecken, die einen starken Zusammenhang zeigt, relativ hoch.

Wie das Niveau der statistischen Signifikanz berechnet wird. Nehmen wir an, Sie haben bereits ein Maß für die Abhängigkeit zwischen zwei Variablen berechnet (wie oben erläutert). Die nächste Frage, die sich Ihnen stellt, lautet: „Wie bedeutsam ist diese Beziehung?“ Ist beispielsweise eine erklärte Varianz von 40 % zwischen zwei Variablen ausreichend, um die Beziehung als signifikant zu betrachten? Die Antwort: „je nach den Umständen.“ Die Signifikanz hängt nämlich hauptsächlich von der Stichprobengröße ab. Wie bereits erläutert, sind in sehr großen Stichproben auch sehr schwache Beziehungen zwischen Variablen signifikant, während in kleinen Stichproben selbst sehr starke Beziehungen nicht zuverlässig sind. Um den Grad der statistischen Signifikanz zu bestimmen, benötigen Sie daher eine Funktion, die die Beziehung zwischen der „Größe“ und der „Signifikanz“ der Beziehung zwischen Variablen für jeden Stichprobenumfang darstellt. Diese Funktion würde Ihnen genau sagen, „wie wahrscheinlich es ist, in einer Stichprobe einer bestimmten Größe eine Beziehung mit einem bestimmten Wert (oder mehr) zu erhalten, vorausgesetzt, dass es in der Grundgesamtheit keine solche Beziehung gibt“. Mit anderen Worten: Diese Funktion würde das Signifikanzniveau (p-Wert) und damit die Wahrscheinlichkeit angeben, die Annahme, dass eine bestimmte Beziehung in der Grundgesamtheit nicht existiert, fälschlicherweise abzulehnen. Diese „alternative“ Hypothese (dass es in der Grundgesamtheit keinen Zusammenhang gibt) wird üblicherweise Nullhypothese genannt. Ideal wäre es, wenn die Funktion, die die Fehlerwahrscheinlichkeit berechnet, linear wäre und nur für unterschiedliche Stichprobengrößen unterschiedliche Steigungen hätte. Leider ist diese Funktion wesentlich komplexer und nicht immer exakt gleich. In den meisten Fällen ist seine Form jedoch bekannt und kann zur Bestimmung der Signifikanzniveaus in Studien an Stichproben einer bestimmten Größe verwendet werden. Die meisten dieser Funktionen sind einer sehr wichtigen Klasse von Normalverteilungen zugeordnet.

Betrachten wir ein typisches Beispiel für die Anwendung statistischer Methoden in der Medizin. Die Hersteller des Medikaments gehen davon aus, dass es die Diurese im Verhältnis zur eingenommenen Dosis steigert. Um diese Hypothese zu testen, verabreichten sie fünf Freiwilligen unterschiedliche Dosen des Arzneimittels.

Basierend auf den Beobachtungsergebnissen wird ein Diagramm der Diurese gegenüber der Dosis erstellt (Abb. 1.2A). Abhängigkeit ist mit bloßem Auge erkennbar. Forscher gratulieren einander zur Entdeckung und die Welt zum neuen Diuretikum.

Tatsächlich erlauben uns die Daten nur die verlässliche Aussage, dass bei diesen fünf Freiwilligen eine dosisabhängige Diurese beobachtet wurde. Dass sich diese Abhängigkeit bei allen Menschen manifestiert, die die Droge einnehmen, ist lediglich eine Annahme.
ZY

Mit

Leben Man kann nicht sagen, dass es unbegründet ist – warum sonst Experimente durchführen?

Aber das Medikament wurde verkauft. Immer mehr Menschen nehmen es ein, in der Hoffnung, dadurch ihre Urinausscheidung zu steigern. Was sehen wir also? Wir sehen Abbildung 1.2B, die darauf hinweist, dass kein Zusammenhang zwischen der Dosis des Arzneimittels und der Diurese besteht. Schwarze Kreise kennzeichnen Daten aus der Originalstudie. Die Statistik verfügt über Methoden, mit denen wir die Wahrscheinlichkeit abschätzen können, eine solche „nicht repräsentative“ und in der Tat verwirrende Stichprobe zu erhalten. Es stellt sich heraus, dass bei Fehlen eines Zusammenhangs zwischen Diurese und der Dosis des Arzneimittels die daraus resultierende „Abhängigkeit“ in etwa 5 von 1000 Experimenten beobachtet werden würde. In diesem Fall hatten die Forscher also einfach Pech. Selbst wenn sie die fortschrittlichsten statistischen Methoden verwendet hätten, hätten sie sie dennoch nicht vor Fehlern bewahrt.

Wir haben dieses fiktive, aber keineswegs von der Realität entfernte Beispiel gegeben, um nicht die Nutzlosigkeit hervorzuheben
ness der Statistik. Er spricht über etwas anderes, über die Wahrscheinlichkeit ihrer Schlussfolgerungen. Durch die Anwendung der statistischen Methode erhalten wir nicht die endgültige Wahrheit, sondern nur eine Schätzung der Wahrscheinlichkeit einer bestimmten Annahme. Darüber hinaus basiert jede statistische Methode auf einem eigenen mathematischen Modell und ihre Ergebnisse sind in dem Maße korrekt, in dem dieses Modell der Realität entspricht.

Mehr zum Thema ZUVERLÄSSIGKEIT UND STATISTISCHE SIGNIFIKANZ:

  1. Statistisch signifikante Unterschiede bei den Lebensqualitätsindikatoren
  2. Statistische Bevölkerung. Buchhaltungsmerkmale. Das Konzept der kontinuierlichen und selektiven Forschung. Anforderungen an statistische Daten und die Verwendung von Buchhaltungs- und Berichtsdokumenten
  3. ABSTRAKT. STUDIE ZUR ZUVERLÄSSIGKEIT VON TONOMETER-ANZEIGEN ZUR MESSUNG DES INTRAOKULÄREN DRUCKS DURCH DAS AUGENLIDER 2018, 2018