Vergleich der Durchschnittswerte nach statistischer Signifikanz. Beurteilung der Zuverlässigkeit statistischer Forschungsergebnisse. Statistische Signifikanz und p-Wert

Was macht Ihrer Meinung nach Ihre „andere Hälfte“ besonders und bedeutungsvoll? Hängt es mit ihrer/seiner Persönlichkeit zusammen oder mit Ihren Gefühlen, die Sie für diese Person haben? Oder vielleicht mit der einfachen Tatsache, dass die Hypothese über die Zufälligkeit Ihrer Sympathie, wie Studien zeigen, eine Wahrscheinlichkeit von weniger als 5 % hat? Wenn wir die letzte Aussage für zuverlässig halten, gäbe es erfolgreiche Dating-Sites grundsätzlich nicht:

Wenn Sie Split-Tests oder andere Analysen Ihrer Website durchführen, kann ein Missverständnis der „statistischen Signifikanz“ zu einer Fehlinterpretation der Ergebnisse und damit zu falschen Maßnahmen im Conversion-Optimierungsprozess führen. Dies gilt auch für die Tausenden anderer statistischer Tests, die täglich in jeder bestehenden Branche durchgeführt werden.

Um zu verstehen, was „statistische Signifikanz“ ist, müssen Sie in die Geschichte des Begriffs eintauchen, seine wahre Bedeutung erfahren und verstehen, wie dieses „neue“ alte Verständnis Ihnen dabei hilft, die Ergebnisse Ihrer Forschung richtig zu interpretieren.

Eine kleine Geschichte

Obwohl die Menschheit seit vielen Jahrhunderten Statistiken zur Lösung verschiedener Probleme nutzt, nahm das moderne Verständnis von statistischer Signifikanz, Hypothesentests, Randomisierung und sogar Design of Experiments (DOE) erst zu Beginn des 20. Jahrhunderts Gestalt an und ist untrennbar damit verbunden der Name von Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962):

Ronald Fisher war ein Evolutionsbiologe und Statistiker, der sich besonders für die Erforschung der Evolution und der natürlichen Selektion im Tier- und Pflanzenreich interessierte. Während seiner glänzenden Karriere entwickelte und verbreitete er viele nützliche statistische Tools, die wir noch heute verwenden.

Fisher nutzte die von ihm entwickelten Techniken, um Prozesse in der Biologie wie Dominanz, Mutationen und genetische Abweichungen zu erklären. Wir können heute dieselben Tools verwenden, um den Inhalt von Webressourcen zu optimieren und zu verbessern. Dass mit diesen Analysewerkzeugen auch Objekte bearbeitet werden können, die zum Zeitpunkt ihrer Entstehung noch nicht einmal existierten, erscheint überraschend. Ebenso überraschend ist es, dass Menschen früher komplexe Berechnungen ohne Taschenrechner oder Computer durchführten.

Um zu beschreiben, dass die Ergebnisse eines statistischen Experiments mit hoher Wahrscheinlichkeit wahr sind, verwendete Fisher das Wort „Signifikanz“.

Eine von Fishers interessantesten Entwicklungen kann auch als „Sexy-Sohn“-Hypothese bezeichnet werden. Nach dieser Theorie bevorzugen Frauen sexuell promiskuitive Männer (promiskuitiv), weil dies es den von diesen Männern geborenen Söhnen ermöglicht, die gleiche Veranlagung zu haben und mehr Nachkommen zu zeugen (beachten Sie, dass dies nur eine Theorie ist).

Aber niemand, selbst brillante Wissenschaftler, ist vor Fehlern gefeit. Fishers Mängel plagen Fachleuten bis heute. Aber erinnern Sie sich an die Worte von Albert Einstein: „Wer nie einen Fehler gemacht hat, hat nie etwas Neues geschaffen.“

Bevor Sie mit dem nächsten Punkt fortfahren, denken Sie daran: Statistische Signifikanz liegt dann vor, wenn der Unterschied in den Testergebnissen so groß ist, dass der Unterschied nicht durch Zufallsfaktoren erklärt werden kann.

Was ist Ihre Hypothese?

Um zu verstehen, was „statistische Signifikanz“ bedeutet, müssen Sie zunächst verstehen, was „Hypothesentest“ ist, da die beiden Begriffe eng miteinander verknüpft sind.
Eine Hypothese ist nur eine Theorie. Sobald Sie eine Theorie entwickelt haben, müssen Sie einen Prozess etablieren, um genügend Beweise zu sammeln und diese Beweise tatsächlich zu sammeln. Es gibt zwei Arten von Hypothesen.

Äpfel oder Birnen – was ist besser?

Nullhypothese

Hier stoßen viele Menschen in der Regel auf Schwierigkeiten. Beachten Sie, dass eine Nullhypothese nicht bewiesen werden muss, so wie Sie beweisen, dass eine bestimmte Änderung auf einer Website zu einer Steigerung der Conversions führt, aber umgekehrt. Die Nullhypothese ist eine Theorie, die besagt, dass nichts passieren wird, wenn Sie Änderungen an der Website vornehmen. Und das Ziel des Forschers ist es, diese Theorie zu widerlegen, nicht sie zu beweisen.

Betrachtet man die Erfahrungen bei der Aufklärung von Straftaten, bei denen Ermittler auch Hypothesen darüber aufstellen, wer der Täter ist, so nimmt die Nullhypothese die Form der sogenannten Unschuldsvermutung an, das Konzept, nach dem der Angeklagte bis zum Beweis seiner Schuld als unschuldig gilt vor Gericht.

Wenn die Nullhypothese besagt, dass zwei Objekte in ihren Eigenschaften gleich sind, und Sie versuchen zu beweisen, dass eines besser ist (zum Beispiel ist A besser als B), müssen Sie die Nullhypothese zugunsten der Alternative ablehnen. Sie vergleichen beispielsweise das eine oder andere Tool zur Conversion-Optimierung. In der Nullhypothese haben beide die gleiche Wirkung (oder keine Wirkung) auf das Ziel. Alternativ ist die Wirkung einer von ihnen besser.

Ihre Alternativhypothese kann einen numerischen Wert enthalten, z. B. B – A > 20 %. In diesem Fall können die Nullhypothese und die Alternative die folgende Form annehmen:

Eine andere Bezeichnung für eine Alternativhypothese ist Forschungshypothese, da der Forscher immer daran interessiert ist, diese spezielle Hypothese zu beweisen.

Statistische Signifikanz und p-Wert

Kehren wir noch einmal zu Ronald Fisher und seinem Konzept der statistischen Signifikanz zurück.

Nachdem Sie nun eine Nullhypothese und eine Alternative haben, wie können Sie das eine beweisen und das andere widerlegen?

Da es bei Statistiken naturgemäß um die Untersuchung einer bestimmten Population (Stichprobe) geht, kann man sich der erzielten Ergebnisse nie hundertprozentig sicher sein. Ein gutes Beispiel: Wahlergebnisse weichen oft von den Ergebnissen vorläufiger Umfragen und sogar von Exit-Pools ab.

Dr. Fisher wollte eine Trennlinie schaffen, die Ihnen zeigt, ob Ihr Experiment erfolgreich war oder nicht. So entstand der Zuverlässigkeitsindex. Glaubwürdigkeit ist die Ebene, auf der wir sagen, was wir für „bedeutend“ halten und was nicht. Wenn „p“, der Signifikanzindex, 0,05 oder weniger beträgt, sind die Ergebnisse zuverlässig.

Keine Sorge, es ist tatsächlich nicht so verwirrend, wie es scheint.

Gaußsche Wahrscheinlichkeitsverteilung. An den Rändern befinden sich die unwahrscheinlicheren Werte der Variablen, in der Mitte die wahrscheinlichsten. Der P-Score (grün schattierter Bereich) ist die Wahrscheinlichkeit, dass das beobachtete Ergebnis zufällig eintritt.

Die normale Wahrscheinlichkeitsverteilung (Gaußverteilung) ist eine Darstellung aller möglichen Werte einer bestimmten Variablen in einem Diagramm (in der Abbildung oben) und ihrer Häufigkeiten. Wenn Sie Ihre Recherche richtig durchführen und dann alle Ihre Antworten in einem Diagramm darstellen, erhalten Sie genau diese Verteilung. Gemäß der Normalverteilung erhalten Sie einen großen Prozentsatz ähnlicher Antworten und die restlichen Optionen befinden sich an den Rändern des Diagramms (den sogenannten „Schwänzen“). Diese Werteverteilung kommt in der Natur häufig vor, weshalb sie als „normal“ bezeichnet wird.

Mithilfe einer Gleichung, die auf Ihrer Probe und Ihren Testergebnissen basiert, können Sie eine sogenannte „Teststatistik“ berechnen, die angibt, wie stark Ihre Ergebnisse abweichen. Es wird Ihnen auch sagen, wie nahe Sie der Nullhypothese kommen.

Um Ihnen den Überblick zu erleichtern, verwenden Sie Online-Rechner zur Berechnung der statistischen Signifikanz:

Ein Beispiel für solche Rechner

Der Buchstabe „p“ stellt die Wahrscheinlichkeit dar, dass die Nullhypothese wahr ist. Wenn die Zahl klein ist, weist dies auf einen Unterschied zwischen den Testgruppen hin, wohingegen die Nullhypothese lauten würde, dass sie gleich sind. Grafisch sieht es so aus, als ob Ihre Teststatistik näher an einem der Enden Ihrer glockenförmigen Verteilung liegt.

Dr. Fisher entschied, die Signifikanzschwelle auf p ≤ 0,05 festzulegen. Allerdings ist diese Aussage umstritten, da sie zu zwei Schwierigkeiten führt:

1. Erstens bedeutet die Tatsache, dass Sie die Nullhypothese als falsch bewiesen haben, nicht, dass Sie die Alternativhypothese bewiesen haben. All diese Bedeutung bedeutet nur, dass man weder A noch B beweisen kann.

2. Zweitens: Wenn der p-Score 0,049 beträgt, bedeutet dies, dass die Wahrscheinlichkeit der Nullhypothese 4,9 % beträgt. Dies kann bedeuten, dass Ihre Testergebnisse gleichzeitig wahr und falsch sein können.

Sie können den p-Score verwenden oder auch nicht, aber dann müssen Sie die Wahrscheinlichkeit der Nullhypothese von Fall zu Fall berechnen und entscheiden, ob sie groß genug ist, um Sie daran zu hindern, die von Ihnen geplanten und getesteten Änderungen vorzunehmen .

Das häufigste Szenario für die Durchführung eines statistischen Tests besteht heutzutage darin, vor der Durchführung des Tests selbst einen Signifikanzschwellenwert von p ≤ 0,05 festzulegen. Achten Sie bei der Überprüfung Ihrer Ergebnisse unbedingt auf den p-Wert.

Fehler 1 und 2

Es ist so viel Zeit vergangen, dass Fehler, die bei der Verwendung der statistischen Signifikanzmetrik auftreten können, sogar eigene Namen erhalten haben.

Fehler vom Typ 1

Wie oben erwähnt bedeutet ein p-Wert von 0,05, dass die Wahrscheinlichkeit, dass die Nullhypothese wahr ist, bei 5 % liegt. Wenn Sie dies nicht tun, machen Sie Fehler Nummer 1. Die Ergebnisse besagen, dass Ihre neue Website Ihre Konversionsraten erhöht hat, aber die Wahrscheinlichkeit, dass dies nicht der Fall ist, liegt bei 5 %.

Fehler vom Typ 2

Dieser Fehler ist das Gegenteil von Fehler 1: Sie akzeptieren die Nullhypothese, wenn sie falsch ist. Testergebnisse zeigen beispielsweise, dass die an der Website vorgenommenen Änderungen keine Verbesserungen brachten, obwohl es Änderungen gab. Dadurch verpassen Sie die Chance, Ihre Leistung zu verbessern.

Dieser Fehler tritt häufig bei Tests mit unzureichender Stichprobengröße auf. Denken Sie also daran: Je größer die Stichprobe, desto zuverlässiger das Ergebnis.

Abschluss

Vielleicht ist kein Begriff unter Forschern so beliebt wie die statistische Signifikanz. Wenn sich Testergebnisse als statistisch nicht signifikant erweisen, reichen die Folgen von einem Anstieg der Conversion-Raten bis zum Zusammenbruch eines Unternehmens.

Und da Vermarkter diesen Begriff bei der Optimierung ihrer Ressourcen verwenden, müssen Sie wissen, was er wirklich bedeutet. Die Testbedingungen können variieren, aber Stichprobengröße und Erfolgskriterien sind immer wichtig. Merk dir das.

Aufgabe 3. Fünf Kinder im Vorschulalter werden einem Test unterzogen. Für jede Aufgabe wird die benötigte Zeit erfasst. Werden statistisch signifikante Unterschiede zwischen der Zeit zum Lösen der ersten drei Testaufgaben festgestellt?

Anzahl der Fächer

Referenzmaterial

Diese Aufgabe basiert auf der Theorie der Varianzanalyse. Im Allgemeinen besteht die Aufgabe der Varianzanalyse darin, diejenigen Faktoren zu identifizieren, die einen signifikanten Einfluss auf das Ergebnis des Experiments haben. Die Varianzanalyse kann verwendet werden, um die Mittelwerte mehrerer Stichproben zu vergleichen, wenn mehr als zwei Stichproben vorhanden sind. Zu diesem Zweck wird die einseitige Varianzanalyse verwendet.

Zur Lösung der gestellten Aufgaben wird Folgendes akzeptiert. Wenn sich die Varianzen der erhaltenen Werte des Optimierungsparameters bei Einfluss von Faktoren von den Varianzen der Ergebnisse bei fehlendem Einfluss von Faktoren unterscheiden, gilt ein solcher Faktor als signifikant.

Wie aus der Problemstellung hervorgeht, kommen hier Methoden zum Test statistischer Hypothesen zum Einsatz, nämlich die Aufgabe, zwei empirische Varianzen zu testen. Daher basiert die Varianzanalyse auf dem Testen von Varianzen mithilfe des Fisher-Tests. Bei dieser Aufgabe muss überprüft werden, ob die Unterschiede zwischen den Zeitpunkten der Lösung der ersten drei Testaufgaben durch jeden der sechs Vorschulkinder statistisch signifikant sind.

Die Nullhypothese (Haupthypothese) wird als aufgestellte Hypothese H o bezeichnet. Der Kern von e beruht auf der Annahme, dass die Differenz zwischen den verglichenen Parametern Null ist (daher der Name der Hypothese – Null) und dass die beobachteten Unterschiede zufällig sind.

Eine konkurrierende (alternative) Hypothese heißt H1 und widerspricht der Nullhypothese.

Lösung:

Mithilfe der Methode der Varianzanalyse auf einem Signifikanzniveau von α = 0,05 testen wir die Nullhypothese (H o) über das Vorhandensein statistisch signifikanter Unterschiede zwischen den Zeitpunkten der Lösung der ersten drei Testaufgaben für sechs Vorschulkinder.

Schauen wir uns die Tabelle der Aufgabenbedingungen an, in der wir die durchschnittliche Zeit zum Lösen jeder der drei Testaufgaben finden

Anzahl der Fächer

Faktorstufen

Zeit zum Lösen der ersten Testaufgabe (in Sekunden).

Zeit zum Lösen der zweiten Testaufgabe (in Sekunden).

Zeit zum Lösen der dritten Testaufgabe (in Sekunden).

Gruppendurchschnitt

Ermittlung des Gesamtdurchschnitts:

Um die Signifikanz von Zeitunterschieden in jedem Test zu berücksichtigen, wird die gesamte Stichprobenvarianz in zwei Teile geteilt, von denen der erste als faktoriell und der zweite als Residual bezeichnet wird

Berechnen wir mit der Formel die Gesamtsumme der quadrierten Abweichungen vom Gesamtdurchschnitt

oder , wobei p die Anzahl der Zeitmessungen zur Lösung von Testaufgaben ist, q die Anzahl der Testteilnehmer. Dazu erstellen wir eine Tabelle mit Quadraten

Anzahl der Fächer

Faktorstufen

Zeit zum Lösen der ersten Testaufgabe (in Sekunden).

Zeit zum Lösen der zweiten Testaufgabe (in Sekunden).

Zeit zum Lösen der dritten Testaufgabe (in Sekunden).

Statistische Zuverlässigkeit ist in der Berechnungspraxis der FCC von wesentlicher Bedeutung. Es wurde bereits erwähnt, dass mehrere Stichproben aus derselben Grundgesamtheit ausgewählt werden können:

Bei richtiger Auswahl weichen ihre Durchschnittsindikatoren und die Indikatoren der Gesamtbevölkerung unter Berücksichtigung der akzeptierten Zuverlässigkeit geringfügig in der Größe des Repräsentativitätsfehlers voneinander ab;

Wenn sie aus verschiedenen Populationen ausgewählt werden, erweist sich der Unterschied zwischen ihnen als signifikant. Bei der Statistik geht es vor allem um den Vergleich von Stichproben.

Wenn sie sich unwesentlich, unprinzipiell, unbedeutend unterscheiden, d. h. sie gehören tatsächlich zur gleichen Grundgesamtheit, wird der Unterschied zwischen ihnen als statistisch unzuverlässig bezeichnet.

Statistisch zuverlässig Eine Stichprobendifferenz ist eine Stichprobe, die sich erheblich und grundlegend unterscheidet, das heißt, sie gehört zu verschiedenen Grundgesamtheiten.

Bei der FCC bedeutet die Beurteilung der statistischen Signifikanz von Stichprobenunterschieden die Lösung vieler praktischer Probleme. Beispielsweise ist die Einführung neuer Lehrmethoden, Programme, Übungssätze, Tests, Kontrollübungen mit deren experimenteller Erprobung verbunden, die zeigen soll, dass sich die Testgruppe grundlegend von der Kontrollgruppe unterscheidet. Daher werden spezielle statistische Methoden, sogenannte statistische Signifikanzkriterien, verwendet, um das Vorhandensein oder Fehlen eines statistisch signifikanten Unterschieds zwischen Stichproben festzustellen.

Alle Kriterien sind in zwei Gruppen unterteilt: parametrisch und nicht parametrisch. Parametrische Kriterien erfordern das Vorhandensein eines Normalverteilungsgesetzes, d. h. Dies bedeutet die obligatorische Bestimmung der Hauptindikatoren des Normalgesetzes – des arithmetischen Mittels und der Standardabweichung s. Parametrische Kriterien sind am genauesten und korrektesten. Nichtparametrische Tests basieren auf Rangunterschieden (Ordinalunterschieden) zwischen Stichprobenelementen.

Hier sind die Hauptkriterien für die statistische Signifikanz, die in der FCC-Praxis verwendet werden: Student-Test und Fisher-Test.

Schüler-T-Test benannt nach dem englischen Wissenschaftler K. Gosset (Student - Pseudonym), der diese Methode entdeckte. Der Student-Test ist parametrisch und dient zum Vergleich der Absolutwerte von Stichproben. Die Größe der Proben kann variieren.

Schüler-T-Test ist so definiert.

1. Finden Sie den Student-t-Test mithilfe der folgenden Formel:


wo sind die arithmetischen Mittelwerte der verglichenen Stichproben; t 1, t 2 – Fehler der Repräsentativität, die anhand der Indikatoren der verglichenen Stichproben identifiziert wurden.

2. Die Praxis bei der FCC hat gezeigt, dass es für die Sportarbeit ausreicht, die Zuverlässigkeit des Kontos P = 0,95 zu akzeptieren.

Für die Zählsicherheit: P = 0,95 (a = 0,05), mit der Anzahl der Freiheitsgrade

k = n 1 + n 2 - 2 anhand der Tabelle in Anhang 4 ermitteln wir den Wert des Grenzwertes des Kriteriums ( t gr).

3. Basierend auf den Eigenschaften des Normalverteilungsgesetzes vergleicht das Student-Kriterium t und t gr.

Wir ziehen Schlussfolgerungen:

wenn t t gr, dann ist der Unterschied zwischen den verglichenen Stichproben statistisch signifikant;

wenn t t gr, dann ist der Unterschied statistisch unbedeutend.

Für Forscher auf dem Gebiet der FCS ist die Beurteilung der statistischen Signifikanz der erste Schritt zur Lösung eines bestimmten Problems: ob sich die verglichenen Stichproben grundlegend oder nicht grundlegend voneinander unterscheiden. Der nächste Schritt besteht darin, diesen Unterschied aus pädagogischer Sicht zu bewerten, die durch die Bedingungen der Aufgabe bestimmt wird.

Betrachten wir die Anwendung des Student-Tests anhand eines konkreten Beispiels.

Beispiel 2.14. Eine Gruppe von 18 Probanden wurde vor x i und danach auf ihre Herzfrequenz (Schläge pro Minute) untersucht y i sich warm laufen.

Beurteilen Sie die Wirksamkeit des Aufwärmens anhand der Herzfrequenz. Erste Daten und Berechnungen sind in der Tabelle dargestellt. 2.30 und 2.31.

Tabelle 2.30

Verarbeitung von Herzfrequenzindikatoren vor dem Aufwärmen


Die Fehler für beide Gruppen stimmten überein, da die Stichprobengrößen gleich waren (die gleiche Gruppe wurde unter unterschiedlichen Bedingungen untersucht) und die Standardabweichungen s x = s y = 3 Schläge/Minute betrugen. Fahren wir mit der Definition des Schülertests fort:

Wir legen die Zuverlässigkeit des Kontos fest: P = 0,95.

Anzahl der Freiheitsgrade k 1 = n 1 + n 2 - 2 = 18 + 18-2 = 34. Aus der Tabelle in Anhang 4 finden wir t gr= 2,02.

Statistische Inferenz. Da t = 11,62 und die Grenze t gr = 2,02, dann ist 11,62 > 2,02, d. h. t > t gr, daher ist der Unterschied zwischen den Proben statistisch signifikant.

Pädagogische Schlussfolgerung. Es wurde festgestellt, dass hinsichtlich der Herzfrequenz der Unterschied zwischen dem Zustand der Gruppe vor und nach dem Aufwärmen statistisch signifikant ist, d. h. bedeutsam, grundlegend. Anhand der Herzfrequenzanzeige können wir also schließen, dass das Aufwärmen effektiv ist.

Fisher-Kriterium ist parametrisch. Es wird beim Vergleich der Probendispersionsraten verwendet. Dies bedeutet in der Regel einen Vergleich hinsichtlich der Stabilität der sportlichen Arbeit oder der Stabilität funktioneller und technischer Indikatoren in der Ausübung von Körperkultur und Sport. Proben können unterschiedlich groß sein.

Das Fisher-Kriterium wird in der folgenden Reihenfolge definiert.

1. Finden Sie das Fisher-Kriterium F mithilfe der Formel


wobei , die Varianzen der verglichenen Stichproben sind.

Die Bedingungen des Fisher-Kriteriums legen dies im Zähler der Formel fest F es gibt eine große Streuung, d.h. die Zahl F ist immer größer als eins.

Wir stellen die Berechnungszuverlässigkeit ein: P = 0,95 – und bestimmen die Anzahl der Freiheitsgrade für beide Stichproben: k 1 = n 1 – 1, k 2 = n 2 – 1.

Anhand der Tabelle in Anlage 4 ermitteln wir den Grenzwert des Kriteriums F GR.

Vergleich der F- und F-Kriterien GR lässt uns Schlussfolgerungen formulieren:

wenn F > F gr, dann ist der Unterschied zwischen den Stichproben statistisch signifikant;

wenn F< F гр, то различие между выборками статически недо­стоверно.

Lassen Sie uns ein konkretes Beispiel geben.

Beispiel 2.15. Lassen Sie uns zwei Gruppen von Handballspielern analysieren: x i (n 1= 16 Personen) und y i (n 2 = 18 Personen). Diese Athletengruppen wurden hinsichtlich der Abflugzeit(en) beim Werfen des Balls ins Tor untersucht.

Sind die Abstoßungsindikatoren vom gleichen Typ?

Erste Daten und grundlegende Berechnungen sind in der Tabelle dargestellt. 2.32 und 2.33.

Tabelle 2.32

Verarbeitung von Abstoßungsindikatoren der ersten Gruppe von Handballspielern


Definieren wir das Fisher-Kriterium:





Gemäß den in der Tabelle in Anhang 6 dargestellten Daten finden wir Fgr: Fgr = 2,4

Achten wir darauf, dass in der Tabelle in Anhang 6 die Auflistung der Zahlen der Freiheitsgrade sowohl größerer als auch kleinerer Streuung gröber wird, je näher wir uns größeren Zahlen nähern. Somit folgt die Anzahl der Freiheitsgrade der größeren Dispersion in dieser Reihenfolge: 8, 9, 10, 11, 12, 14, 16, 20, 24 usw. und der kleineren – 28, 29, 30, 40 , 50 usw. d.

Dies erklärt sich dadurch, dass mit zunehmender Stichprobengröße die Unterschiede im F-Test abnehmen und es möglich ist, Tabellenwerte zu verwenden, die nahe an den Originaldaten liegen. Im Beispiel 2,15 =17 fehlt also und wir können den ihm am nächsten liegenden Wert k = 16 annehmen, woraus wir Fgr = 2,4 erhalten.

Statistische Inferenz. Da beim Fisher-Test F= 2,5 > F= 2,4 gilt, sind die Stichproben statistisch unterscheidbar.

Pädagogische Schlussfolgerung. Die Werte der Absprungzeit(en) beim Einwurf des Balls ins Tor unterscheiden sich bei Handballspielern beider Gruppen deutlich. Diese Gruppen sollten als unterschiedlich betrachtet werden.

Weitere Untersuchungen sollten den Grund für diesen Unterschied aufdecken.

Beispiel 2.20.(auf die statistische Zuverlässigkeit der Stichprobe ). Hat sich die Qualifikation des Fußballspielers verbessert, wenn die Zeit(en) vom Signalgeben bis zum Treten des Balls zu Beginn des Trainings x i und am Ende y i betrugen?

Ausgangsdaten und Grundberechnungen sind in der Tabelle aufgeführt. 2,40 und 2,41.

Tabelle 2.40

Verarbeitungszeitindikatoren vom Signalgeben bis zum Schlagen des Balls zu Beginn des Trainings


Lassen Sie uns den Unterschied zwischen Gruppen von Indikatoren anhand des Student-Kriteriums bestimmen:

Mit Zuverlässigkeit P = 0,95 und Freiheitsgraden k = n 1 + n 2 - 2 = 22 + 22 - 2 = 42 finden wir anhand der Tabelle in Anhang 4 t gr= 2,02. Da t = 8,3 > t gr= 2,02 – der Unterschied ist statistisch signifikant.

Lassen Sie uns den Unterschied zwischen Gruppen von Indikatoren anhand des Fisher-Kriteriums bestimmen:


Gemäß der Tabelle im Anhang 2 beträgt bei Zuverlässigkeit P = 0,95 und Freiheitsgraden k = 22-1 = 21 der Wert F gr = 21. Da F = 1,53< F гр = = 2,1, различие в рассеивании исходных данных статистически недостоверно.

Statistische Inferenz. Nach dem arithmetischen Mittel ist der Unterschied zwischen den Indikatorengruppen statistisch signifikant. In Bezug auf die Streuung (Streuung) ist der Unterschied zwischen Gruppen von Indikatoren statistisch unzuverlässig.

Pädagogische Schlussfolgerung. Die Qualifikationen des Fußballspielers haben sich deutlich verbessert, allerdings sollte auf die Stabilität seiner Aussage geachtet werden.

Vorbereitung auf die Arbeit

Vor der Durchführung dieser Laborarbeit in der Disziplin „Sportmesstechnik“ alle Studierenden der Lerngruppe müssen Arbeitsteams mit jeweils 3-4 Studierenden bilden, den Arbeitsauftrag aller Laborarbeiten gemeinsam zu erledigen.

Zur Vorbereitung auf die Arbeit Machen Sie sich mit den relevanten Abschnitten der empfohlenen Literatur (siehe Abschnitt 6 dieser Richtlinien) und Vorlesungsskripten vertraut. Studieren Sie die Abschnitte 1 und 2 für diese Laborarbeit sowie den Arbeitsauftrag dazu (Abschnitt 4).

Bereiten Sie ein Berichtsformular vor auf handelsüblichem A4-Briefpapier aus und füllen Sie es mit den für die Arbeit notwendigen Materialien.

Der Bericht muss enthalten :

Titelseite mit Angabe der Abteilung (UC und TR), der Studiengruppe, des Nachnamens, des Vornamens, des Patronyms des Studierenden, der Nummer und des Titels der Laborarbeit, des Abschlussdatums sowie des Nachnamens, des akademischen Grades, des akademischen Titels und der Position dass der Lehrer die Arbeit annimmt;

Ziel der Arbeit;

Formeln mit Zahlenwerten zur Erläuterung von Zwischen- und Endergebnissen von Berechnungen;

Tabellen gemessener und berechneter Werte;

Für den Auftrag erforderliches grafisches Material;

Kurze Schlussfolgerungen zu den Ergebnissen jeder Phase des Arbeitsauftrags und zur durchgeführten Arbeit im Allgemeinen.

Alle Grafiken und Tabellen werden sorgfältig mit Zeichenwerkzeugen gezeichnet. Herkömmliche Grafik- und Buchstabensymbole müssen den GOSTs entsprechen. Es ist erlaubt, einen Bericht mithilfe von Computertechnologie zu erstellen.

Arbeitsauftrag

Bevor alle Messungen durchgeführt werden, muss jedes Teammitglied die in Anhang 7 aufgeführten Regeln für die Verwendung des Sportspiels Darts studieren, die für die Durchführung der folgenden Forschungsschritte erforderlich sind.

Stufe I der Forschung„Untersuchung der Ergebnisse des Treffens der Zielscheibe des Darts-Sportspiels durch jedes Mitglied der Mannschaft auf Einhaltung des Normalverteilungsgesetzes gemäß dem Kriterium χ 2 Pearson und das Drei-Sigma-Kriterium“

1. Messen (testen) Sie Ihre (persönliche) Geschwindigkeit und Koordination von Handlungen, indem man im Sportspiel Darts 30–40 Mal Pfeile auf ein kreisförmiges Ziel wirft.

2. Ergebnisse von Messungen (Tests) x i(in Gläsern) in Form einer Variationsreihe formatiert und in Tabelle 4.1 (Spalten) eingetragen, alle notwendigen Berechnungen durchführen, die notwendigen Tabellen ausfüllen und entsprechende Rückschlüsse auf die Übereinstimmung der resultierenden empirischen Verteilung mit dem Normalverteilungsgesetz ziehen, durch Analogie zu ähnlichen Berechnungen, Tabellen und Schlussfolgerungen von Beispiel 2.12, angegeben in Abschnitt 2 dieser Richtlinien auf den Seiten 7–10.

Tabelle 4.1

Übereinstimmung der Geschwindigkeit und Koordination der Handlungen der Probanden mit dem Normalverteilungsgesetz

NEIN. gerundet
Gesamt

II – Forschungsphase

„Bewertung der durchschnittlichen Indikatoren der Gesamtpopulation von Treffern auf das Ziel des Sportspiels Darts aller Studierenden der Studiengruppe basierend auf den Ergebnissen der Messungen von Mitgliedern einer Mannschaft“

Bewerten Sie die durchschnittlichen Indikatoren für Geschwindigkeit und Handlungskoordination aller Schüler in der Lerngruppe (gemäß der Liste der Lerngruppe im Klassenmagazin) auf der Grundlage der in der ersten Phase erzielten Ergebnisse beim Erreichen des Dartziels aller Teammitglieder der Forschung dieser Laborarbeit.

1. Dokumentieren Sie die Ergebnisse von Geschwindigkeits- und Handlungskoordinationsmessungen beim Dartwerfen auf ein kreisförmiges Ziel im Sportspiel Darts aller Mitglieder Ihres Teams (2 – 4 Personen), die eine Stichprobe von Messergebnissen aus der Allgemeinbevölkerung darstellen (Messergebnisse aller Schüler einer Lerngruppe – z. B. 15 Personen), tragen Sie diese in die zweite und dritte Spalte Tabelle 4.2 ein.

Tabelle 4.2

Verarbeitung von Indikatoren für Geschwindigkeit und Koordination von Aktionen

Brigademitglieder

NEIN.
Gesamt

In Tabelle 4.2 unten sollte verstanden werden , passende durchschnittliche Punktzahl (siehe Berechnungsergebnisse in Tabelle 4.1) Mitglieder Ihres Teams ( , in der ersten Forschungsphase erhalten. Es ist darauf hinzuweisen, dass, allgemein, Tabelle 4.2 enthält den berechneten Durchschnittswert der Messergebnisse, die ein Mitglied des Teams in der ersten Forschungsphase erhalten hat , da die Wahrscheinlichkeit, dass die Messergebnisse verschiedener Teammitglieder übereinstimmen, sehr gering ist. Dann, in der Regel die Werte in der Spalte Tabelle 4.2 für jede Zeile - gleich 1, A in der Zeile „Gesamt „Spalten“ wird geschrieben die Anzahl der Mitglieder Ihres Teams.

2. Führen Sie alle erforderlichen Berechnungen durch, um Tabelle 4.2 auszufüllen, sowie andere Berechnungen und Schlussfolgerungen, die den Berechnungen und Schlussfolgerungen von Beispiel 2.13 im 2. Abschnitt dieser methodischen Entwicklung auf den Seiten 13–14 ähneln. Dies sollte bei der Berechnung des Repräsentativitätsfehlers berücksichtigt werden "M" Es ist notwendig, die auf Seite 13 dieser methodischen Entwicklung angegebene Formel 2.4 zu verwenden, da die Stichprobe klein ist (n und die Anzahl der Elemente der Gesamtbevölkerung N bekannt ist und gleich der Anzahl der Studierenden in der Studiengruppe ist. gemäß der Liste der Zeitschrift der Studiengruppe.

III – Forschungsphase

Bewertung der Wirksamkeit des Aufwärmens anhand des Indikators „Geschwindigkeit und Koordination der Aktionen“ durch jedes Teammitglied mithilfe des Student-T-Tests

Um die Wirksamkeit des Aufwärmens für das Werfen von Darts auf das Ziel des Sportspiels „Darts“ zu bewerten, das in der ersten Forschungsphase dieser Laborarbeit von jedem Mitglied des Teams anhand des Indikators „Geschwindigkeit und“ durchgeführt wurde Koordinierung von Handlungen“, unter Verwendung des Student-Kriteriums – ein parametrisches Kriterium für die statistische Zuverlässigkeit des empirischen Verteilungsgesetzes gegenüber dem Normalverteilungsgesetz.

… Gesamt

2. Abweichungen und RMS , Ergebnisse von Messungen des Indikators „Geschwindigkeit und Koordination von Aktionen“ basierend auf den Ergebnissen des Aufwärmens, in Tabelle 4.3 angegeben, (siehe ähnliche Berechnungen unmittelbar nach Tabelle 2.30 von Beispiel 2.14 auf Seite 16 dieser methodischen Entwicklung).

3. Jedes Mitglied des Arbeitsteams Messen (testen) Sie Ihre (persönliche) Geschwindigkeit und Koordination von Aktionen nach dem Aufwärmen,

… Gesamt

5. Führen Sie Durchschnittsberechnungen durch Abweichungen und RMS ,Ergebnisse der Messungen des Indikators „Geschwindigkeit und Koordination der Aktionen“ nach dem Aufwärmen, in Tabelle 4.4 angegeben, Notieren Sie das Gesamtmessergebnis basierend auf den Aufwärmergebnissen (siehe ähnliche Berechnungen unmittelbar nach Tabelle 2.31 von Beispiel 2.14 auf Seite 17 dieser methodischen Entwicklung).

6. Führen Sie alle erforderlichen Berechnungen und Schlussfolgerungen durch, ähnlich den Berechnungen und Schlussfolgerungen von Beispiel 2.14 im 2. Abschnitt dieser methodischen Entwicklung auf den Seiten 16–17. Dies sollte bei der Berechnung des Repräsentativitätsfehlers berücksichtigt werden "M" Es ist notwendig, die auf Seite 12 dieser methodischen Entwicklung angegebene Formel 2.1 zu verwenden, da die Stichprobe n ist und die Anzahl der Elemente in der Grundgesamtheit N ( unbekannt ist.

IV – Forschungsstadium

Bewertung der Einheitlichkeit (Stabilität) der Indikatoren „Geschwindigkeit und Handlungskoordination“ zweier Teammitglieder anhand des Fisher-Kriteriums

Bewerten Sie die Einheitlichkeit (Stabilität) der Indikatoren „Geschwindigkeit und Koordination der Aktionen“ zweier Teammitglieder anhand des Fisher-Kriteriums, basierend auf den Messergebnissen, die in der dritten Forschungsphase dieser Laborarbeit erzielt wurden.

Dazu müssen Sie Folgendes tun.

Unter Verwendung der Daten aus den Tabellen 4.3 und 4.4 werden die Ergebnisse der Berechnung der Varianzen aus diesen Tabellen, die in der dritten Forschungsphase erhalten wurden, sowie die Methodik zur Berechnung und Anwendung des Fisher-Kriteriums zur Bewertung der Einheitlichkeit (Stabilität) von Sportindikatoren, angegeben in Ziehen Sie anhand von Beispiel 2.15 auf den Seiten 18-19 dieser methodischen Weiterentwicklung entsprechende statistische und pädagogische Schlussfolgerungen.

V – Forschungsstadium

Bewertung der Indikatorengruppen „Geschwindigkeit und Handlungskoordination“ eines Teammitglieds vor und nach dem Aufwärmen

In jeder wissenschaftlichen und praktischen Situation eines Experiments (Umfrage) können Forscher nicht alle Menschen (Gesamtbevölkerung, Bevölkerung) untersuchen, sondern nur eine bestimmte Stichprobe. Selbst wenn wir beispielsweise eine relativ kleine Gruppe von Menschen untersuchen, beispielsweise solche, die an einer bestimmten Krankheit leiden, ist es immer noch sehr unwahrscheinlich, dass wir über die entsprechenden Ressourcen verfügen oder die Notwendigkeit haben, jeden Patienten zu testen. Stattdessen ist es üblich, eine Stichprobe aus der Grundgesamtheit zu testen, da dies bequemer und weniger zeitaufwändig ist. Wenn ja, woher wissen wir, dass die Ergebnisse der Stichprobe repräsentativ für die gesamte Gruppe sind? Oder, um die Fachterminologie zu verwenden: Können wir sicher sein, dass unsere Forschung das Ganze richtig beschreibt? Bevölkerung, die Probe, die wir verwendet haben?

Um diese Frage zu beantworten, ist es notwendig, die statistische Signifikanz der Testergebnisse zu bestimmen. Statistische Signifikanz (Erhebliches Niveau, abgekürzt Sig.), oder /7-Signifikanzniveau (p-Ebene) - ist die Wahrscheinlichkeit, dass ein bestimmtes Ergebnis die Population, aus der die Studie ausgewählt wurde, korrekt darstellt. Beachten Sie, dass dies nur der Fall ist Wahrscheinlichkeit- Es ist unmöglich, mit absoluter Sicherheit zu sagen, dass eine bestimmte Studie die gesamte Bevölkerung korrekt beschreibt. Das Signifikanzniveau lässt bestenfalls darauf schließen, dass dies sehr wahrscheinlich ist. Somit stellt sich unweigerlich die nächste Frage: Welches Signifikanzniveau muss vorliegen, bevor ein bestimmtes Ergebnis als korrekte Charakterisierung der Population angesehen werden kann?

Bei welchem ​​Wahrscheinlichkeitswert wären Sie beispielsweise bereit zu sagen, dass solche Chancen ausreichen, um ein Risiko einzugehen? Was ist, wenn die Quote 10 von 100 oder 50 von 100 beträgt? Was ist, wenn diese Wahrscheinlichkeit höher ist? Wie wäre es mit Quoten wie 90 von 100, 95 von 100 oder 98 von 100? In einer Risikosituation ist diese Wahl recht problematisch, da sie von den persönlichen Eigenschaften der Person abhängt.

In der Psychologie wird traditionell angenommen, dass eine Wahrscheinlichkeit von 95 oder mehr von 100 bedeutet, dass die Wahrscheinlichkeit, dass die Ergebnisse korrekt sind, hoch genug ist, um sie auf die gesamte Bevölkerung übertragen zu können. Diese Zahl wurde im Rahmen der wissenschaftlichen und praktischen Tätigkeit ermittelt – es gibt kein Gesetz, nach dem sie als Richtwert gewählt werden sollte (und tatsächlich werden in anderen Wissenschaften manchmal andere Werte des Signifikanzniveaus gewählt).

In der Psychologie wird diese Wahrscheinlichkeit auf etwas ungewöhnliche Weise bedient. Anstelle der Wahrscheinlichkeit, dass die Stichprobe die Grundgesamtheit repräsentiert, wird die Wahrscheinlichkeit angegeben, dass die Stichprobe repräsentiert nicht Bevölkerung. Mit anderen Worten handelt es sich um die Wahrscheinlichkeit, dass die beobachtete Beziehung oder die beobachteten Unterschiede zufällig und keine Eigenschaft der Grundgesamtheit sind. Anstatt also zu sagen, dass die Wahrscheinlichkeit, dass die Ergebnisse einer Studie korrekt sind, bei 95 zu 100 liegt, sagen Psychologen, dass die Wahrscheinlichkeit, dass die Ergebnisse falsch sind, bei 5 zu 100 liegt (genau wie eine Chance von 40 zu 100, dass die Ergebnisse richtig sind). eine Chance von 60 zu 100 zugunsten ihrer Unrichtigkeit). Der Wahrscheinlichkeitswert wird manchmal als Prozentsatz ausgedrückt, häufiger jedoch als Dezimalbruch. Beispielsweise werden 10 von 100 Chancen als Dezimalbruch von 0,1 ausgedrückt; 5 von 100 wird als 0,05 geschrieben; 1 von 100 - 0,01. Bei dieser Form der Aufzeichnung liegt der Grenzwert bei 0,05. Damit ein Ergebnis als korrekt angesehen wird, muss sein Signifikanzniveau sein unten diese Zahl (denken Sie daran, dies ist die Wahrscheinlichkeit, dass das Ergebnis falsch beschreibt die Bevölkerung). Um die Terminologie aus dem Weg zu räumen, fügen wir hinzu, dass die „Wahrscheinlichkeit, dass das Ergebnis falsch ist“ (was korrekter heißt). Signifikanzniveau) normalerweise mit einem lateinischen Buchstaben bezeichnet R. Beschreibungen experimenteller Ergebnisse enthalten normalerweise eine zusammenfassende Aussage wie „Die Ergebnisse waren auf dem Konfidenzniveau signifikant.“ (R(p) weniger als 0,05 (d. h. weniger als 5 %).

Somit ist das Signifikanzniveau ( R) gibt die Wahrscheinlichkeit an, mit der die Ergebnisse erzielt werden Nicht repräsentieren die Bevölkerung. Traditionell wird in der Psychologie davon ausgegangen, dass Ergebnisse zuverlässig das Gesamtbild des Wertes widerspiegeln R weniger als 0,05 (d. h. 5 %). Dies ist jedoch nur eine probabilistische Aussage und keineswegs eine unbedingte Garantie. In einigen Fällen ist diese Schlussfolgerung möglicherweise nicht korrekt. Tatsächlich können wir berechnen, wie oft dies passieren könnte, wenn wir die Größe des Signifikanzniveaus betrachten. Bei einem Signifikanzniveau von 0,05 ist es wahrscheinlich, dass die Ergebnisse in 5 von 100 Fällen falsch sind. 11a Auf den ersten Blick scheint dies nicht sehr häufig vorzukommen, aber wenn man darüber nachdenkt, dann sind 5 Chancen von 100 gleich 1 von 20. Mit anderen Worten, in einem von 20 Fällen wird das Ergebnis so sein falsch. Solche Chancen scheinen nicht besonders günstig zu sein, und Forscher sollten sich davor hüten, sich darauf einzulassen Fehler erster Art. Dies ist die Bezeichnung für den Fehler, der auftritt, wenn Forscher glauben, echte Ergebnisse gefunden zu haben, dies aber tatsächlich nicht der Fall ist. Der umgekehrte Fehler, der darin besteht, dass Forscher glauben, sie hätten kein Ergebnis gefunden, obwohl es tatsächlich eines gibt, wird aufgerufen Fehler der zweiten Art.

Diese Fehler entstehen, weil die Möglichkeit einer statistischen Auswertung nicht ausgeschlossen werden kann. Die Fehlerwahrscheinlichkeit hängt vom Grad der statistischen Signifikanz der Ergebnisse ab. Wir haben bereits darauf hingewiesen, dass das Signifikanzniveau unter 0,05 liegen muss, damit ein Ergebnis als korrekt gilt. Natürlich liegen einige Ergebnisse darunter, und es ist nicht ungewöhnlich, dass Ergebnisse von nur 0,001 angezeigt werden (ein Wert von 0,001 bedeutet, dass die Wahrscheinlichkeit, dass die Ergebnisse falsch sind, bei 1 zu 1000 liegt). Je kleiner der p-Wert ist, desto größer ist unser Vertrauen in die Richtigkeit der Ergebnisse.

In der Tabelle In Abb. 7.2 zeigt die traditionelle Interpretation von Signifikanzniveaus über die Möglichkeit statistischer Schlussfolgerungen und die Begründung für die Entscheidung über das Vorliegen eines Zusammenhangs (Unterschiede).

Tabelle 7.2

Traditionelle Interpretation von Signifikanzniveaus in der Psychologie

Basierend auf den Erfahrungen der praktischen Forschung wird empfohlen: Um Fehler der ersten und zweiten Art möglichst zu vermeiden, sollten bei wichtigen Schlussfolgerungen Entscheidungen über das Vorliegen von Unterschieden (Zusammenhängen) getroffen werden, wobei der Schwerpunkt auf der Ebene liegt R n Zeichen.

Statistischer Test(Statistischer Test - Es ist ein Werkzeug zur Bestimmung des statistischen Signifikanzniveaus. Dies ist eine entscheidende Regel, die sicherstellt, dass eine wahre Hypothese mit hoher Wahrscheinlichkeit akzeptiert und eine falsche Hypothese abgelehnt wird.

Statistische Kriterien bezeichnen auch die Methode zur Berechnung einer bestimmten Zahl und die Zahl selbst. Alle Kriterien dienen einem Hauptzweck: der Bestimmung Signifikanzniveau die Daten, die sie analysieren (d. h. die Wahrscheinlichkeit, dass die Daten einen echten Effekt widerspiegeln, der die Population, aus der die Stichprobe gezogen wird, korrekt darstellt).

Einige Tests können nur für normalverteilte Daten verwendet werden (und wenn das Merkmal auf einer Intervallskala gemessen wird) – diese Tests werden normalerweise aufgerufen parametrisch. Anhand anderer Kriterien können Sie Daten mit nahezu jedem Verteilungsgesetz analysieren – so heißt es nichtparametrisch.

Parametrische Kriterien sind Kriterien, die Verteilungsparameter in die Berechnungsformel einbeziehen, d. h. Mittelwerte und Varianzen (Student-T-Test, Fisher-F-Test usw.).

Nichtparametrische Kriterien sind Kriterien, die keine Verteilungsparameter in die Formel zur Berechnung der Verteilungsparameter einbeziehen und auf der Arbeit mit Häufigkeiten oder Rängen basieren (Kriterium). Q Rosenbaum-Kriterium U Manna - Whitney

Wenn wir beispielsweise sagen, dass die Signifikanz der Unterschiede durch den Student-T-Test bestimmt wurde, meinen wir, dass die Student-T-Test-Methode zur Berechnung des empirischen Werts verwendet wurde, der dann mit dem tabellierten (kritischen) Wert verglichen wird.

Anhand des Verhältnisses der empirischen (von uns berechneten) und kritischen Werte des Kriteriums (tabellarisch) können wir beurteilen, ob unsere Hypothese bestätigt oder widerlegt wird. Damit wir die Unterschiede als signifikant erkennen können, ist es in den meisten Fällen notwendig, dass der empirische Wert des Kriteriums den kritischen Wert überschreitet, obwohl es Kriterien gibt (z. B. den Mann-Whitney-Test oder den Vorzeichentest), bei denen wir müssen uns an die entgegengesetzte Regel halten.

In einigen Fällen umfasst die Berechnungsformel für das Kriterium die Anzahl der Beobachtungen in der untersuchten Stichprobe, bezeichnet als P. Anhand einer speziellen Tabelle ermitteln wir, welcher statistischen Signifikanz von Unterschieden ein gegebener Erfahrungswert entspricht. In den meisten Fällen kann derselbe empirische Wert des Kriteriums je nach Anzahl der Beobachtungen in der untersuchten Stichprobe signifikant oder unbedeutend sein ( P ) oder aus dem sogenannten Anzahl der Freiheitsgrade , was bezeichnet wird als v (g>) oder wie df (Manchmal D).

Wissen P oder der Anzahl der Freiheitsgrade können wir anhand spezieller Tabellen (die wichtigsten sind in Anhang 5 aufgeführt) die kritischen Werte des Kriteriums ermitteln und den erhaltenen Erfahrungswert damit vergleichen. Dies wird normalerweise so geschrieben: „wann n = 22 kritische Werte des Kriteriums sind t St = 2,07“ oder „at v (D) = 2 kritische Werte des Studententests sind = 4,30“, usw.

Typischerweise werden parametrische Kriterien immer noch bevorzugt, und wir bleiben bei dieser Position. Sie gelten als zuverlässiger und können mehr Informationen und tiefergehende Analysen liefern. Was die Komplexität mathematischer Berechnungen betrifft, so verschwindet diese Komplexität bei der Verwendung von Computerprogrammen (einige andere erscheinen jedoch durchaus überwindbar).

  • In diesem Lehrbuch gehen wir nicht im Detail auf das Problem der Statistik ein
  • Hypothesen (Null - R0 und Alternative - Hj) und statistische Entscheidungen getroffen, da Psychologiestudierende dies gesondert im Fach „Mathematische Methoden in der Psychologie“ studieren. Darüber hinaus ist zu beachten, dass bei der Erstellung eines Forschungsberichts (Studien- oder Diplomarbeit, Veröffentlichung) in der Regel keine statistischen Hypothesen und statistischen Lösungen angegeben werden. Normalerweise geben sie bei der Beschreibung der Ergebnisse das Kriterium an, liefern die notwendigen deskriptiven Statistiken (Mittelwerte, Sigma, Korrelationskoeffizienten usw.), Erfahrungswerte der Kriterien, Freiheitsgrade und notwendigerweise das p-Signifikanzniveau. Anschließend wird eine aussagekräftige Schlussfolgerung in Bezug auf die getestete Hypothese formuliert, die (normalerweise in Form einer Ungleichung) das erreichte oder nicht erreichte Signifikanzniveau angibt.

Statistische Signifikanz

Als Ergebnisse werden die mit einem bestimmten Forschungsverfahren erzielten Ergebnisse bezeichnet statistisch signifikant, wenn die Wahrscheinlichkeit ihres zufälligen Auftretens sehr gering ist. Dieses Konzept lässt sich am Beispiel des Münzwurfs veranschaulichen. Angenommen, die Münze wird 30 Mal geworfen; Kopf kam 17 Mal und Zahl kam 13 Mal hoch. Macht es bedeutsam Abweichung dieses Ergebnisses vom erwarteten Ergebnis (15 Kopf und 15 Zahl), oder ist diese Abweichung zufällig? Um diese Frage zu beantworten, können Sie beispielsweise dieselbe Münze viele Male, 30 Mal hintereinander, werfen und gleichzeitig notieren, wie oft sich das Verhältnis „Kopf“ zu „Zahl“ von 17:13 wiederholt. Die statistische Analyse erspart uns diesen langwierigen Prozess. Mit seiner Hilfe können Sie nach den ersten 30 Würfen einer Münze die mögliche Anzahl zufälliger Vorkommnisse von 17 „Kopf“ und 13 „Zahl“ abschätzen. Eine solche Einschätzung wird als probabilistische Aussage bezeichnet.

In der wissenschaftlichen Literatur zur Arbeits- und Organisationspsychologie wird mit dem Ausdruck eine probabilistische Aussage in mathematischer Form bezeichnet R(Wahrscheinlichkeit)< (менее) 0,05 (5 %), которое следует читать как «вероятность менее 5 %». В примере с киданием монеты это утверждение будет означать, что если исследователь проведет 100 опытов, каждый раз кидая монету по 30 раз, то он может ожидать случайного выпадения комбинации из 17 «орлов» и 13 «решек» менее, чем в 5 опытах. Этот результат будет сочтен статистически значимым, поскольку в индустриально-организационной психологии уже давно приняты стандарты статистической значимости 0,05 и 0,01 (R< 0,01). Diese Tatsache ist wichtig für das Verständnis der Literatur, sollte aber nicht so verstanden werden, dass es sinnlos ist, Beobachtungen durchzuführen, die diesen Standards nicht entsprechen. Sogenannte nichtsignifikante Forschungsergebnisse (Beobachtungen, die durch Zufall gewonnen werden können) mehr ein bis fünf Mal von 100) kann bei der Identifizierung von Trends und als Leitfaden für zukünftige Forschungen sehr nützlich sein.

Es sollte auch beachtet werden, dass nicht alle Psychologen mit traditionellen Standards und Verfahren einverstanden sind (z. B. Cohen, 1994; Sauley & Bedeian, 1989). Messfragen selbst sind ein Hauptschwerpunkt der Arbeit vieler Forscher. Sie untersuchen die Genauigkeit von Messmethoden und die Annahmen, die bestehenden Methoden und Standards zugrunde liegen, sowie die Entwicklung neuer Kliniker und Instrumente. Vielleicht wird die Forschung in diesem Bereich irgendwann in der Zukunft zu Änderungen der traditionellen Standards zur Bewertung der statistischen Signifikanz führen, und diese Änderungen werden breite Akzeptanz finden. (Die fünfte Abteilung der American Psychological Association ist eine Gruppe von Psychologen, die sich auf das Studium von Beurteilung, Messung und Statistik spezialisiert haben.)

In Forschungsberichten kann eine probabilistische Aussage wie z R< 0,05, aufgrund einiger Statistiken, das heißt, eine Zahl, die als Ergebnis einer bestimmten Reihe mathematischer Rechenverfahren erhalten wird. Eine probabilistische Bestätigung wird durch den Vergleich dieser Statistiken mit Daten aus speziellen Tabellen erhalten, die zu diesem Zweck veröffentlicht werden. In der arbForschung werden Statistiken wie z r, F, t, r>(lesen Sie „Chi-Quadrat“) und R(lesen Sie „Plural“ R"). In jedem Fall können die aus der Analyse einer Beobachtungsreihe gewonnenen Statistiken (eine Zahl) mit Zahlen aus einer veröffentlichten Tabelle verglichen werden. Anschließend können Sie eine probabilistische Aussage über die Wahrscheinlichkeit, diese Zahl zufällig zu erhalten, formulieren, also eine Schlussfolgerung über die Signifikanz der Beobachtungen ziehen.

Um die in diesem Buch beschriebenen Studien zu verstehen, reicht es aus, ein klares Verständnis des Konzepts der statistischen Signifikanz zu haben und nicht unbedingt zu wissen, wie die oben genannten Statistiken berechnet werden. Es wäre jedoch sinnvoll, eine Annahme zu diskutieren, die allen diesen Verfahren zugrunde liegt. Dabei wird davon ausgegangen, dass alle beobachteten Variablen annähernd normalverteilt sind. Darüber hinaus stößt man bei der Lektüre von Berichten zur betriebspsychologischen Forschung häufig auf drei weitere Konzepte, die eine wichtige Rolle spielen – erstens Korrelation und korrelative Kommunikation, zweitens determinante/prädiktive Variable und „ANOVA“ (Varianzanalyse), in – Drittens eine Gruppe statistischer Methoden unter dem allgemeinen Namen „Metaanalyse“.