Bestimmung der statistischen Signifikanz. Das Konzept der statistischen Zuverlässigkeit. Berechnung der statistischen Signifikanz

Die Hauptmerkmale jeder Beziehung zwischen Variablen.

Wir können die beiden einfachsten Eigenschaften der Beziehung zwischen Variablen feststellen: (a) die Größe der Beziehung und (b) die Zuverlässigkeit der Beziehung.

- Größe . Das Ausmaß der Abhängigkeit ist leichter zu verstehen und zu messen als die Zuverlässigkeit. Wenn beispielsweise ein Mann in der Stichprobe einen höheren Wert für die Anzahl der weißen Blutkörperchen (WCC) aufwies als der einer Frau, dann kann man sagen, dass die Beziehung zwischen den beiden Variablen (Geschlecht und WCC) sehr hoch ist. Mit anderen Worten: Sie könnten die Werte einer Variablen aus den Werten einer anderen vorhersagen.

- Zuverlässigkeit ("Wahrheit"). Die Verlässlichkeit der gegenseitigen Abhängigkeit ist ein weniger intuitives Konzept als das Ausmaß der Abhängigkeit, aber sie ist äußerst wichtig. Die Zuverlässigkeit der Beziehung steht in direktem Zusammenhang mit der Repräsentativität einer bestimmten Stichprobe, auf deren Grundlage Schlussfolgerungen gezogen werden. Mit anderen Worten bezieht sich die Zuverlässigkeit darauf, wie wahrscheinlich es ist, dass ein Zusammenhang mithilfe von Daten aus einer anderen Stichprobe aus derselben Grundgesamtheit wiederentdeckt (mit anderen Worten bestätigt) wird.

Es sollte daran erinnert werden, dass das ultimative Ziel fast nie darin besteht, diese bestimmte Stichprobe von Werten zu untersuchen; Eine Stichprobe ist nur insoweit von Interesse, als sie Informationen über die gesamte Bevölkerung liefert. Wenn die Studie bestimmte spezifische Kriterien erfüllt, kann die Zuverlässigkeit der gefundenen Beziehungen zwischen Stichprobenvariablen quantifiziert und mithilfe eines statistischen Standardmaßes dargestellt werden.

Abhängigkeitsgröße und Zuverlässigkeit stellen zwei unterschiedliche Merkmale von Abhängigkeiten zwischen Variablen dar. Man kann jedoch nicht sagen, dass sie völlig unabhängig sind. Je größer die Beziehung (Verbindung) zwischen Variablen in einer Stichprobe normaler Größe ist, desto zuverlässiger ist sie (siehe nächster Abschnitt).

Die statistische Signifikanz eines Ergebnisses (p-Level) ist ein geschätztes Maß für das Vertrauen in seine „Wahrheit“ (im Sinne von „Repräsentativität der Stichprobe“). Technisch gesehen ist der p-Level ein Maß, das mit der Zuverlässigkeit des Ergebnisses in abnehmender Größenordnung variiert. Ein höherer p-Wert entspricht einem geringeren Grad an Vertrauen in die Beziehung zwischen den in der Stichprobe gefundenen Variablen. Das p-Level stellt nämlich die Fehlerwahrscheinlichkeit dar, die mit der Verteilung des beobachteten Ergebnisses auf die gesamte Population verbunden ist.

Zum Beispiel, p-Level = 0,05(d. h. 1/20) gibt an, dass eine Wahrscheinlichkeit von 5 % besteht, dass die Beziehung zwischen den in der Stichprobe gefundenen Variablen nur ein zufälliges Merkmal der Stichprobe ist. In vielen Studien wird ein p-Wert von 0,05 als „akzeptabler Spielraum“ für die Fehlerquote angesehen.

Es führt kein Weg daran vorbei, willkürlich zu entscheiden, welches Signifikanzniveau wirklich als „signifikant“ angesehen werden soll. Die Wahl eines bestimmten Signifikanzniveaus, ab dem Ergebnisse als falsch verworfen werden, ist recht willkürlich.



In der Praxis hängt die endgültige Entscheidung normalerweise davon ab, ob das Ergebnis a priori (d. h. vor der Durchführung des Experiments) vorhergesagt wurde oder a posteriori als Ergebnis zahlreicher Analysen und Vergleiche mit einer Vielzahl von Daten sowie anhand der Ergebnisse entdeckt wurde Tradition des Studienfachs.

Im Allgemeinen ist in vielen Bereichen ein Ergebnis von p 0,05 ein akzeptabler Grenzwert für die statistische Signifikanz. Beachten Sie jedoch, dass dieser Wert immer noch eine relativ große Fehlerquote (5 %) aufweist.

Ergebnisse, die auf dem Niveau von p 0,01 signifikant sind, werden im Allgemeinen als statistisch signifikant angesehen, während Ergebnisse auf dem Niveau von p 0,005 oder p 0,00 im Allgemeinen als statistisch signifikant angesehen werden. 001 als sehr bedeutsam. Es sollte jedoch klar sein, dass diese Klassifizierung der Signifikanzniveaus recht willkürlich ist und lediglich eine informelle Vereinbarung auf der Grundlage praktischer Erfahrungen darstellt in einem bestimmten Studienbereich.

Es ist klar, dass je mehr Analysen auf der Gesamtheit der gesammelten Daten durchgeführt werden, desto mehr signifikante (auf der ausgewählten Ebene) Ergebnisse werden rein zufällig entdeckt.

Einige statistische Methoden, die viele Vergleiche umfassen und daher ein erhebliches Risiko haben, dass sich diese Art von Fehler wiederholt, nehmen eine spezielle Anpassung oder Korrektur für die Gesamtzahl der Vergleiche vor. Viele statistische Methoden (insbesondere einfache explorative Datenanalysemethoden) bieten jedoch keine Möglichkeit, dieses Problem zu lösen.

Wenn die Beziehung zwischen Variablen „objektiv“ schwach ist, gibt es keine andere Möglichkeit, eine solche Beziehung zu testen, als eine große Stichprobe zu untersuchen. Selbst wenn die Stichprobe vollkommen repräsentativ ist, ist der Effekt statistisch nicht signifikant, wenn die Stichprobe klein ist. Wenn ein Zusammenhang „objektiv“ sehr stark ist, kann er auch in einer sehr kleinen Stichprobe mit hoher Signifikanz nachgewiesen werden.

Je schwächer die Beziehung zwischen Variablen ist, desto größer ist die Stichprobengröße, die für eine sinnvolle Erkennung erforderlich ist.

Viele verschiedene Maße der Beziehung zwischen Variablen. Die Wahl eines bestimmten Maßes in einer bestimmten Studie hängt von der Anzahl der Variablen, den verwendeten Messskalen, der Art der Beziehungen usw. ab.

Die meisten dieser Messungen folgen jedoch einem allgemeinen Prinzip: Sie versuchen, einen beobachteten Zusammenhang abzuschätzen, indem sie ihn mit dem „maximal denkbaren Zusammenhang“ zwischen den betreffenden Variablen vergleichen. Technisch gesehen besteht der übliche Weg, solche Schätzungen vorzunehmen, darin, zu untersuchen, wie die Werte der Variablen variieren, und dann zu berechnen, wie viel der vorhandenen Gesamtvariation durch das Vorhandensein einer „gemeinsamen“ („gemeinsamen“) Variation erklärt werden kann zwei (oder mehr) Variablen.

Die Signifikanz hängt hauptsächlich von der Stichprobengröße ab. Wie bereits erläutert, sind in sehr großen Stichproben auch sehr schwache Beziehungen zwischen Variablen signifikant, während in kleinen Stichproben selbst sehr starke Beziehungen nicht zuverlässig sind.

Um den Grad der statistischen Signifikanz zu bestimmen, ist daher eine Funktion erforderlich, die die Beziehung zwischen der „Größe“ und der „Signifikanz“ der Beziehung zwischen Variablen für jede Stichprobengröße darstellt.

Eine solche Funktion würde genau angeben, „wie wahrscheinlich es ist, in einer Stichprobe einer bestimmten Größe eine Abhängigkeit von einem bestimmten Wert (oder mehr) zu erhalten, vorausgesetzt, dass in der Grundgesamtheit keine solche Abhängigkeit besteht.“ Mit anderen Worten: Diese Funktion würde ein Signifikanzniveau liefern
(p-Level) und damit die Wahrscheinlichkeit, die Annahme des Fehlens dieser Abhängigkeit in der Bevölkerung fälschlicherweise abzulehnen.

Diese „alternative“ Hypothese (dass es in der Bevölkerung keinen Zusammenhang gibt) wird üblicherweise als „alternative“ Hypothese bezeichnet Nullhypothese.

Ideal wäre es, wenn die Funktion, die die Fehlerwahrscheinlichkeit berechnet, linear wäre und nur für unterschiedliche Stichprobengrößen unterschiedliche Steigungen hätte. Leider ist diese Funktion wesentlich komplexer und nicht immer exakt gleich. In den meisten Fällen ist seine Form jedoch bekannt und kann zur Bestimmung der Signifikanzniveaus in Studien an Stichproben einer bestimmten Größe verwendet werden. Die meisten dieser Funktionen sind einer Klasse von Verteilungen namens zugeordnet normal .

Das Signifikanzniveau in der Statistik ist ein wichtiger Indikator, der den Grad des Vertrauens in die Genauigkeit und Wahrheit der erhaltenen (vorhergesagten) Daten widerspiegelt. Das Konzept wird in verschiedenen Bereichen häufig verwendet: von der Durchführung soziologischer Forschung bis hin zur statistischen Prüfung wissenschaftlicher Hypothesen.

Definition

Das Niveau der statistischen Signifikanz (oder des statistisch signifikanten Ergebnisses) zeigt die Wahrscheinlichkeit des zufälligen Auftretens der untersuchten Indikatoren. Die allgemeine statistische Signifikanz eines Phänomens wird durch den p-Wert-Koeffizienten (p-Level) ausgedrückt. Bei jedem Experiment oder jeder Beobachtung besteht die Möglichkeit, dass die erhaltenen Daten auf Stichprobenfehler zurückzuführen sind. Dies gilt insbesondere für die Soziologie.

Das heißt, ein statistisch signifikanter Wert ist ein Wert, dessen Wahrscheinlichkeit des zufälligen Auftretens äußerst gering ist oder ins Extreme tendiert. Das Extrem in diesem Zusammenhang ist das Ausmaß, in dem Statistiken von der Nullhypothese (einer Hypothese, die auf Konsistenz mit den erhaltenen Stichprobendaten getestet wird) abweichen. In der wissenschaftlichen Praxis wird das Signifikanzniveau vor der Datenerhebung festgelegt und sein Koeffizient beträgt in der Regel 0,05 (5 %). Bei Systemen, bei denen genaue Werte äußerst wichtig sind, kann dieser Wert 0,01 (1 %) oder weniger betragen.

Hintergrund

Das Konzept des Signifikanzniveaus wurde 1925 vom britischen Statistiker und Genetiker Ronald Fisher eingeführt, als er eine Technik zum Testen statistischer Hypothesen entwickelte. Bei der Analyse eines Prozesses besteht eine gewisse Wahrscheinlichkeit für bestimmte Phänomene. Schwierigkeiten treten auf, wenn mit kleinen (oder nicht offensichtlichen) Prozentsätzen von Wahrscheinlichkeiten gearbeitet wird, die unter das Konzept des „Messfehlers“ fallen.

Bei der Arbeit mit statistischen Daten, die nicht spezifisch genug sind, um sie zu testen, stehen Wissenschaftler vor dem Problem der Nullhypothese, die das Arbeiten mit kleinen Mengen „verhindert“. Fisher schlug für solche Systeme die Bestimmung der Wahrscheinlichkeit von Ereignissen bei 5 % (0,05) als bequemen Stichprobenschnitt vor, der es ermöglichte, die Nullhypothese in Berechnungen abzulehnen.

Einführung fester Quoten

Im Jahr 1933 empfahlen die Wissenschaftler Jerzy Neumann und Egon Pearson in ihren Arbeiten, vorab (vor der Datenerhebung) ein bestimmtes Signifikanzniveau festzulegen. Beispiele für die Anwendung dieser Regeln sind bei Wahlen deutlich sichtbar. Nehmen wir an, es gibt zwei Kandidaten, von denen einer sehr beliebt und der andere wenig bekannt ist. Es ist offensichtlich, dass der erste Kandidat die Wahl gewinnen wird, während die Chancen des zweiten Kandidaten gegen Null gehen. Sie streben danach – sind aber nicht gleich: Es besteht immer die Möglichkeit höherer Gewalt, sensationeller Informationen, unerwarteter Entscheidungen, die die prognostizierten Wahlergebnisse verändern können.

Neyman und Pearson waren sich einig, dass Fishers Signifikanzniveau von 0,05 (gekennzeichnet durch α) am besten geeignet sei. Allerdings lehnte Fischer selbst 1956 die Festlegung dieses Wertes ab. Er glaubte, dass der α-Wert entsprechend den spezifischen Umständen festgelegt werden sollte. In der Teilchenphysik beträgt er beispielsweise 0,01.

p-Level-Wert

Der Begriff p-Wert wurde erstmals 1960 von Brownlee verwendet. Der P-Wert (p-Wert) ist ein Indikator, der umgekehrt mit der Wahrheit der Ergebnisse zusammenhängt. Der höchste p-Wert-Koeffizient entspricht dem niedrigsten Konfidenzniveau in der Stichprobenbeziehung zwischen Variablen.

Dieser Wert spiegelt die Wahrscheinlichkeit von Fehlern wider, die mit der Interpretation der Ergebnisse verbunden sind. Nehmen wir an, p-level = 0,05 (1/20). Es zeigt eine Wahrscheinlichkeit von fünf Prozent, dass die Beziehung zwischen den in der Stichprobe gefundenen Variablen nur ein zufälliges Merkmal der Stichprobe ist. Das heißt, wenn diese Abhängigkeit fehlt, kann man bei wiederholten ähnlichen Experimenten im Durchschnitt in jeder zwanzigsten Studie die gleiche oder eine größere Abhängigkeit zwischen den Variablen erwarten. Der p-Level wird oft als „Marge“ für die Fehlerrate angesehen.

Übrigens spiegelt der p-Wert möglicherweise nicht die tatsächliche Beziehung zwischen Variablen wider, sondern zeigt nur einen bestimmten Durchschnittswert innerhalb der Annahmen an. Insbesondere wird die endgültige Analyse der Daten auch von den gewählten Werten dieses Koeffizienten abhängen. Bei p-level = 0,05 gibt es einige Ergebnisse, bei einem Koeffizienten von 0,01 gibt es unterschiedliche Ergebnisse.

Testen statistischer Hypothesen

Beim Testen von Hypothesen ist der Grad der statistischen Signifikanz besonders wichtig. Bei der Berechnung eines zweiseitigen Tests wird beispielsweise der Ablehnungsbereich an beiden Enden der Stichprobenverteilung (relativ zur Nullkoordinate) gleichmäßig aufgeteilt und die Wahrheit der resultierenden Daten berechnet.

Angenommen, bei der Überwachung eines bestimmten Prozesses (Phänomens) stellt sich heraus, dass neue statistische Informationen auf kleine Änderungen im Vergleich zu vorherigen Werten hinweisen. Gleichzeitig sind die Abweichungen in den Ergebnissen gering, nicht offensichtlich, aber wichtig für die Studie. Der Fachmann steht vor einem Dilemma: Treten tatsächlich Veränderungen auf oder handelt es sich um Stichprobenfehler (Messungenauigkeit)?

In diesem Fall verwenden sie die Nullhypothese oder lehnen sie ab (führen alles auf einen Fehler zurück oder erkennen die Änderung im System als vollendete Tatsache an). Der Problemlösungsprozess basiert auf dem Verhältnis von statistischer Gesamtsignifikanz (p-Wert) und Signifikanzniveau (α). Wenn p-Level< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Verwendete Werte

Der Grad der Signifikanz hängt vom analysierten Material ab. In der Praxis werden folgende Festwerte verwendet:

  • α = 0,1 (oder 10 %);
  • α = 0,05 (oder 5 %);
  • α = 0,01 (oder 1 %);
  • α = 0,001 (oder 0,1 %).

Je genauer die Berechnungen erforderlich sind, desto niedriger wird der α-Koeffizient verwendet. Natürlich erfordern statistische Prognosen in der Physik, Chemie, Pharmazie und Genetik eine größere Genauigkeit als in der Politikwissenschaft und Soziologie.

Signifikanzschwellen in bestimmten Bereichen

In hochpräzisen Bereichen wie der Teilchenphysik und der Fertigung wird die statistische Signifikanz oft als Verhältnis der Standardabweichung (bezeichnet durch den Sigma-Koeffizienten – σ) relativ zu einer normalen Wahrscheinlichkeitsverteilung (Gaußverteilung) ausgedrückt. σ ist ein statistischer Indikator, der die Streuung der Werte einer bestimmten Größe im Verhältnis zu mathematischen Erwartungen bestimmt. Wird verwendet, um die Wahrscheinlichkeit von Ereignissen darzustellen.

Je nach Wissensgebiet variiert der Koeffizient σ stark. Wenn beispielsweise die Existenz des Higgs-Bosons vorhergesagt wird, ist der Parameter σ gleich fünf (σ = 5), was einem p-Wert = 1/3,5 Millionen entspricht. In Genomstudien kann das Signifikanzniveau 5 × 10 betragen – 8, was für diese Gebiete nicht ungewöhnlich ist.

Effizienz

Es ist zu berücksichtigen, dass es sich bei den Koeffizienten α und p-Wert nicht um exakte Merkmale handelt. Unabhängig vom statistischen Signifikanzniveau des untersuchten Phänomens ist dies keine unbedingte Grundlage für die Annahme der Hypothese. Je kleiner beispielsweise der Wert von α ist, desto größer ist die Wahrscheinlichkeit, dass die aufgestellte Hypothese signifikant ist. Es besteht jedoch das Risiko eines Fehlers, der die statistische Aussagekraft (Signifikanz) der Studie verringert.

Forscher, die sich ausschließlich auf statistisch signifikante Ergebnisse konzentrieren, können zu falschen Schlussfolgerungen gelangen. Gleichzeitig ist es schwierig, ihre Arbeit noch einmal zu überprüfen, da sie Annahmen anwenden (bei denen es sich in Wirklichkeit um die α- und p-Werte handelt). Daher empfiehlt es sich immer, neben der Berechnung der statistischen Signifikanz auch einen weiteren Indikator zu bestimmen – die Größe des statistischen Effekts. Die Effektgröße ist ein quantitatives Maß für die Stärke eines Effekts.

Die statistische Signifikanz eines Ergebnisses (p-Wert) ist ein geschätztes Maß für das Vertrauen in seine „Wahrheit“ (im Sinne von „Repräsentativität der Stichprobe“). Technisch gesehen ist ein p-Wert ein Maß, das in abnehmender Größenordnung mit der Zuverlässigkeit des Ergebnisses variiert. Ein höherer p-Wert entspricht einem geringeren Maß an Vertrauen in die Beziehung zwischen den in der Stichprobe gefundenen Variablen. Insbesondere stellt der p-Wert die Fehlerwahrscheinlichkeit dar, die mit der Verallgemeinerung des beobachteten Ergebnisses auf die gesamte Bevölkerung verbunden ist. Beispielsweise gibt ein p-Wert von 0,05 (d. h. 1/20) an, dass eine Wahrscheinlichkeit von 5 % besteht, dass die Beziehung zwischen den in der Stichprobe gefundenen Variablen nur ein zufälliges Merkmal der Stichprobe ist. Mit anderen Worten: Wenn eine bestimmte Beziehung in einer Population nicht existiert und Sie ähnliche Experimente viele Male durchführen, dann würden Sie in etwa einer von zwanzig Wiederholungen des Experiments die gleiche oder eine stärkere Beziehung zwischen den Variablen erwarten.

In vielen Studien wird ein p-Wert von 0,05 als „akzeptabler Spielraum“ für die Fehlerquote angesehen.

Es führt kein Weg daran vorbei, willkürlich zu entscheiden, welcher Signifikanzgrad wirklich als „signifikant“ angesehen werden soll. Die Wahl eines bestimmten Signifikanzniveaus, ab dem Ergebnisse als falsch verworfen werden, ist recht willkürlich. In der Praxis hängt die endgültige Entscheidung normalerweise davon ab, ob das Ergebnis a priori (d. h. vor der Durchführung des Experiments) vorhergesagt wurde oder a posteriori als Ergebnis zahlreicher Analysen und Vergleiche mit einer Vielzahl von Daten sowie anhand der Ergebnisse entdeckt wurde Tradition des Studienfachs. Typischerweise ist in vielen Bereichen ein Ergebnis von p 0,05 eine akzeptable Grenze für die statistische Signifikanz, es sollte jedoch beachtet werden, dass dieser Wert immer noch eine relativ hohe Fehlerquote (5 %) beinhaltet. Ergebnisse, die auf dem Niveau von p 0,01 signifikant sind, werden im Allgemeinen als statistisch signifikant angesehen, und Ergebnisse mit einem Niveau von p 0,005 oder p 0,001 werden im Allgemeinen als hochsignifikant angesehen. Es sollte jedoch klar sein, dass diese Klassifizierung der Signifikanzniveaus recht willkürlich ist und lediglich eine informelle Vereinbarung darstellt, die auf der Grundlage praktischer Erfahrungen in einem bestimmten Forschungsbereich getroffen wird.

Wie bereits erwähnt, stellen die Größe des Zusammenhangs und die Zuverlässigkeit zwei unterschiedliche Merkmale der Beziehungen zwischen Variablen dar. Man kann jedoch nicht sagen, dass sie völlig unabhängig sind. Im Allgemeinen ist die Beziehung (Beziehung) zwischen Variablen in einer Stichprobe normaler Größe umso zuverlässiger, je größer sie ist.

Wenn wir davon ausgehen, dass zwischen den entsprechenden Variablen in der Grundgesamtheit kein Zusammenhang besteht, ist am wahrscheinlichsten zu erwarten, dass in der untersuchten Stichprobe auch kein Zusammenhang zwischen diesen Variablen besteht. Je stärker also eine Beziehung in einer Stichprobe gefunden wird, desto unwahrscheinlicher ist es, dass die Beziehung in der Grundgesamtheit, aus der sie gezogen wird, nicht besteht.


Die Stichprobengröße beeinflusst die Signifikanz der Beziehung. Wenn es wenige Beobachtungen gibt, dann gibt es entsprechend wenige mögliche Wertekombinationen für diese Variablen und somit ist die Wahrscheinlichkeit, zufällig eine Wertekombination zu entdecken, die einen starken Zusammenhang zeigt, relativ hoch.

Wie das Niveau der statistischen Signifikanz berechnet wird. Nehmen wir an, Sie haben bereits ein Maß für die Abhängigkeit zwischen zwei Variablen berechnet (wie oben erläutert). Die nächste Frage, die sich Ihnen stellt, lautet: „Wie bedeutsam ist diese Beziehung?“ Ist beispielsweise eine erklärte Varianz von 40 % zwischen zwei Variablen ausreichend, um die Beziehung als signifikant zu betrachten? Die Antwort: „je nach den Umständen.“ Die Signifikanz hängt nämlich hauptsächlich von der Stichprobengröße ab. Wie bereits erläutert, sind in sehr großen Stichproben auch sehr schwache Beziehungen zwischen Variablen signifikant, während in kleinen Stichproben selbst sehr starke Beziehungen nicht zuverlässig sind. Um den Grad der statistischen Signifikanz zu bestimmen, benötigen Sie daher eine Funktion, die die Beziehung zwischen der „Größe“ und der „Signifikanz“ der Beziehung zwischen Variablen für jeden Stichprobenumfang darstellt. Diese Funktion würde Ihnen genau sagen, „wie wahrscheinlich es ist, in einer Stichprobe einer bestimmten Größe eine Beziehung mit einem bestimmten Wert (oder mehr) zu erhalten, vorausgesetzt, dass es in der Grundgesamtheit keine solche Beziehung gibt“. Mit anderen Worten: Diese Funktion würde das Signifikanzniveau (p-Wert) und damit die Wahrscheinlichkeit angeben, die Annahme, dass eine bestimmte Beziehung in der Grundgesamtheit nicht existiert, fälschlicherweise abzulehnen. Diese „alternative“ Hypothese (dass es in der Grundgesamtheit keinen Zusammenhang gibt) wird üblicherweise Nullhypothese genannt. Ideal wäre es, wenn die Funktion, die die Fehlerwahrscheinlichkeit berechnet, linear wäre und nur für unterschiedliche Stichprobengrößen unterschiedliche Steigungen hätte. Leider ist diese Funktion wesentlich komplexer und nicht immer exakt gleich. In den meisten Fällen ist seine Form jedoch bekannt und kann zur Bestimmung der Signifikanzniveaus in Studien an Stichproben einer bestimmten Größe verwendet werden. Die meisten dieser Funktionen sind einer sehr wichtigen Klasse von Normalverteilungen zugeordnet.

Was macht Ihrer Meinung nach Ihre „andere Hälfte“ besonders und bedeutungsvoll? Hängt es mit ihrer/seiner Persönlichkeit zusammen oder mit Ihren Gefühlen, die Sie für diese Person haben? Oder vielleicht mit der einfachen Tatsache, dass die Hypothese über die Zufälligkeit Ihrer Sympathie, wie Studien zeigen, eine Wahrscheinlichkeit von weniger als 5 % hat? Wenn wir die letzte Aussage für zuverlässig halten, gäbe es erfolgreiche Dating-Sites grundsätzlich nicht:

Wenn Sie Split-Tests oder andere Analysen Ihrer Website durchführen, kann ein Missverständnis der „statistischen Signifikanz“ zu einer Fehlinterpretation der Ergebnisse und damit zu falschen Maßnahmen im Conversion-Optimierungsprozess führen. Dies gilt auch für die Tausenden anderer statistischer Tests, die täglich in jeder bestehenden Branche durchgeführt werden.

Um zu verstehen, was „statistische Signifikanz“ ist, müssen Sie in die Geschichte des Begriffs eintauchen, seine wahre Bedeutung erfahren und verstehen, wie dieses „neue“ alte Verständnis Ihnen dabei hilft, die Ergebnisse Ihrer Forschung richtig zu interpretieren.

Eine kleine Geschichte

Obwohl die Menschheit seit vielen Jahrhunderten Statistiken zur Lösung verschiedener Probleme nutzt, nahm das moderne Verständnis von statistischer Signifikanz, Hypothesentests, Randomisierung und sogar Design of Experiments (DOE) erst zu Beginn des 20. Jahrhunderts Gestalt an und ist untrennbar damit verbunden der Name von Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962):

Ronald Fisher war ein Evolutionsbiologe und Statistiker, der sich besonders für die Erforschung der Evolution und der natürlichen Selektion im Tier- und Pflanzenreich interessierte. Während seiner glänzenden Karriere entwickelte und verbreitete er viele nützliche statistische Tools, die wir noch heute verwenden.

Fisher nutzte die von ihm entwickelten Techniken, um Prozesse in der Biologie wie Dominanz, Mutationen und genetische Abweichungen zu erklären. Wir können heute dieselben Tools verwenden, um den Inhalt von Webressourcen zu optimieren und zu verbessern. Dass mit diesen Analysewerkzeugen auch Objekte bearbeitet werden können, die zum Zeitpunkt ihrer Entstehung noch nicht einmal existierten, erscheint überraschend. Ebenso überraschend ist es, dass Menschen früher komplexe Berechnungen ohne Taschenrechner oder Computer durchführten.

Um zu beschreiben, dass die Ergebnisse eines statistischen Experiments mit hoher Wahrscheinlichkeit wahr sind, verwendete Fisher das Wort „Signifikanz“.

Eine von Fishers interessantesten Entwicklungen kann auch als „Sexy-Sohn“-Hypothese bezeichnet werden. Nach dieser Theorie bevorzugen Frauen sexuell promiskuitive Männer (promiskuitiv), weil dies es den von diesen Männern geborenen Söhnen ermöglicht, die gleiche Veranlagung zu haben und mehr Nachkommen zu zeugen (beachten Sie, dass dies nur eine Theorie ist).

Aber niemand, selbst brillante Wissenschaftler, ist vor Fehlern gefeit. Fishers Mängel plagen Fachleuten bis heute. Aber erinnern Sie sich an die Worte von Albert Einstein: „Wer nie einen Fehler gemacht hat, hat nie etwas Neues geschaffen.“

Bevor Sie zum nächsten Punkt übergehen, denken Sie daran: Statistische Signifikanz liegt dann vor, wenn der Unterschied in den Testergebnissen so groß ist, dass der Unterschied nicht durch Zufallsfaktoren erklärt werden kann.

Was ist Ihre Hypothese?

Um zu verstehen, was „statistische Signifikanz“ bedeutet, müssen Sie zunächst verstehen, was „Hypothesentest“ ist, da die beiden Begriffe eng miteinander verknüpft sind.
Eine Hypothese ist nur eine Theorie. Sobald Sie eine Theorie entwickelt haben, müssen Sie einen Prozess etablieren, um genügend Beweise zu sammeln und diese Beweise tatsächlich zu sammeln. Es gibt zwei Arten von Hypothesen.

Äpfel oder Orangen – was ist besser?

Nullhypothese

Hier stoßen viele Menschen in der Regel auf Schwierigkeiten. Beachten Sie, dass eine Nullhypothese nicht bewiesen werden muss, so wie Sie beweisen, dass eine bestimmte Änderung auf einer Website zu einer Steigerung der Conversions führt, aber umgekehrt. Die Nullhypothese ist eine Theorie, die besagt, dass nichts passieren wird, wenn Sie Änderungen an der Website vornehmen. Und das Ziel des Forschers ist es, diese Theorie zu widerlegen, nicht sie zu beweisen.

Betrachtet man die Erfahrungen bei der Aufklärung von Straftaten, bei denen Ermittler auch Hypothesen darüber aufstellen, wer der Täter ist, so nimmt die Nullhypothese die Form der sogenannten Unschuldsvermutung an, das Konzept, nach dem der Angeklagte bis zum Beweis seiner Schuld als unschuldig gilt vor Gericht.

Wenn die Nullhypothese besagt, dass zwei Objekte in ihren Eigenschaften gleich sind, und Sie versuchen zu beweisen, dass eines besser ist (zum Beispiel ist A besser als B), müssen Sie die Nullhypothese zugunsten der Alternative ablehnen. Sie vergleichen beispielsweise das eine oder andere Tool zur Conversion-Optimierung. In der Nullhypothese haben beide die gleiche Wirkung (oder keine Wirkung) auf das Ziel. Alternativ ist die Wirkung einer von ihnen besser.

Ihre Alternativhypothese kann einen numerischen Wert enthalten, z. B. B – A > 20 %. In diesem Fall können die Nullhypothese und die Alternative die folgende Form annehmen:

Eine andere Bezeichnung für eine Alternativhypothese ist Forschungshypothese, da der Forscher immer daran interessiert ist, diese spezielle Hypothese zu beweisen.

Statistische Signifikanz und p-Wert

Kehren wir noch einmal zu Ronald Fisher und seinem Konzept der statistischen Signifikanz zurück.

Nachdem Sie nun eine Nullhypothese und eine Alternative haben, wie können Sie das eine beweisen und das andere widerlegen?

Da es bei Statistiken naturgemäß um die Untersuchung einer bestimmten Population (Stichprobe) geht, kann man sich der erzielten Ergebnisse nie hundertprozentig sicher sein. Ein gutes Beispiel: Wahlergebnisse weichen oft von den Ergebnissen vorläufiger Umfragen und sogar von Exit-Pools ab.

Dr. Fisher wollte eine Trennlinie schaffen, die Ihnen zeigt, ob Ihr Experiment erfolgreich war oder nicht. So entstand der Zuverlässigkeitsindex. Glaubwürdigkeit ist die Ebene, auf der wir sagen, was wir für „bedeutend“ halten und was nicht. Wenn „p“, der Signifikanzindex, 0,05 oder weniger beträgt, sind die Ergebnisse zuverlässig.

Keine Sorge, es ist tatsächlich nicht so verwirrend, wie es scheint.

Gaußsche Wahrscheinlichkeitsverteilung. An den Rändern befinden sich die unwahrscheinlicheren Werte der Variablen, in der Mitte die wahrscheinlichsten. Der P-Score (grün schattierter Bereich) ist die Wahrscheinlichkeit, dass das beobachtete Ergebnis zufällig eintritt.

Die normale Wahrscheinlichkeitsverteilung (Gaußverteilung) ist eine Darstellung aller möglichen Werte einer bestimmten Variablen in einem Diagramm (in der Abbildung oben) und ihrer Häufigkeiten. Wenn Sie Ihre Recherche richtig durchführen und dann alle Ihre Antworten in einem Diagramm darstellen, erhalten Sie genau diese Verteilung. Gemäß der Normalverteilung erhalten Sie einen großen Prozentsatz ähnlicher Antworten und die restlichen Optionen befinden sich an den Rändern des Diagramms (den sogenannten „Schwänzen“). Diese Werteverteilung kommt in der Natur häufig vor, weshalb sie als „normal“ bezeichnet wird.

Mithilfe einer Gleichung, die auf Ihrer Probe und Ihren Testergebnissen basiert, können Sie eine sogenannte „Teststatistik“ berechnen, die angibt, wie stark Ihre Ergebnisse abweichen. Es wird Ihnen auch sagen, wie nah Sie der Nullhypothese sind.

Um Ihnen den Überblick zu erleichtern, verwenden Sie Online-Rechner zur Berechnung der statistischen Signifikanz:

Ein Beispiel für solche Rechner

Der Buchstabe „p“ stellt die Wahrscheinlichkeit dar, dass die Nullhypothese wahr ist. Wenn die Zahl klein ist, weist dies auf einen Unterschied zwischen den Testgruppen hin, wohingegen die Nullhypothese lauten würde, dass sie gleich sind. Grafisch sieht es so aus, als ob Ihre Teststatistik näher an einem der Enden Ihrer glockenförmigen Verteilung liegt.

Dr. Fisher entschied, die Signifikanzschwelle auf p ≤ 0,05 festzulegen. Allerdings ist diese Aussage umstritten, da sie zu zwei Schwierigkeiten führt:

1. Erstens bedeutet die Tatsache, dass Sie die Nullhypothese als falsch bewiesen haben, nicht, dass Sie die Alternativhypothese bewiesen haben. All diese Bedeutung bedeutet nur, dass man weder A noch B beweisen kann.

2. Zweitens: Wenn der p-Score 0,049 beträgt, bedeutet dies, dass die Wahrscheinlichkeit der Nullhypothese 4,9 % beträgt. Dies kann bedeuten, dass Ihre Testergebnisse gleichzeitig wahr und falsch sein können.

Sie können den p-Score verwenden oder auch nicht, aber dann müssen Sie die Wahrscheinlichkeit der Nullhypothese von Fall zu Fall berechnen und entscheiden, ob sie groß genug ist, um Sie daran zu hindern, die von Ihnen geplanten und getesteten Änderungen vorzunehmen .

Das häufigste Szenario für die Durchführung eines statistischen Tests besteht heute darin, vor der Durchführung des Tests selbst einen Signifikanzschwellenwert von p ≤ 0,05 festzulegen. Achten Sie bei der Überprüfung Ihrer Ergebnisse unbedingt auf den p-Wert.

Fehler 1 und 2

Es ist so viel Zeit vergangen, dass Fehler, die bei der Verwendung der statistischen Signifikanzmetrik auftreten können, sogar eigene Namen erhalten haben.

Fehler vom Typ 1

Wie oben erwähnt bedeutet ein p-Wert von 0,05, dass die Wahrscheinlichkeit, dass die Nullhypothese wahr ist, bei 5 % liegt. Wenn Sie dies nicht tun, machen Sie Fehler Nummer 1. Die Ergebnisse besagen, dass Ihre neue Website Ihre Konversionsraten erhöht hat, aber die Wahrscheinlichkeit, dass dies nicht der Fall ist, liegt bei 5 %.

Fehler vom Typ 2

Dieser Fehler ist das Gegenteil von Fehler 1: Sie akzeptieren die Nullhypothese, wenn sie falsch ist. Testergebnisse zeigen beispielsweise, dass die an der Website vorgenommenen Änderungen keine Verbesserungen brachten, obwohl es Änderungen gab. Dadurch verpassen Sie die Chance, Ihre Leistung zu verbessern.

Dieser Fehler tritt häufig bei Tests mit unzureichender Stichprobengröße auf. Denken Sie also daran: Je größer die Stichprobe, desto zuverlässiger das Ergebnis.

Abschluss

Vielleicht ist kein Begriff unter Forschern so beliebt wie die statistische Signifikanz. Wenn sich Testergebnisse als statistisch nicht signifikant erweisen, reichen die Folgen von einem Anstieg der Conversion-Raten bis zum Zusammenbruch eines Unternehmens.

Und da Vermarkter diesen Begriff bei der Optimierung ihrer Ressourcen verwenden, müssen Sie wissen, was er wirklich bedeutet. Die Testbedingungen können variieren, aber Stichprobengröße und Erfolgskriterien sind immer wichtig. Merk dir das.

Betrachten wir ein typisches Beispiel für die Anwendung statistischer Methoden in der Medizin. Die Hersteller des Medikaments gehen davon aus, dass es die Diurese im Verhältnis zur eingenommenen Dosis steigert. Um diese Hypothese zu testen, verabreichten sie fünf Freiwilligen unterschiedliche Dosen des Arzneimittels.

Basierend auf den Beobachtungsergebnissen wird ein Diagramm der Diurese gegenüber der Dosis erstellt (Abb. 1.2A). Abhängigkeit ist mit bloßem Auge erkennbar. Forscher gratulieren einander zur Entdeckung und die Welt zum neuen Diuretikum.

Tatsächlich erlauben uns die Daten nur die verlässliche Aussage, dass bei diesen fünf Freiwilligen eine dosisabhängige Diurese beobachtet wurde. Dass sich diese Abhängigkeit bei allen Menschen manifestiert, die die Droge einnehmen, ist lediglich eine Annahme.
ZY

Mit

Leben Man kann nicht sagen, dass es unbegründet ist – warum sonst Experimente durchführen?

Aber das Medikament wurde verkauft. Immer mehr Menschen nehmen es ein, in der Hoffnung, dadurch ihre Urinausscheidung zu steigern. Was sehen wir also? Wir sehen Abbildung 1.2B, die darauf hinweist, dass kein Zusammenhang zwischen der Dosis des Arzneimittels und der Diurese besteht. Schwarze Kreise kennzeichnen Daten aus der Originalstudie. Die Statistik verfügt über Methoden, mit denen wir die Wahrscheinlichkeit abschätzen können, eine solche „nicht repräsentative“ und in der Tat verwirrende Stichprobe zu erhalten. Es stellt sich heraus, dass bei Fehlen eines Zusammenhangs zwischen Diurese und der Dosis des Arzneimittels die daraus resultierende „Abhängigkeit“ in etwa 5 von 1000 Experimenten beobachtet werden würde. In diesem Fall hatten die Forscher also einfach Pech. Selbst wenn sie die fortschrittlichsten statistischen Methoden verwendet hätten, hätten sie sie dennoch nicht vor Fehlern bewahrt.

Wir haben dieses fiktive, aber keineswegs von der Realität entfernte Beispiel gegeben, um nicht die Nutzlosigkeit hervorzuheben
ness der Statistik. Er spricht über etwas anderes, über die Wahrscheinlichkeit ihrer Schlussfolgerungen. Durch die Anwendung der statistischen Methode erhalten wir nicht die endgültige Wahrheit, sondern nur eine Schätzung der Wahrscheinlichkeit einer bestimmten Annahme. Darüber hinaus basiert jede statistische Methode auf einem eigenen mathematischen Modell und ihre Ergebnisse sind in dem Maße korrekt, in dem dieses Modell der Realität entspricht.

Mehr zum Thema ZUVERLÄSSIGKEIT UND STATISTISCHE SIGNIFIKANZ:

  1. Statistisch signifikante Unterschiede bei den Lebensqualitätsindikatoren
  2. Statistische Bevölkerung. Buchhaltungsmerkmale. Das Konzept der kontinuierlichen und selektiven Forschung. Anforderungen an statistische Daten und die Verwendung von Buchhaltungs- und Berichtsdokumenten
  3. ABSTRAKT. STUDIE ZUR ZUVERLÄSSIGKEIT VON TONOMETER-ANZEIGEN ZUR MESSUNG DES INTRAOKULÄREN DRUCKS DURCH DAS AUGENLIDER 2018, 2018