Bedeutung der Regressionsgleichung und ihrer Koeffizienten. Beurteilung der Bedeutung der Regressionsgleichung als Ganzes und ihrer Parameter. Daten aufsteigend sortiert X4

Nach der Beurteilung der individuellen statistischen Signifikanz jedes Regressionskoeffizienten wird normalerweise die aggregierte Signifikanz der Koeffizienten analysiert, d. h. die ganze Gleichung als Ganzes. Diese Analyse wird auf der Grundlage der Prüfung der Hypothese über die allgemeine Bedeutung der Hypothese über die gleichzeitige Gleichheit aller Regressionskoeffizienten für erklärende Variablen mit Null durchgeführt:

H 0: b 1 = b 2 = ... = b m = 0.

Wenn diese Hypothese nicht abgelehnt wird, wird der Schluss gezogen, dass der Gesamteinfluss aller m erklärenden Variablen X 1, X 2, ..., X m des Modells auf die abhängige Variable Y als statistisch unbedeutend angesehen werden kann und die Gesamtqualität der Regressionsgleichung kann als gering angesehen werden.

Diese Hypothese wird auf der Grundlage einer Varianzanalyse überprüft, die die erklärte und die Restvarianz vergleicht.

H 0: (erklärte Varianz) = (Restvarianz),

H 1: (erklärte Varianz) > (Restvarianz).

F-Statistiken werden erstellt:

Wo – Varianz erklärt durch Regression;

– Restdispersion (Summe der quadratischen Abweichungen geteilt durch die Anzahl der Freiheitsgrade n-m-1). Wenn die OLS-Annahmen erfüllt sind, weist die erstellte F-Statistik eine Fisher-Verteilung mit den Freiheitsgraden n1 = m, n2 = n–m–1 auf. Wenn also auf dem erforderlichen Signifikanzniveau a F beobachtet wird > F a ; M; n - m -1 = F a (wobei F a ; m ; n - m -1 der kritische Punkt der Fisher-Verteilung ist), dann wird H 0 zugunsten von H 1 abgelehnt. Dies bedeutet, dass die durch die Regression erklärte Varianz deutlich größer ist als die Restvarianz, und daher spiegelt die Regressionsgleichung recht qualitativ die Dynamik der Änderung der abhängigen Variablen Y wider. Wenn F beobachtet wird< F a ; m ; n - m -1 = F кр. , то нет основания для отклонения Н 0 . Значит, объясненная дисперсия соизмерима с дисперсией, вызванной случайными факторами. Это дает основание считать, что совокупное влияние объясняющих переменных модели несущественно, а следовательно, общее качество модели невысоко.

In der Praxis wird jedoch anstelle dieser Hypothese häufiger eine eng verwandte Hypothese über die statistische Signifikanz des Bestimmtheitsmaßes R2 getestet:



H 0: R 2 > 0.

Um diese Hypothese zu testen, wird die folgende F-Statistik verwendet:

. (8.20)

Wenn die OLS-Annahmen erfüllt sind und H 0 wahr ist, weist der Wert von F eine Fisher-Verteilung auf, die der Verteilung der F-Statistik (8.19) ähnelt. Tatsächlich dividiert man Zähler und Nenner des Bruchs in (8.19) durch die Gesamtsumme der quadrierten Abweichungen und zu wissen, dass es in die Summe der durch die Regression erklärten quadratischen Abweichungen und die Restsumme der quadratischen Abweichungen zerfällt (dies ist, wie später gezeigt wird, eine Konsequenz des Systems der Normalgleichungen).

,

wir erhalten Formel (8.20):

Aus (8.20) ist ersichtlich, dass die Exponenten F und R 2 gleichzeitig gleich oder ungleich Null sind. Wenn F = 0, dann ist R 2 = 0 und die Regressionslinie Y = ist die beste nach der Methode der kleinsten Quadrate, und daher hängt der Wert von Y nicht linear von X 1, X 2, ..., X m ab . Um die Nullhypothese H 0: F = 0 bei einem gegebenen Signifikanzniveau a zu testen, wird der kritische Wert F cr = F a aus den Tabellen der kritischen Punkte der Fisher-Verteilung ermittelt; M; n - m -1 . Die Nullhypothese wird abgelehnt, wenn F > F cr. Dies entspricht der Tatsache, dass R 2 > 0, d. h. R 2 ist statistisch signifikant.

Die Analyse der F-Statistik lässt den Schluss zu, dass das Bestimmtheitsmaß R2 nicht wesentlich von Null abweichen sollte, um die Hypothese zu akzeptieren, dass alle linearen Regressionskoeffizienten gleichzeitig gleich Null sind. Sein kritischer Wert nimmt mit zunehmender Anzahl der Beobachtungen ab und kann beliebig klein werden.

Wenn beispielsweise eine Regression mit zwei erklärenden Variablen X 1 i, X 2 i für 30 Beobachtungen geschätzt wird, ist R 2 = 0,65. Dann

Anhänger = =25,07.

Unter Verwendung der Tabellen der kritischen Punkte der Fisher-Verteilung finden wir F 0,05; 2; 27 = 3,36; F 0,01; 2; 27 = 5,49. Da sowohl beim 5 %- als auch beim 1 %-Signifikanzniveau F beobachtet = 25,07 > F cr gilt, wird die Nullhypothese in beiden Fällen abgelehnt.

Wenn in der gleichen Situation R 2 = 0,4, dann

F obs = = 9.

Auch hier wird die Annahme einer unbedeutenden Beziehung zurückgewiesen.

Beachten Sie, dass im Fall der paarweisen Regression das Testen der Nullhypothese für die F-Statistik dem Testen der Nullhypothese für die t-Statistik entspricht

Korrelationskoeffizient. In diesem Fall ist die F-Statistik gleich der T-Statistik im Quadrat. Bei der multiplen linearen Regression erhält der R2-Koeffizient eine eigenständige Bedeutung.

8.6. Varianzanalyse zur Zerlegung der Gesamtsumme der quadrierten Abweichungen. Freiheitsgrade für die entsprechenden Summen der quadratischen Abweichungen

Wenden wir die oben beschriebene Theorie für die paarweise lineare Regression an.

Nachdem die lineare Regressionsgleichung gefunden wurde, wird die Bedeutung sowohl der Gleichung als Ganzes als auch ihrer einzelnen Parameter beurteilt.

Die Signifikanz der Regressionsgleichung als Ganzes wird mit dem Fisher-F-Test beurteilt. In diesem Fall wird die Nullhypothese aufgestellt, dass der Regressionskoeffizient gleich Null ist, d.h. b = 0, daher hat der Faktor x keinen Einfluss auf das Ergebnis y.

Der direkten Berechnung des F-Tests geht eine Varianzanalyse voraus. Den zentralen Platz darin nimmt die Zerlegung der Gesamtsumme der quadrierten Abweichungen der Variablen y vom Durchschnittswert in zwei Teile ein – „erklärt“ und „ungeklärt“:

Gleichung (8.21) ist eine Folge des in einem der vorherigen Themen abgeleiteten Systems normaler Gleichungen.

Beweis des Ausdrucks (8.21).

Es bleibt zu beweisen, dass der letzte Term gleich Null ist.

Wenn Sie alle Gleichungen von 1 bis n addieren

y i = a+b×x i +e i , (8.22)

dann erhalten wir åy i = a×å1+b×åx i +åe i . Da åe i =0 und å1 =n, erhalten wir

Dann .

Wenn wir Gleichung (8.23) von Ausdruck (8.22) subtrahieren, erhalten wir

Als Ergebnis erhalten wir

Die letzten Summen sind aufgrund des Systems zweier Normalgleichungen gleich Null.

Die Gesamtsumme der quadratischen Abweichungen einzelner Werte des effektiven Merkmals y vom Durchschnittswert wird durch den Einfluss vieler Gründe verursacht. Teilen wir den gesamten Satz von Gründen bedingt in zwei Gruppen ein: den untersuchten Faktor x und andere Faktoren. Wenn der Faktor keinen Einfluss auf das Ergebnis hat, verläuft die Regressionsgerade parallel zu OX und Achse. Dann ist die gesamte Varianz des resultierenden Merkmals auf den Einfluss anderer Faktoren zurückzuführen und die Gesamtsumme der quadratischen Abweichungen stimmt mit dem Residuum überein. Wenn andere Faktoren das Ergebnis nicht beeinflussen, dann ist y funktional mit x verknüpft und die Restquadratsumme ist Null. In diesem Fall stimmt die Summe der durch die Regression erklärten quadratischen Abweichungen mit der Gesamtsumme der Quadrate überein.

Da nicht alle Punkte des Korrelationsfeldes auf der Regressionsgeraden liegen, kommt es zu deren Streuung immer durch den Einfluss des Faktors x, d.h. Regression von y auf x und durch andere Ursachen verursacht (unerklärliche Variation). Die Eignung einer Regressionsgeraden für die Vorhersage hängt davon ab, wie viel von der Gesamtvariation im Merkmal y auf die erklärte Variation zurückzuführen ist. Wenn die Summe der quadrierten Abweichungen aufgrund der Regression größer ist als die Restsumme der Quadrate, dann ist die Regressionsgleichung offensichtlich statistisch signifikant und der Faktor x hat einen signifikanten Einfluss auf das Merkmal y. Dies ist gleichbedeutend mit der Tatsache, dass sich das Bestimmtheitsmaß der Einheit nähert.

Jede Quadratsumme ist mit der Anzahl der Freiheitsgrade (df – Freiheitsgrade) verbunden, mit der Anzahl der Freiheiten der unabhängigen Variation eines Merkmals. Die Anzahl der Freiheitsgrade hängt mit der Anzahl der Einheiten der Grundgesamtheit n und der daraus ermittelten Anzahl der Konstanten zusammen. Bezogen auf das untersuchte Problem soll die Anzahl der Freiheitsgrade zeigen, wie viele unabhängige Abweichungen von n möglichen erforderlich sind, um eine gegebene Quadratsumme zu bilden. Daher sind für die Gesamtsumme der Quadrate (n-1) unabhängige Abweichungen erforderlich, da in einer Menge von n Einheiten nach der Berechnung des Durchschnitts nur die Anzahl der Abweichungen (n-1) frei variiert. Wir haben zum Beispiel eine Reihe von y-Werten: 1,2,3,4,5. Der Durchschnitt davon beträgt 3, und dann sind n Abweichungen vom Durchschnitt: -2, -1, 0, 1, 2. Da variieren dann nur vier Abweichungen frei, und die fünfte Abweichung kann bestimmt werden, wenn die vorherigen vier vorhanden sind bekannt.

Bei der Berechnung der erklärten oder faktorisierten Quadratsumme Es werden theoretische (berechnete) Werte des resultierenden Merkmals verwendet

Dann ist die Summe der quadratischen Abweichungen aufgrund der linearen Regression gleich

Da für ein gegebenes Beobachtungsvolumen in x und y der Faktor Quadratsumme in der linearen Regression nur von der Regressionskonstante b abhängt, hat diese Quadratsumme nur einen Freiheitsgrad.

Es besteht Gleichheit zwischen der Anzahl der Freiheitsgrade der Gesamt-, Faktor- und Restsumme der quadrierten Abweichungen. Die Anzahl der Freiheitsgrade der Restquadratsumme in der linearen Regression beträgt n-2. Die Anzahl der Freiheitsgrade der Gesamtsumme der Quadrate wird durch die Anzahl der Einheiten variabler Merkmale bestimmt, und da wir den aus den Stichprobendaten berechneten Durchschnitt verwenden, verlieren wir einen Freiheitsgrad, d. h. df insgesamt = n–1.

Wir haben also zwei Gleichheiten:

Wenn wir jede Quadratsumme durch die entsprechende Anzahl an Freiheitsgraden dividieren, erhalten wir das mittlere Abweichungsquadrat oder, was dasselbe ist, die Streuung pro Freiheitsgrad D.

;

;

.

Die Definition der Varianz durch einen Freiheitsgrad bringt die Varianzen in eine vergleichbare Form. Durch den Vergleich der Faktor- und Restvarianzen pro Freiheitsgrad erhalten wir den Wert des Fisher-F-Tests

wobei F-Kriterium zum Testen der Nullhypothese H 0: D Fakt = D Rest.

Wenn die Nullhypothese wahr ist, unterscheiden sich Faktor- und Restvarianz nicht voneinander. Für H 0 ist eine Widerlegung notwendig, damit die Faktorstreuung die Reststreuung um ein Vielfaches übersteigt. Der englische Statistiker Snedecor entwickelte Tabellen mit kritischen Werten von F-Verhältnissen auf verschiedenen Signifikanzniveaus der Nullhypothese und verschiedenen Freiheitsgraden. Der tabellierte Wert des F-Tests ist der Maximalwert des Varianzverhältnisses, das auftreten kann, wenn sie für ein gegebenes Wahrscheinlichkeitsniveau der Nullhypothese zufällig divergieren. Der berechnete F-Verhältnis-Wert gilt als zuverlässig, wenn er größer als der tabellierte Wert ist. Wenn F Fakt > F Tabelle, dann wird die Nullhypothese H 0: D Fakt = D Rest über das Fehlen eines Zusammenhangs zwischen Merkmalen verworfen und eine Schlussfolgerung über die Bedeutung dieses Zusammenhangs gezogen.

Wenn F eine Tatsache ist< F табл, то вероятность нулевой гипотезы H 0: D факт = D ост выше заданного уровня (например, 0,05) и она не может быть отклонена без серьёзного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым. Гипотеза H 0 не отклоняется.

In diesem Beispiel aus Kapitel 3:

= 131200 -7*144002 = 30400 – Gesamtsumme der Quadrate;

1057,878*(135,43-7*(3,92571) 2) = 28979,8 – Faktor Summe der Quadrate;

=30400-28979,8 = 1420,197 – Restquadratsumme;

D Fakt = 28979,8;

D Rest = 1420,197/(n-2) = 284,0394;

F fact =28979,8/284,0394 = 102,0274;

F a =0,05; 2; 5 =6,61; F a =0,01; 2; 5 = 16,26.

Da F fact > F table sowohl bei einem Signifikanzniveau von 1 % als auch bei 5 % gilt, können wir daraus schließen, dass die Regressionsgleichung signifikant ist (die Beziehung wurde bewiesen).

Der Wert des F-Tests hängt vom Bestimmtheitsmaß ab. Die Faktorsumme der quadratischen Abweichungen kann dargestellt werden als:

,

und die Restquadratsumme als

.

Dann kann der Wert des F-Tests ausgedrückt werden als:

.

Die Bewertung der Regressionssignifikanz erfolgt üblicherweise in Form einer Varianzanalysetabelle

, wird sein Wert mit dem Tabellenwert bei einem bestimmten Signifikanzniveau α und der Anzahl der Freiheitsgrade (n-2) verglichen.
Variationsquellen Anzahl der Freiheitsgrade Summe der quadrierten Abweichungen Streuung pro Freiheitsgrad F-Verhältnis
tatsächlich Tabellarisch bei a=0,05
Allgemein
Erklärt 28979,8 28979,8 102,0274 6,61
Restwert 1420,197 284,0394

Nachdem die Regressionsgleichung erstellt und ihre Genauigkeit anhand des Bestimmtheitsmaßes beurteilt wurde, bleibt die Frage offen, wie diese Genauigkeit erreicht wurde und ob dieser Gleichung dementsprechend vertraut werden kann. Tatsache ist, dass die Regressionsgleichung nicht auf der Grundlage der unbekannten Gesamtbevölkerung, sondern auf einer Stichprobe daraus erstellt wurde. Punkte aus der Allgemeinbevölkerung fallen zufällig in die Stichprobe, daher ist es nach der Wahrscheinlichkeitstheorie unter anderem möglich, dass sich eine Stichprobe aus einer „breiten“ Allgemeinbevölkerung als „eng“ herausstellt (Abb. 15). .

Reis. 15. Mögliche Option für die Einbeziehung von Punkten in die Stichprobe aus der Gesamtbevölkerung.

In diesem Fall:

a) Die für die Stichprobe erstellte Regressionsgleichung kann erheblich von der Regressionsgleichung für die Gesamtbevölkerung abweichen, was zu Prognosefehlern führt.

b) Das Bestimmtheitsmaß und andere Genauigkeitsmerkmale werden unangemessen hoch sein und über die Vorhersagequalitäten der Gleichung irreführen.

Im Grenzfall kann die Option nicht ausgeschlossen werden, wenn aus einer Gesamtpopulation, die eine Wolke ist, deren Hauptachse parallel zur horizontalen Achse ist (es besteht kein Zusammenhang zwischen den Variablen), aufgrund einer Zufallsauswahl eine Stichprobe gewonnen wird, deren Hauptachse wird zur Achse geneigt sein. Daher sind Versuche, die nächsten Werte der Allgemeinbevölkerung anhand von Daten aus einer Stichprobe vorherzusagen, nicht nur mit Fehlern bei der Beurteilung der Stärke und Richtung der Beziehung zwischen den abhängigen und unabhängigen Variablen behaftet, sondern auch mit der Gefahr von Finden einer Verbindung zwischen Variablen, wo es tatsächlich keine gibt.

Da keine Informationen über alle Punkte in der Grundgesamtheit vorliegen, besteht die einzige Möglichkeit, Fehler im ersten Fall zu reduzieren, darin, eine Methode zur Schätzung der Koeffizienten der Regressionsgleichung zu verwenden, die sicherstellt, dass sie unvoreingenommen und effizient sind. Und die Eintrittswahrscheinlichkeit für den zweiten Fall lässt sich deutlich reduzieren, weil eine Eigenschaft einer Grundgesamtheit mit zwei voneinander unabhängigen Variablen a priori bekannt ist – genau dieser Zusammenhang fehlt ihr. Diese Reduzierung wird durch die Überprüfung der statistischen Signifikanz der resultierenden Regressionsgleichung erreicht.

Eine der am häufigsten verwendeten Verifizierungsoptionen ist die folgende. Für die resultierende Regressionsgleichung wird eine -Statistik ermittelt – ein Merkmal der Genauigkeit der Regressionsgleichung, das das Verhältnis des durch die Regressionsgleichung erklärten Teils der Varianz der abhängigen Variablen zum ungeklärten (Rest-)Teil darstellt der Varianz. Die Gleichung zur Bestimmung der -Statistik bei multivariater Regression hat die Form:

wobei: – erklärte Varianz – Teil der Varianz der abhängigen Variablen Y, der durch die Regressionsgleichung erklärt wird;

Die Restvarianz ist der Teil der Varianz der abhängigen Variablen Y, der nicht durch die Regressionsgleichung erklärt wird; ihr Vorhandensein ist eine Folge der Wirkung der Zufallskomponente;

Anzahl der Punkte in der Stichprobe;

Anzahl der Variablen in der Regressionsgleichung.

Wie aus der obigen Formel ersichtlich ist, werden Varianzen als Quotient aus der Division der entsprechenden Quadratsumme durch die Anzahl der Freiheitsgrade bestimmt. Die Anzahl der Freiheitsgrade ist die minimal erforderliche Anzahl von Werten der abhängigen Variablen, die ausreichen, um das gewünschte Merkmal der Stichprobe zu erhalten, und die unter Berücksichtigung der Tatsache, dass für diese Stichprobe alle anderen Werte gelten, frei variieren können zur Berechnung der gewünschten Kennlinie verwendet werden, bekannt sind.

Um die Restvarianz zu erhalten, werden die Koeffizienten der Regressionsgleichung benötigt. Bei der gepaarten linearen Regression gibt es zwei Koeffizienten, daher ist gemäß der Formel (unter Annahme) die Anzahl der Freiheitsgrade gleich . Dies bedeutet, dass es zur Bestimmung der Restvarianz ausreicht, die Koeffizienten der Regressionsgleichung und nur die Werte der abhängigen Variablen aus der Stichprobe zu kennen. Die restlichen beiden Werte können auf Basis dieser Daten berechnet werden und sind daher nicht frei variabel.

Um die erklärte Varianz der Werte der abhängigen Variablen zu berechnen, ist sie überhaupt nicht erforderlich, da sie durch Kenntnis der Regressionskoeffizienten für die unabhängigen Variablen und der Varianz der unabhängigen Variablen berechnet werden kann. Um dies zu überprüfen, genügt es, sich den zuvor gegebenen Ausdruck ins Gedächtnis zu rufen . Daher ist die Anzahl der Freiheitsgrade für die Restvarianz gleich der Anzahl unabhängiger Variablen in der Regressionsgleichung (bei gepaarter linearer Regression).

Infolgedessen wird das -Kriterium für die gepaarte lineare Regressionsgleichung durch die Formel bestimmt:

.

In der Wahrscheinlichkeitstheorie wurde nachgewiesen, dass das -Kriterium einer Regressionsgleichung, die für eine Stichprobe aus einer allgemeinen Bevölkerung ermittelt wurde, in der kein Zusammenhang zwischen den abhängigen und unabhängigen Variablen besteht, eine Fisher-Verteilung aufweist, die ziemlich gut untersucht wurde. Dadurch ist es möglich, für jeden Wert des -Kriteriums die Wahrscheinlichkeit seines Auftretens zu berechnen und umgekehrt den Wert des -Kriteriums zu bestimmen, den es mit einer gegebenen Wahrscheinlichkeit nicht überschreiten kann.

Um einen statistischen Test der Signifikanz der Regressionsgleichung durchzuführen, wird eine Nullhypothese über das Fehlen eines Zusammenhangs zwischen den Variablen formuliert (alle Koeffizienten für die Variablen sind gleich Null) und das Signifikanzniveau ausgewählt.

Das Signifikanzniveau ist die akzeptable Wahrscheinlichkeit, einen Fehler vom Typ I zu begehen – die Ablehnung der korrekten Nullhypothese als Ergebnis des Tests. In diesem Fall bedeutet ein Fehler vom Typ I, dass man in einer Stichprobe erkennt, dass zwischen Variablen in der Grundgesamtheit eine Beziehung besteht, obwohl es in Wirklichkeit keine gibt.

Typischerweise wird das Signifikanzniveau mit 5 % oder 1 % angenommen. Je höher das Signifikanzniveau (je weniger ), desto höher ist das Testzuverlässigkeitsniveau, gleich , d. h. desto größer ist die Chance, den Fehler zu vermeiden, in der Stichprobe das Vorhandensein eines Zusammenhangs in der Grundgesamtheit tatsächlich nicht zusammenhängender Variablen zu erkennen. Aber mit steigendem Signifikanzniveau steigt die Gefahr, einen Fehler zweiter Art zu begehen – die Ablehnung der richtigen Nullhypothese, d. h. in der Stichprobe den tatsächlichen Zusammenhang zwischen Variablen in der Allgemeinbevölkerung nicht zu bemerken. Je nachdem, welcher Fehler große negative Folgen hat, wird daher das eine oder andere Signifikanzniveau gewählt.

Für das gewählte Signifikanzniveau ermittelt die Fisher-Verteilung den Tabellenwert der Überschreitungswahrscheinlichkeit, der in einer aus der Gesamtbevölkerung gewonnenen Power-Stichprobe ohne Beziehung zwischen Variablen das Signifikanzniveau nicht überschreitet. wird mit dem tatsächlichen Kriteriumswert für die Regressionsgleichung verglichen.

Wenn die Bedingung erfüllt ist, erfolgt die fehlerhafte Erkennung eines Zusammenhangs mit einem -Kriteriumswert gleich oder größer in einer Stichprobe aus einer allgemeinen Grundgesamtheit mit nicht verwandten Variablen mit einer Wahrscheinlichkeit, die unter dem Signifikanzniveau liegt. Gemäß der Regel „Es gibt keine sehr seltenen Ereignisse“ kommen wir zu dem Schluss, dass der Zusammenhang zwischen den in der Stichprobe ermittelten Variablen auch in der Allgemeinbevölkerung besteht, aus der er gewonnen wurde.

Wenn sich herausstellt, dass dies der Fall ist, ist die Regressionsgleichung statistisch nicht signifikant. Mit anderen Worten: Es besteht eine reale Möglichkeit, dass die Stichprobe eine Beziehung zwischen Variablen hergestellt hat, die in der Realität nicht existiert. Eine Gleichung, die den statistischen Signifikanztest nicht besteht, wird wie ein abgelaufenes Medikament behandelt.

Ti – solche Medikamente sind nicht unbedingt verdorben, aber da kein Vertrauen in ihre Qualität besteht, ziehen sie es vor, sie nicht zu verwenden. Diese Regel schützt nicht vor allen Fehlern, aber sie ermöglicht es Ihnen, die schwerwiegendsten zu vermeiden, was auch sehr wichtig ist.

Die zweite Überprüfungsmöglichkeit, die bei der Verwendung von Tabellenkalkulationen bequemer ist, besteht darin, die Eintrittswahrscheinlichkeit des resultierenden Kriteriumswerts mit dem Signifikanzniveau zu vergleichen. Liegt diese Wahrscheinlichkeit unterhalb des Signifikanzniveaus, ist die Gleichung statistisch signifikant, andernfalls nicht.

Nach der Überprüfung der statistischen Signifikanz der Regressionsgleichung als Ganzes ist es im Allgemeinen, insbesondere bei multivariaten Abhängigkeiten, sinnvoll, die statistische Signifikanz der erhaltenen Regressionskoeffizienten zu überprüfen. Die Verifizierungsideologie ist dieselbe wie bei der Überprüfung der Gleichung als Ganzes, jedoch wird der Student-t-Test als Kriterium verwendet, das durch die Formeln bestimmt wird:

Und

wo: , - Werte des Student-Kriteriums für Koeffizienten bzw.;

- Restvarianz der Regressionsgleichung;

Anzahl der Punkte in der Stichprobe;

Anzahl der Variablen in der Stichprobe für die paarweise lineare Regression.

Die ermittelten Ist-Werte des Student-Tests werden mit den Tabellenwerten verglichen , erhalten aus der Student-Distribution. Wenn sich herausstellt, dass , dann ist der entsprechende Koeffizient statistisch signifikant, andernfalls nicht. Die zweite Möglichkeit zur Überprüfung der statistischen Signifikanz von Koeffizienten besteht darin, die Eintrittswahrscheinlichkeit des Student-Tests zu ermitteln und diese mit dem Signifikanzniveau zu vergleichen.

Bei Variablen, deren Koeffizienten sich als statistisch unbedeutend erwiesen haben, besteht eine hohe Wahrscheinlichkeit, dass ihr Einfluss auf die abhängige Variable in der Grundgesamtheit völlig fehlt. Daher ist es entweder notwendig, die Anzahl der Punkte in der Stichprobe zu erhöhen, dann wird der Koeffizient vielleicht statistisch signifikant und gleichzeitig wird sein Wert geklärt, oder es müssen andere als unabhängige Variablen gefunden werden, die enger mit den abhängigen Variablen zusammenhängen Variable. In diesem Fall erhöht sich in beiden Fällen die Prognosegenauigkeit.

Als ausdrückliche Methode zur Beurteilung der Signifikanz der Koeffizienten der Regressionsgleichung kann die folgende Regel verwendet werden: Wenn der Student-t-Test größer als 3 ist, erweist sich ein solcher Koeffizient in der Regel als statistisch signifikant. Im Allgemeinen wird davon ausgegangen, dass die Bedingung erfüllt sein muss, um statistisch signifikante Regressionsgleichungen zu erhalten.

Der Standardvorhersagefehler aus der resultierenden Regressionsgleichung eines unbekannten Werts mit einem bekannten Wert wird mithilfe der Formel geschätzt:

Somit kann eine Prognose mit einer Konfidenzwahrscheinlichkeit von 68 % wie folgt dargestellt werden:

Wenn ein anderes Konfidenzniveau erforderlich ist, muss für das Signifikanzniveau das Student-Kriterium und das Konfidenzintervall für die Prognose ermittelt werden, wobei das Zuverlässigkeitsniveau gleich ist .

Vorhersage mehrdimensionaler und nichtlinearer Abhängigkeiten

Wenn der vorhergesagte Wert von mehreren unabhängigen Variablen abhängt, liegt in diesem Fall eine multivariate Regression der Form vor:

wobei: - Regressionskoeffizienten, die den Einfluss von Variablen auf den vorhergesagten Wert beschreiben.

Die Methode zur Bestimmung der Regressionskoeffizienten unterscheidet sich nicht von der paarweisen linearen Regression, insbesondere bei Verwendung einer Tabellenkalkulation, da sie dieselbe Funktion sowohl für die paarweise als auch für die multivariate lineare Regression verwendet. In diesem Fall ist es wünschenswert, dass keine Beziehungen zwischen den unabhängigen Variablen bestehen, d. h. Das Ändern einer Variablen hatte keinen Einfluss auf die Werte anderer Variablen. Diese Anforderung ist jedoch nicht zwingend; wichtig ist, dass zwischen den Variablen keine funktionalen linearen Abhängigkeiten bestehen. Mit den oben beschriebenen Verfahren zur Überprüfung der statistischen Signifikanz der resultierenden Regressionsgleichung und ihrer einzelnen Koeffizienten bleibt die Beurteilung der Prognosegenauigkeit dieselbe wie im Fall der gepaarten linearen Regression. Gleichzeitig ermöglicht die Verwendung multivariater Regressionen anstelle von paarweisen Regressionen bei richtiger Auswahl der Variablen in der Regel eine deutliche Erhöhung der Genauigkeit der Beschreibung des Verhaltens der abhängigen Variablen und damit der Prognosegenauigkeit.

Darüber hinaus ermöglichen multivariate lineare Regressionsgleichungen die Beschreibung der nichtlinearen Abhängigkeit des vorhergesagten Werts von unabhängigen Variablen. Das Verfahren, eine nichtlineare Gleichung auf eine lineare Form zu reduzieren, wird als Linearisierung bezeichnet. Wenn diese Abhängigkeit insbesondere durch ein Polynom mit einem anderen Grad als 1 beschrieben wird, erhalten wir durch Ersetzen von Variablen mit einem anderen Grad als eins durch neue Variablen ersten Grades ein multivariates lineares Regressionsproblem anstelle eines nichtlinearen. So wird beispielsweise der Einfluss der unabhängigen Variablen durch eine Parabel der Form beschrieben

Dann ermöglicht uns die Ersetzung, das nichtlineare Problem in ein mehrdimensionales lineares Problem der Form umzuwandeln

Auch nichtlineare Probleme, bei denen Nichtlinearität dadurch entsteht, dass der vorhergesagte Wert vom Produkt unabhängiger Variablen abhängt, können leicht transformiert werden. Um einen solchen Einfluss zu berücksichtigen, muss eine neue Variable eingeführt werden, die diesem Produkt entspricht.

In Fällen, in denen Nichtlinearität durch komplexere Abhängigkeiten beschrieben wird, ist eine Linearisierung durch Koordinatentransformation möglich. Hierzu werden die Werte berechnet und es werden Diagramme der Abhängigkeit der Anfangspunkte in verschiedenen Kombinationen transformierter Variablen erstellt. Die Kombination transformierter Koordinaten oder transformierter und nicht transformierter Koordinaten, bei der die Abhängigkeit einer geraden Linie am nächsten kommt, führt zu einer Änderung der Variablen, die zur Transformation einer nichtlinearen Abhängigkeit in eine lineare Form führt. Zum Beispiel eine nichtlineare Abhängigkeit der Form

geht in eine lineare Form über

Die resultierenden Regressionskoeffizienten für die transformierte Gleichung bleiben unverzerrt und effizient, eine Prüfung der statistischen Signifikanz der Gleichung und der Koeffizienten ist jedoch nicht möglich

Überprüfung der Gültigkeit der Verwendung der Methode der kleinsten Quadrate

Die Verwendung der Methode der kleinsten Quadrate gewährleistet die Effizienz und unvoreingenommene Schätzungen der Koeffizienten der Regressionsgleichung unter folgenden Bedingungen (Gauss-Markov-Bedingungen):

3. Werte hängen nicht voneinander ab

4. Werte hängen nicht von unabhängigen Variablen ab

Der einfachste Weg, um zu überprüfen, ob diese Bedingungen erfüllt sind, besteht darin, die Residuen als Funktion von und dann als Funktion der unabhängigen Variablen darzustellen. Wenn sich die Punkte in diesen Diagrammen in einem Korridor befinden, der symmetrisch zur x-Achse liegt, und an der Stelle der Punkte keine Muster sichtbar sind, sind die Gauß-Markov-Bedingungen erfüllt und es besteht keine Möglichkeit, die Genauigkeit der Regression zu verbessern Gleichung. Ist dies nicht der Fall, kann die Genauigkeit der Gleichung deutlich verbessert werden und hierfür ist der Rückgriff auf Fachliteratur erforderlich.

Beurteilung der Bedeutung einer multiplen Regressionsgleichung

Die Konstruktion einer empirischen Regressionsgleichung ist die Anfangsphase der ökonometrischen Analyse. Die allererste aus einer Stichprobe erstellte Regressionsgleichung ist hinsichtlich bestimmter Merkmale nur sehr selten zufriedenstellend. Daher besteht die zweitwichtigste Aufgabe der ökonometrischen Analyse darin, die Qualität der Regressionsgleichung zu überprüfen. In der Ökonometrie wurde ein bewährtes Schema für eine solche Überprüfung übernommen.

Daher wird die Überprüfung der statistischen Qualität der geschätzten Regressionsgleichung in den folgenden Bereichen durchgeführt:

· Überprüfung der Bedeutung der Regressionsgleichung;

· Überprüfung der statistischen Signifikanz der Koeffizienten der Regressionsgleichung;

· Überprüfung der Eigenschaften der Daten, deren Machbarkeit bei der Schätzung der Gleichung angenommen wurde (Überprüfung der Machbarkeit der OLS-Prämissen).

Der Test der Signifikanz der multiplen Regressionsgleichung sowie der gepaarten Regression erfolgt mit dem Fisher-Test. In diesem Fall wird (im Gegensatz zur gepaarten Regression) eine Nullhypothese aufgestellt H 0 dass alle Regressionskoeffizienten gleich Null sind ( b 1=0, b 2=0, … , b m=0). Das Fisher-Kriterium wird durch die folgende Formel bestimmt:

Wo D Fakt – Faktorvarianz, erklärt durch Regression, pro Freiheitsgrad; D ost – Restdispersion pro Freiheitsgrad; R 2- Koeffizient der Mehrfachbestimmung; T X in der Regressionsgleichung (in der gepaarten linearen Regression). T= 1); P - Anzahl der Beobachtungen.

Der resultierende F-Testwert wird mit dem Tabellenwert auf einem bestimmten Signifikanzniveau verglichen. Wenn sein tatsächlicher Wert größer als der Tabellenwert ist, dann gilt die Hypothese Aber Die Bedeutungslosigkeit der Regressionsgleichung wird verworfen und die Alternativhypothese über ihre statistische Signifikanz akzeptiert.

Mithilfe des Fisher-Kriteriums können Sie nicht nur die Bedeutung der Regressionsgleichung als Ganzes bewerten, sondern auch die Bedeutung der zusätzlichen Einbeziehung jedes einzelnen Faktors in das Modell. Eine solche Bewertung ist notwendig, um das Modell nicht mit Faktoren zu belasten, die keinen wesentlichen Einfluss auf das Ergebnis haben. Da das Modell außerdem aus mehreren Faktoren besteht, können diese in unterschiedlicher Reihenfolge in das Modell eingeführt werden, und da zwischen den Faktoren eine Korrelation besteht, kann die Bedeutung der Einbeziehung desselben Faktors in das Modell je nach der Reihenfolge, in der die Faktoren berücksichtigt werden, unterschiedlich sein Faktoren werden darin eingeführt.

Um die Bedeutung der Einbeziehung eines zusätzlichen Faktors in das Modell zu beurteilen, wird das partielle Fisher-Kriterium berechnet Fxi. Es basiert auf dem Vergleich der Zunahme der Faktorvarianz aufgrund der Einbeziehung eines zusätzlichen Faktors in das Modell mit der Restvarianz pro Freiheitsgrad für die Regression als Ganzes. Daher die Berechnungsformel privater F-Test denn der Faktor hat die folgende Form:

Wo R 2 yx 1 x 2… xi… xp - Koeffizient der Mehrfachbestimmung für ein vollständiges Modell P Faktoren ; R 2 yx 1 x 2… x i -1 x i +1… xp- Mehrfachbestimmungskoeffizient für ein Modell, das keinen Faktor enthält x i;P- Anzahl der Beobachtungen; T- Anzahl der Parameter für Faktoren X in der Regressionsgleichung.

Der tatsächliche Wert des Fisher-Teiltests wird mit dem tabellierten Wert bei einem Signifikanzniveau von 0,05 oder 0,1 und der entsprechenden Anzahl von Freiheitsgraden verglichen. Wenn der tatsächliche Wert F xiüberschreitet F-Tisch, dann die zusätzliche Einbeziehung des Faktors x i in das Modell ist statistisch begründet und der „reine“ Regressionskoeffizient b ich bei Faktor x i statistisch signifikant. Wenn F xi weniger F-Tisch, dann erhöht die zusätzliche Einbeziehung des Faktors in das Modell den Anteil der erklärten Variation im Ergebnis nicht wesentlich ja, und daher ist seine Einbeziehung in das Modell nicht sinnvoll; der Regressionskoeffizient für diesen Faktor ist in diesem Fall statistisch unbedeutend.

Mit dem Fisher-Teiltest können Sie die Signifikanz aller Regressionskoeffizienten unter der Annahme testen, dass jeder entsprechende Faktor x i wird zuletzt in die multiple Regressionsgleichung einbezogen, alle anderen Faktoren wurden bereits früher in das Modell einbezogen.

Beurteilung der Bedeutung „reiner“ Regressionskoeffizienten b ich Von Schüler-T-Test kann ohne private Berechnung durchgeführt werden F-Kriterien. In diesem Fall wird die Formel wie bei der paarweisen Regression für jeden Faktor angewendet

t bi = b i / m bi ,

Wo b ich- Koeffizient der „reinen“ Regression mit dem Faktor x i ; m bi- Standardfehler des Regressionskoeffizienten b ich .

Für Rewird ihr Signifikanzniveau durch überprüft T -Kriterium des Schülers und gemäß dem Kriterium F Fischer. Im Folgenden betrachten wir die Beurteilung der Zuverlässigkeit von Regressionsindikatoren nur für die linearen Gleichungen (12.1) und (12.2).

Y=a 0+a 1 X(12.1)

X= b 0+ b 1 Y(12.2)

Für diese Art von Gleichungen wird es geschätzt durch T-Student-t-Test nur für Koeffizientenwerte A 1i B 1mittels Wertberechnung Tf nach folgenden Formeln:

Wo r yx Korrelationskoeffizient und der Wert A 1 kann mit den Formeln 12.5 oder 12.7 berechnet werden.

Zur Berechnung der Menge wird die Formel (12.27) verwendet Tf, A 1Regressionsgleichungen Y Von X.

Größe B 1 kann mit den Formeln (12.6) oder (12.8) berechnet werden.

Zur Berechnung der Menge wird die Formel (12.29) verwendet Tf, Dadurch können Sie das Signifikanzniveau des Koeffizienten beurteilen B 1Regressionsgleichungen X Von Y

Beispiel. Lassen Sie uns das Signifikanzniveau der Regressionskoeffizienten abschätzen A 1i B 1 Gleichungen (12.17) und (12.18), erhalten durch Lösung von Problem 12.1. Hierzu verwenden wir die Formeln (12.27), (12.28), (12.29) und (12.30).

Erinnern wir uns an die Form der erhaltenen Regressionsgleichungen:

Y x = 3 + 0,06 X(12.17)

X y = 9+ 1 Y(12.19)

Größe A 1 in Gleichung (12.17) ist gleich 0,06. Um mit der Formel (12.27) zu berechnen, müssen Sie daher den Wert berechnen Sb y x. Entsprechend den Problembedingungen der Wert P= 8. Der Korrelationskoeffizient wurde von uns ebenfalls bereits nach Formel 12.9 berechnet: r xy = √ 0,06 0,997 = 0,244 .

Es bleiben noch die Mengen zu berechnen Σ (y ι- j) 2 und Σ (X ι -X) 2, die wir nicht gezählt haben. Diese Berechnungen lassen sich am besten in Tabelle 12.2 durchführen:

Tabelle 12.2

Anzahl der Fächer x ι y i x ι –x (x ι –x) 2 y ι- j (y ι- j) 2
-4,75 22,56 - 1,75 3,06
-4,75 22,56 -0,75 0,56
-2,75 7,56 0,25 0,06
-2,75 7,56 1,25 15,62
1,25 1,56 1,25 15,62
3,25 10,56 0,25 0,06
5,25 27,56 -0,75 0,56
5,25 27,56 0,25 0,06
Beträge 127,48 35,6
Durchschnitt 12,75 3,75

Wir setzen die erhaltenen Werte in die Formel (12.28) ein und erhalten:

Berechnen wir nun den Wert Tf nach Formel (12.27):

Größe Tf wird auf Signifikanzniveau gemäß Tabelle 16 in Anhang 1 überprüft T- Schüler-T-Test. Die Anzahl der Freiheitsgrade beträgt in diesem Fall 8-2 = 6, daher sind die kritischen Werte jeweils gleich P ≤ 0,05 t cr= 2,45 und für P≤ 0,01 t cr=3,71. In der akzeptierten Notationsform sieht es so aus:

Wir bauen die „Achse der Bedeutung“ auf:

Der resultierende Wert Tf Aber dass der Wert des Regressionskoeffizienten der Gleichung (12.17) nicht von Null zu unterscheiden ist. Mit anderen Worten: Die resultierende Regressionsgleichung entspricht nicht den ursprünglichen experimentellen Daten.



Berechnen wir nun das Signifikanzniveau des Koeffizienten B 1. Dazu ist es notwendig, den Wert zu berechnen Sb xy nach Formel (12.30), für die bereits alle notwendigen Größen berechnet wurden:

Berechnen wir nun den Wert Tf nach Formel (12.27):

Wir können sofort eine „Signifikanzachse“ konstruieren, da alle oben genannten vorbereitenden Operationen durchgeführt wurden:

Der resultierende Wert Tf fiel in die Zone der Bedeutungslosigkeit, daher müssen wir die Hypothese akzeptieren H dass der Wert des Regressionskoeffizienten der Gleichung (12.19) nicht von Null zu unterscheiden ist. Mit anderen Worten: Die resultierende Regressionsgleichung entspricht nicht den ursprünglichen experimentellen Daten.

Nichtlineare Regression

Das im vorherigen Abschnitt erhaltene Ergebnis ist etwas entmutigend: Wir haben festgestellt, dass beide Regressionsgleichungen (12.15) und (12.17) den experimentellen Daten nicht entsprechen. Letzteres geschah, weil diese beiden Gleichungen die lineare Beziehung zwischen den Merkmalen charakterisieren, und in Abschnitt 11.9 haben wir dies zwischen den Variablen gezeigt X Und Y Es besteht eine signifikante krummlinige Beziehung. Mit anderen Worten, zwischen den Variablen X Und Y Bei diesem Problem ist es notwendig, eher nach krummlinigen als nach linearen Verbindungen zu suchen. Wir werden dies mit dem Paket „Stage 6.0“ (entwickelt von A.P. Kulaichev, Registrierungsnummer 1205) tun.

Aufgabe 12.2. Der Psychologe möchte ein Regressionsmodell auswählen, das den experimentellen Daten aus Aufgabe 11.9 entspricht.

Lösung. Dieses Problem lässt sich durch einfaches Durchsuchen der krummlinigen Regressionsmodelle lösen, die im Stadiya-Statistikpaket angeboten werden. Das Paket ist so organisiert, dass die experimentellen Daten in Form der ersten Spalte für die Variable in die Tabelle eingegeben werden, die als Quelle für die weitere Arbeit dient X und eine zweite Spalte für die Variable Y. Wählen Sie dann im Hauptmenü den Abschnitt Statistik aus, darin gibt es einen Unterabschnitt – Regressionsanalyse, in diesem Unterabschnitt wiederum einen Unterabschnitt – krummlinige Regression. Das letzte Menü enthält Formeln (Modelle) für verschiedene Arten der krummlinigen Regression, nach denen Sie die entsprechenden Regressionskoeffizienten berechnen und sofort auf Signifikanz überprüfen können. Im Folgenden sehen wir uns nur einige Beispiele für die Arbeit mit vorgefertigten krummlinigen Regressionsmodellen (Formeln) an.



1. Erstes Modell - Exponent . Seine Formel lautet:

Bei der Berechnung mit dem Statistikpaket erhalten wir A 0 = 1 und A 1 = 0,022.

Die Berechnung des Signifikanzniveaus für a ergab den Wert R= 0,535. Offensichtlich ist der resultierende Wert unbedeutend. Daher ist dieses Regressionsmodell den experimentellen Daten nicht angemessen.

2. Zweites Modell - Leistung . Seine Formel lautet:

Beim Zählen a o = - 5,29, a, = 7,02 und A 1 = 0,0987.

Signifikanzniveau für A 1 - R= 7,02 und für A 2 - P = 0,991. Offensichtlich ist keiner der Koeffizienten signifikant.

3. Drittes Modell - Polynom . Seine Formel lautet:

Y= A 0 + A 1 X + a 2 x 2+ A 3 X 3

Beim Zählen eine 0= - 29,8, A 1 = 7,28, A 2 = - 0,488 und A 3 = 0,0103. Signifikanzniveau für a, - P = 0,143, für eine 2 - P = 0,2 und für a, - P= 0,272

Schlussfolgerung: Dieses Modell ist den experimentellen Daten nicht angemessen.

4. Viertes Modell - Parabel .

Seine Formel lautet: Y= a o + a l -X 1 + a 2 X 2

Beim Zählen A 0 = - 9,88, a, = 2,24 und A 1 = - 0,0839 Signifikanzniveau für A 1 - P = 0,0186, für A 2 - P = 0,0201. Beide Regressionskoeffizienten waren signifikant. Folglich ist das Problem gelöst – wir haben die Form einer krummlinigen Beziehung zwischen dem Erfolg der Lösung des dritten Wechsler-Subtests und dem Wissensstand in Algebra identifiziert – es handelt sich um eine parabolische Beziehung. Dieses Ergebnis bestätigt die bei der Lösung von Aufgabe 11.9 gewonnene Schlussfolgerung über das Vorhandensein einer krummlinigen Beziehung zwischen den Variablen. Wir betonen, dass mit Hilfe der krummlinigen Regression die genaue Form der Beziehung zwischen den untersuchten Variablen ermittelt wurde.


Kapitel 13 FAKTORANALYSE

Grundkonzepte der Faktorenanalyse

Die Faktoranalyse ist eine statistische Methode, die bei der Verarbeitung großer Mengen experimenteller Daten eingesetzt wird. Die Ziele der Faktorenanalyse sind: Reduzierung der Variablenanzahl (Datenreduktion) und Bestimmung der Beziehungsstruktur zwischen Variablen, d. h. Klassifizierung von Variablen, daher wird die Faktoranalyse als Datenreduktionsmethode oder als strukturelle Klassifizierungsmethode verwendet.

Ein wichtiger Unterschied zwischen der Faktorenanalyse und allen oben beschriebenen Methoden besteht darin, dass mit ihr keine primären oder, wie man sagt, „rohen“ experimentellen Daten, d. h. direkt aus der Prüfung von Fächern gewonnen. Das Material für die Faktorenanalyse sind Korrelationen, genauer gesagt Pearson-Korrelationskoeffizienten, die zwischen den in die Umfrage einbezogenen Variablen (d. h. psychologischen Merkmalen) berechnet werden. Mit anderen Worten, Korrelationsmatrizen oder, wie sie auch genannt werden, Interkorrelationsmatrizen, werden einer Faktorenanalyse unterzogen. Die Spalten- und Zeilennamen in diesen Matrizen sind identisch, da sie eine Liste von Variablen darstellen, die in die Analyse einbezogen werden. Aus diesem Grund sind Interkorrelationsmatrizen immer quadratisch, d. h. die Anzahl der Zeilen darin ist gleich der Anzahl der Spalten und symmetrisch, d.h. symmetrische Orte relativ zur Hauptdiagonale haben die gleichen Korrelationskoeffizienten.

Es muss betont werden, dass die ursprüngliche Datentabelle, aus der die Korrelationsmatrix gewonnen wird, nicht quadratisch sein muss. Beispielsweise hat ein Psychologe drei Indikatoren der Intelligenz (verbal, nonverbal und allgemein) und Schulnoten in drei akademischen Fächern (Literatur, Mathematik, Physik) von 100 Fächern – Schüler der neunten Klasse – gemessen. Die ursprüngliche Datenmatrix wird 100 × 6 groß sein und die Interkorrelationsmatrix wird 6 × 6 groß sein, da es nur 6 Variablen gibt. Bei einer solchen Anzahl von Variablen umfasst die Interkorrelationsmatrix 15 Koeffizienten und ihre Analyse wird nicht schwierig sein.

Stellen Sie sich jedoch vor, was passieren würde, wenn der Psychologe nicht 6, sondern 100 Indikatoren von jedem Fach erhält. In diesem Fall muss er 4950 Korrelationskoeffizienten analysieren. Die Anzahl der Koeffizienten in der Matrix wird durch die Formel n (n+1)/2 berechnet und ist in unserem Fall gleich (100×99)/2= 4950.

Offensichtlich ist die Durchführung einer visuellen Analyse einer solchen Matrix eine schwierige Aufgabe. Stattdessen kann der Psychologe ein mathematisches Verfahren zur Faktorenanalyse einer 100 × 100-Korrelationsmatrix (100 Probanden und 100 Variablen) durchführen und so einfacheres Material für die Interpretation experimenteller Ergebnisse erhalten.

Das Hauptkonzept der Faktorenanalyse ist Faktor. Dabei handelt es sich um einen künstlichen statistischen Indikator, der durch spezielle Transformationen der Tabelle der Korrelationskoeffizienten zwischen den untersuchten psychologischen Merkmalen bzw. der Interkorrelationsmatrix entsteht. Das Verfahren zum Extrahieren von Faktoren aus einer Interkorrelationsmatrix wird Matrixfaktorisierung genannt. Durch die Faktorisierung kann eine unterschiedliche Anzahl von Faktoren aus der Korrelationsmatrix extrahiert werden, bis zu einer Anzahl, die der Anzahl der ursprünglichen Variablen entspricht. Allerdings sind die durch die Faktorisierung identifizierten Faktoren in der Regel von unterschiedlicher Bedeutung.

Die Elemente der Faktormatrix werden aufgerufen oder Waage"; und sie stellen die Korrelationskoeffizienten eines bestimmten Faktors mit allen in der Studie verwendeten Indikatoren dar. Die Faktormatrix ist sehr wichtig, da sie zeigt, wie die untersuchten Indikatoren mit jedem ausgewählten Faktor zusammenhängen. Gleichzeitig zeigt das Faktorgewicht das Maß bzw. die Nähe dieses Zusammenhangs an.

Da es sich bei jeder Spalte der Faktormatrix (Faktor) um eine Art Variable handelt, können auch die Faktoren selbst miteinander korrelieren. Hier gibt es zwei mögliche Fälle: Die Korrelation zwischen Faktoren ist Null, in diesem Fall sind die Faktoren unabhängig (orthogonal). Wenn die Korrelation zwischen Faktoren größer als Null ist, werden die Faktoren als abhängig (oblique) betrachtet. Wir betonen, dass orthogonale Faktoren im Gegensatz zu schrägen Faktoren einfachere Möglichkeiten für Interaktionen innerhalb der Faktormatrix bieten.

Zur Veranschaulichung orthogonaler Faktoren wird häufig das Problem von L. Thurstone angeführt, der anhand einer Reihe von Kästchen unterschiedlicher Größe und Form in jedem von ihnen mehr als 20 verschiedene Indikatoren maß und die Korrelationen zwischen ihnen berechnete. Nachdem er die resultierende Interkorrelationsmatrix faktorisiert hatte, erhielt er drei Faktoren, deren Korrelation zwischen Null war. Diese Faktoren waren „Länge“, „Breite“ und „Höhe“.

Um das Wesen der Faktorenanalyse besser zu verstehen, betrachten wir das folgende Beispiel genauer.

Angenommen, ein Psychologe erhält die folgenden Daten aus einer Zufallsstichprobe von Studenten:

V 1- Körpergewicht (in kg);

V 2 - Anzahl der Besuche von Vorlesungen und Seminaren zum Thema;

V 3- Beinlänge (in cm);

V 4- Anzahl der gelesenen Bücher zum Thema;

V 5- Armlänge (in cm);

V 6 - Prüfungsnote im Fach ( V- vom englischen Wort variable - variable).

Bei der Analyse dieser Merkmale ist es nicht unangemessen anzunehmen, dass die Variablen V 1, K 3 und V 5- werden miteinander verbunden sein, denn je größer die Person, desto mehr wiegt sie und desto länger sind ihre Gliedmaßen. Dies bedeutet, dass zwischen diesen Variablen statistisch signifikante Korrelationskoeffizienten ermittelt werden sollten, da diese drei Variablen eine grundlegende Eigenschaft der Personen in der Stichprobe messen, nämlich ihre Größe. Es ist ebenso wahrscheinlich, dass bei der Berechnung von Korrelationen zwischen V 2, V 4 Und V 6 Es ergeben sich auch recht hohe Korrelationskoeffizienten, da der Besuch von Vorlesungen und das Selbststudium zu besseren Noten im Studienfach beitragen.

Somit aus dem gesamten möglichen Array von Koeffizienten, das durch Aufzählung von Paaren korrelierter Merkmale erhalten wird V 1 Und V 2 , V t Und V 3 usw. dürften zwei Blöcke statistisch signifikanter Korrelationen hervorstechen. Der Rest der Korrelationen zwischen Merkmalen, die in verschiedenen Blöcken enthalten sind, weist wahrscheinlich keine statistisch signifikanten Koeffizienten auf, da Verbindungen zwischen Merkmalen wie Gliedmaßengröße und akademischer Leistung höchstwahrscheinlich zufälliger Natur sind. Eine aussagekräftige Analyse unserer sechs Variablen zeigt also, dass sie tatsächlich nur zwei allgemeine Merkmale messen, nämlich die Körpergröße und den Grad der Vorbereitung des Probanden.

Zur resultierenden Interkorrelationsmatrix, d.h. berechnete paarweise Korrelationskoeffizienten zwischen allen sechs Variablen V 1 - V 6, Es ist zulässig, eine Faktorenanalyse anzuwenden. Dies kann manuell mit einem Taschenrechner durchgeführt werden, das Verfahren für eine solche statistische Verarbeitung ist jedoch sehr arbeitsintensiv. Aus diesem Grund wird die Faktoranalyse derzeit am Computer durchgeführt, meist unter Verwendung von Standard-Statistikpaketen. Alle modernen Statistikpakete verfügen über Programme zur Korrelations- und Faktorenanalyse. Ein Computerprogramm zur Faktorenanalyse versucht im Wesentlichen, Korrelationen zwischen Variablen anhand einer kleinen Anzahl von Faktoren (in unserem Beispiel zwei) zu „erklären“.

Angenommen, wir hätten mithilfe eines Computerprogramms eine Interkorrelationsmatrix aller sechs Variablen erhalten und diese einer Faktorenanalyse unterzogen. Als Ergebnis der Faktorenanalyse wurde Tabelle 13.1 erhalten, die als „Faktormatrix“ oder „Faktorstrukturmatrix“ bezeichnet wird.

Tabelle 13.1

Variable Faktor 1 Faktor 2
V 1 0,91 0,01
V 2 0,20 0,96
V 3 0,94 -0,15
V 4 0,11 0,85
V 5 0,89 0,07
V 6 -0,13 0,93

Traditionell werden Faktoren in einer Tabelle als Spalten und Variablen als Zeilen dargestellt. Die Spaltenüberschriften in Tabelle 13.1 entsprechen den Nummern der identifizierten Faktoren, es wäre jedoch zutreffender, sie für Faktor 1 „Faktorladungen“ oder „Gewichte“ zu nennen, dasselbe gilt für Faktor 2. Wie oben erwähnt, Faktorladungen oder Gewichte stellen Korrelationen zwischen der entsprechenden Variablen und einem bestimmten Faktor dar. Beispielsweise bedeutet die erste Zahl von 0,91 im ersten Faktor, dass die Korrelation zwischen dem ersten Faktor und der Variablen besteht V 1 gleich 0,91. Je höher die Faktorladung im absoluten Wert ist, desto größer ist ihr Zusammenhang mit dem Faktor.

Aus Tabelle 13.1 ist ersichtlich, dass die Variablen V 1 V 3 Und V 5 haben große Korrelationen mit Faktor 1 (tatsächlich hat Variable 3 eine Korrelation nahe 1 mit Faktor 1). Gleichzeitig die Variablen V 2 ,V 3 und U 5 haben Korrelationen nahe 0 mit Faktor 2. Ebenso ist Faktor 2 stark mit den Variablen korreliert V 2, V 4 Und V 6 und korreliert nicht wirklich mit den Variablen V 1,V 3 und V 5

In diesem Beispiel wird deutlich, dass es zwei Korrelationsstrukturen gibt und daher alle Informationen in Tabelle 13.1 durch zwei Faktoren bestimmt werden. Nun beginnt der letzte Arbeitsschritt – die Interpretation der gewonnenen Daten. Bei der Analyse einer Faktormatrix ist es sehr wichtig, die Anzeichen von Faktorladungen in jedem Faktor zu berücksichtigen. Liegen im gleichen Faktor Ladungen mit entgegengesetzten Vorzeichen vor, bedeutet dies, dass ein umgekehrt proportionaler Zusammenhang zwischen Variablen mit entgegengesetzten Vorzeichen besteht.

Beachten Sie, dass Sie bei der Interpretation eines Faktors der Einfachheit halber die Vorzeichen aller Ladungen eines bestimmten Faktors in die entgegengesetzten Vorzeichen ändern können.

Die Faktormatrix zeigt auch, welche Variablen jeden Faktor bilden. Dies liegt zum einen am Signifikanzniveau des Faktorgewichts. Traditionell wird das minimale Signifikanzniveau von Korrelationskoeffizienten in der Faktoranalyse mit 0,4 oder sogar 0,3 (in absoluten Werten) angenommen, da es keine speziellen Tabellen gibt, aus denen die kritischen Werte für das Signifikanzniveau des Faktors ermittelt werden können Matrix. Daher lässt sich am einfachsten erkennen, welche Variablen zu einem Faktor „gehören“, indem man diejenigen markiert, deren Ladungen größer als 0,4 (oder kleiner als -0,4) sind. Wir weisen darauf hin, dass in Computerpaketen manchmal das Signifikanzniveau des Faktorgewichts durch das Programm selbst bestimmt wird und auf einen höheren Wert eingestellt wird, beispielsweise 0,7.

Aus Tabelle 13.1 folgt also, dass Faktor 1 eine Kombination von Variablen ist V 1 K 3 und V 5(aber nicht V 1, K 4 Und V 6, da ihre Faktorladungen im absoluten Wert weniger als 0,4 betragen). Ebenso ist Faktor 2 eine Kombination von Variablen V 2, V 4 Und V 6.

Der als Ergebnis der Faktorisierung isolierte Faktor ist ein Satz der in die Analyse einbezogenen Variablen, die signifikante Ladungen aufweisen. Es kommt jedoch häufig vor, dass ein Faktor nur eine Variable mit signifikantem Faktorgewicht enthält und der Rest unbedeutende Faktorladungen aufweist. In diesem Fall wird der Faktor durch den Namen der einzigen signifikanten Variablen bestimmt.

Im Wesentlichen kann ein Faktor als eine künstliche „Einheit“ betrachtet werden, die Variablen (Merkmale) auf der Grundlage der Verbindungen zwischen ihnen gruppiert. Diese Einheit ist bedingt, da Sie durch Ändern bestimmter Bedingungen des Interkorrelationsmatrix-Faktorisierungsverfahrens eine andere Faktormatrix (Struktur) erhalten können. In der neuen Matrix kann die Verteilung der Variablen auf die Faktoren und ihre Faktorladungen unterschiedlich sein.

In diesem Zusammenhang gibt es in der Faktorenanalyse das Konzept der „einfachen Struktur“. Eine einfache Struktur ist eine Faktormatrix, in der jede Variable nur für einen der Faktoren signifikante Ladungen aufweist und die Faktoren selbst orthogonal sind, d. h. sind nicht voneinander abhängig. In unserem Beispiel sind die beiden allgemeinen Faktoren unabhängig. Eine Faktorenmatrix mit einfacher Struktur ermöglicht es Ihnen, das erhaltene Ergebnis zu interpretieren und jedem Faktor einen Namen zu geben. In unserem Fall ist der erste Faktor „Körpergröße“, der zweite Faktor „Vorbereitungsgrad“.

Das Vorstehende erschöpft nicht die sinnvollen Möglichkeiten der Faktormatrix. Daraus können Sie zusätzliche Merkmale extrahieren, die es Ihnen ermöglichen, die Zusammenhänge von Variablen und Faktoren genauer zu untersuchen. Diese Merkmale werden „Allgemeinheit“ und „Eigenwert“ des Faktors genannt.

Bevor wir jedoch ihre Beschreibung präsentieren, weisen wir auf eine grundsätzlich wichtige Eigenschaft des Korrelationskoeffizienten hin, dank derer diese Merkmale erhalten werden. Der Korrelationskoeffizient, quadriert (d. h. mit sich selbst multipliziert), zeigt, wie viel von der Varianz (Variabilität) eines Merkmals zwischen zwei Variablen geteilt wird, oder einfacher gesagt, wie viel Überlappung diese Variablen haben. So überlappen sich beispielsweise zwei Variablen mit einer Korrelation von 0,9 in einem Ausmaß von 0,9 x 0,9 = 0,81. Dies bedeutet, dass 81 % der Varianz beider Variablen gemeinsam sind, d. h. zusammenpassen. Denken Sie daran, dass Faktorladungen in einer Faktormatrix Korrelationskoeffizienten zwischen Faktoren und Variablen sind. Daher charakterisiert die quadrierte Faktorladung den Grad der Gemeinsamkeit (oder Überlappung) der Varianzen einer bestimmten Variablen und eines bestimmten Faktors.

Wenn die resultierenden Faktoren nicht voneinander abhängen („orthogonale“ Lösung), können die Gewichte der Faktormatrix verwendet werden, um zu bestimmen, welcher Teil der Varianz der Variablen und dem Faktor gemeinsam ist. Sie können berechnen, welcher Teil der Variabilität jeder Variablen mit der Variabilität der Faktoren übereinstimmt, indem Sie einfach die Quadrate der Faktorladungen für alle Faktoren summieren. Aus Tabelle 13.1 folgt beispielsweise, dass 0,91 × 0,91 + + 0,01 × 0,01 = 0,8282, d. h. Etwa 82 % der Variabilität der ersten Variablen werden durch die ersten beiden Faktoren „erklärt“. Der resultierende Wert wird aufgerufen Gemeinschaft variabel, in diesem Fall variabel V 1

Variablen können unterschiedliche Grade an Gemeinsamkeiten mit Faktoren aufweisen. Eine Variable mit größerer Kommunalität weist einen signifikanten Grad an Überlappung (größeren Anteil an Varianz) mit einem oder mehreren Faktoren auf. Eine geringe Kommunalität bedeutet, dass alle Korrelationen zwischen Variablen und Faktoren gering sind. Dies bedeutet, dass keiner der Faktoren den gleichen Varianzanteil wie eine bestimmte Variable aufweist. Eine geringe Kommunalität kann darauf hindeuten, dass die Variable qualitativ etwas anderes misst als die anderen in die Analyse einbezogenen Variablen. Beispielsweise weist eine Variable im Zusammenhang mit der Motivationsbeurteilung bei Aufgaben zur Beurteilung von Fähigkeiten eine Gemeinsamkeit mit Fähigkeitsfaktoren nahe Null auf.

Eine geringe Allgemeingültigkeit kann auch bedeuten, dass eine bestimmte Aufgabe stark von Messfehlern betroffen ist oder für den Testteilnehmer äußerst schwierig ist. Im Gegenteil ist es auch möglich, dass die Aufgabe so einfach ist, dass jeder Proband die richtige Antwort darauf gibt, oder dass die Aufgabe inhaltlich so vage ist, dass der Proband den Kern der Frage nicht versteht. Eine geringe Kommunalität impliziert also, dass eine bestimmte Variable aus einem der folgenden Gründe nicht mit den Faktoren kombiniert werden kann: Entweder misst die Variable ein anderes Konzept, oder die Variable weist einen großen Messfehler auf, oder es gibt Unterschiede zwischen den Probanden in den Antwortmöglichkeiten hierfür Element, das die Varianz des Attributs verzerrt.

Schließlich ist es durch die Verwendung eines solchen Merkmals wie des Eigenwerts eines Faktors möglich, die relative Bedeutung jedes der ausgewählten Faktoren zu bestimmen. Dazu müssen Sie berechnen, welcher Teil der Varianz (Variabilität) durch jeden Faktor erklärt wird. Ein Faktor, der 45 % der Varianz (Überlappung) zwischen den Variablen in der ursprünglichen Korrelationsmatrix erklärt, ist offensichtlich signifikanter als ein anderer, der nur 25 % der Varianz erklärt. Diese Argumente gelten jedoch, wenn die Faktoren orthogonal sind, also nicht voneinander abhängen.

Um den Eigenwert eines Faktors zu berechnen, müssen Sie die Faktorladungen quadrieren und über die Spalte addieren. Mithilfe der Daten in Tabelle 13.1 können wir überprüfen, dass der Eigenwert von Faktor 1 (0,91 × 0,91 + 0,20 × 0,20 + 0,94 × 0,94 + 0,11 × 0,11 + 0,84 × 0,84 + (- 0,13) × beträgt

× (-0,13)) = 2,4863. Wenn der Eigenwert eines Faktors durch die Anzahl der Variablen (in unserem Beispiel 6) geteilt wird, zeigt die resultierende Zahl, welcher Anteil der Varianz durch diesen Faktor erklärt wird. In unserem Fall beträgt sie 2,4863∙100 %/6 = 41,4 %. Mit anderen Worten: Faktor 1 erklärt etwa 41 % der Informationen (Varianz) in der ursprünglichen Korrelationsmatrix. Eine ähnliche Berechnung für den zweiten Faktor ergibt 41,5 %. Insgesamt werden es 82,9 % sein.

Somit erklären die beiden gemeinsamen Faktoren zusammengenommen nur 82,9 % der Varianz der Indikatoren der ursprünglichen Korrelationsmatrix. Was geschah mit den „verbleibenden“ 17,1 %? Tatsache ist, dass wir bei der Betrachtung der Korrelationen zwischen 6 Variablen festgestellt haben, dass die Korrelationen in zwei separate Blöcke fallen, und daher entschieden haben, dass es logisch ist, das Material anhand von zwei Faktoren zu analysieren und nicht anhand von 6, wie die Anzahl der ursprünglichen Variablen . Mit anderen Worten: Die Anzahl der zur Beschreibung der Daten erforderlichen Konstrukte verringerte sich von 6 (Anzahl der Variablen) auf 2 (Anzahl gemeinsamer Faktoren). Durch die Faktorisierung wurden einige der Informationen in der ursprünglichen Korrelationsmatrix der Konstruktion eines Zwei-Faktor-Modells geopfert. Die einzige Bedingung, unter der keine Informationen verloren gehen, wäre die Berücksichtigung eines Sechs-Faktoren-Modells.

In der sozioökonomischen Forschung ist es oft notwendig, in einer begrenzten Population oder mit Stichprobendaten zu arbeiten. Daher ist es nach den mathematischen Parametern der Regressionsgleichung notwendig, diese und die Gleichung als Ganzes auf statistische Signifikanz zu bewerten, d.h. Es muss sichergestellt werden, dass die resultierende Gleichung und ihre Parameter unter dem Einfluss nicht zufälliger Faktoren gebildet werden.

Zunächst wird die statistische Signifikanz der Gleichung als Ganzes beurteilt. Die Auswertung erfolgt typischerweise mit dem Fisher-F-Test. Die Berechnung des F-Kriteriums basiert auf der Regel der Addition von Varianzen. Das allgemeine Streuungscharakteristikergebnis ist nämlich = Faktorstreuung + Reststreuung.

Aktueller Preis

Theoretischer Preis
Durch die Aufstellung einer Regressionsgleichung können Sie den theoretischen Wert des Ergebnismerkmals berechnen, d.h. wird anhand der Regressionsgleichung unter Berücksichtigung ihrer Parameter berechnet.

Diese Werte charakterisieren das Ergebnisattribut, das unter dem Einfluss der in die Analyse einbezogenen Faktoren gebildet wird.

Aufgrund des Einflusses anderer, nicht in die Analyse einbezogener Faktoren kommt es immer wieder zu Abweichungen (Residuen) zwischen den tatsächlichen Werten des Ergebnisattributs und den auf Basis der Regressionsgleichung berechneten Werten.

Der Unterschied zwischen dem theoretischen und dem tatsächlichen Wert des Ergebnisattributs wird als Residuen bezeichnet. Allgemeine Variation des Ergebnismerkmals:

Die Variation des Ergebnisattributs, die durch Variation der Merkmale der in die Analyse einbezogenen Faktoren verursacht wird, wird durch Vergleiche der theoretischen Werte der Ergebnisse bewertet. Merkmal und seine Durchschnittswerte. Reststreuung durch Vergleich theoretischer und tatsächlicher Werte des resultierenden Merkmals. Gesamtvarianz, Residuum und Ist haben unterschiedliche Freiheitsgrade.

Allgemein, P- Anzahl der Einheiten in der untersuchten Population

Tatsächlich, P- Anzahl der in die Analyse einbezogenen Faktoren

Restwert

Der Fisher-F-Test wird als Verhältnis zu berechnet und für einen Freiheitsgrad berechnet.

Die Verwendung des Fisher-F-Tests als Schätzung der statistischen Signifikanz einer Regressionsgleichung ist sehr logisch. - das ist das Ergebnis. Charakteristik, bestimmt durch die in die Analyse einbezogenen Faktoren, d. h. Dies ist der Anteil des erklärten Ergebnisses. Zeichen. - Dies ist eine (Variation) eines Ergebnisattributs, die durch Faktoren verursacht wird, deren Einfluss nicht berücksichtigt wird, d. h. nicht in die Analyse einbezogen.

Das. Der F-Test dient der Bewertung bedeutsamÜberschuss über . Liegt er nicht wesentlich unter, und umso mehr, wenn er übersteigt, werden die Faktoren, die das Ergebnisattribut tatsächlich beeinflussen, nicht in die Analyse einbezogen.

Der Fisher-F-Test wird tabellarisch dargestellt, der tatsächliche Wert wird mit dem tabellierten Wert verglichen. Wenn , dann wird die Regressionsgleichung als statistisch signifikant angesehen. Wenn die Gleichung hingegen statistisch nicht signifikant ist und nicht in der Praxis verwendet werden kann, gibt die Signifikanz der Gleichung als Ganzes die statistische Signifikanz der Korrelationsindikatoren an.

Nach der Schätzung der Gleichung als Ganzes ist es notwendig, die statistische Signifikanz der Parameter der Gleichung zu bewerten. Diese Bewertung erfolgt anhand der Student-T-Statistik. Die t-Statistik wird als Verhältnis der Parameter der Gleichung (Modulo) zu ihrem standardmäßigen mittleren quadratischen Fehler berechnet. Wenn ein Ein-Faktor-Modell geschätzt wird, werden 2 Statistiken berechnet.

In allen Computerprogrammen erfolgt die Berechnung des Standardfehlers und der T-Statistik für Parameter zusammen mit der Berechnung der Parameter selbst. T-Statistiken tabellarisch aufgeführt. Wenn der Wert , dann gilt der Parameter als statistisch signifikant, d. h. unter dem Einfluss nicht zufälliger Faktoren gebildet.

Die Berechnung der T-Statistik bedeutet im Wesentlichen, die Nullhypothese zu testen, dass der Parameter unbedeutend ist, d. h. seine Gleichheit ist Null. Mit einem Ein-Faktor-Modell werden 2 Hypothesen bewertet: und

Das Signifikanzniveau der Annahme der Nullhypothese hängt vom akzeptierten Konfidenzniveau ab. Wenn der Forscher also das Wahrscheinlichkeitsniveau auf 95 % festlegt, wird das Akzeptanzsignifikanzniveau berechnet. Wenn das Signifikanzniveau also ≥ 0,05 ist, wird es akzeptiert und die Parameter werden als statistisch nicht signifikant betrachtet. Wenn , dann wird die Alternative abgelehnt und akzeptiert: und .

Statistiksoftwarepakete liefern auch das Signifikanzniveau für die Annahme von Nullhypothesen. Die Beurteilung der Bedeutung der Regressionsgleichung und ihrer Parameter kann zu folgenden Ergebnissen führen:

Erstens ist die Gleichung als Ganzes signifikant (gemäß dem F-Test) und alle Parameter der Gleichung sind auch statistisch signifikant. Dies bedeutet, dass die resultierende Gleichung sowohl für Managemententscheidungen als auch für Prognosen verwendet werden kann.

Zweitens ist die Gleichung laut F-Test statistisch signifikant, aber mindestens einer der Parameter der Gleichung ist nicht signifikant. Die Gleichung kann verwendet werden, um Managemententscheidungen bezüglich der analysierten Faktoren zu treffen, sie kann jedoch nicht für Prognosen verwendet werden.

Drittens ist die Gleichung statistisch nicht signifikant, oder laut F-Test ist die Gleichung signifikant, aber alle Parameter der resultierenden Gleichung sind nicht signifikant. Die Gleichung kann für keinen Zweck verwendet werden.

Damit die Regressionsgleichung als Modell der Beziehung zwischen dem Ergebnisattribut und den Faktorattributen anerkannt wird, ist es notwendig, dass alle wichtigen Faktoren, die das Ergebnis bestimmen, darin enthalten sind, damit eine sinnvolle Interpretation von möglich ist Die Parameter der Gleichung entsprechen theoretisch begründeten Zusammenhängen im untersuchten Phänomen. Das Bestimmtheitsmaß R2 muss > 0,5 sein.

Bei der Erstellung einer multiplen Regressionsgleichung empfiehlt es sich, eine Bewertung mit dem sogenannten angepassten Bestimmtheitsmaß (R 2) vorzunehmen. Der Wert von R2 (sowie die Korrelation) steigt mit der Anzahl der in die Analyse einbezogenen Faktoren. Der Wert des Koeffizienten wird insbesondere in kleinen Populationen überschätzt. Um den negativen Einfluss zu unterdrücken, werden R 2 und Korrelationen unter Berücksichtigung der Anzahl der Freiheitsgrade angepasst, d. h. die Anzahl der frei variierenden Elemente, wenn bestimmte Faktoren einbezogen werden.

Angepasstes Bestimmtheitsmaß

P–Populationsgröße/Anzahl der Beobachtungen

k– Anzahl der in die Analyse einbezogenen Faktoren

n-1– Anzahl der Freiheitsgrade

(1-R 2)- der Wert des Restes/der unerklärten Varianz des resultierenden Merkmals

Immer weniger R 2. Auf dieser Grundlage ist es möglich, Schätzungen von Gleichungen mit unterschiedlicher Anzahl analysierter Faktoren zu vergleichen.

34. Probleme beim Studium von Zeitreihen.

Zeitreihen werden Zeitreihen oder Zeitreihen genannt. Eine Zeitreihe ist eine zeitlich geordnete Abfolge von Indikatoren, die ein bestimmtes Phänomen charakterisieren (BIP-Volumen von 90 bis 98). Der Zweck der Untersuchung von Zeitreihen besteht darin, das Entwicklungsmuster des untersuchten Phänomens (den Haupttrend) zu identifizieren und auf dieser Grundlage eine Prognose zu erstellen. Aus der Definition von RD folgt, dass jede Reihe aus zwei Elementen besteht: der Zeit t und dem Niveau der Reihe (den spezifischen Werten des Indikators, auf deren Grundlage die RD-Reihe erstellt wird). DR-Reihen können sein: 1) Moment – ​​Reihen, deren Indikatoren zu einem bestimmten Zeitpunkt, an einem bestimmten Datum aufgezeichnet werden, 2) Intervall – Reihen, deren Indikatoren für einen bestimmten Zeitraum erhalten werden (1. Population von St. Petersburg, 2. BIP-Volumen für den Zeitraum). Die Unterteilung der Reihen in Moment- und Intervallreihen ist notwendig, da dies die Besonderheiten der Berechnung einiger Indikatoren von DR-Reihen bestimmt. Die Summierung der Stufen von Intervallreihen ergibt ein sinnvoll interpretierbares Ergebnis, was man von der Summierung der Stufen von Momentreihen nicht behaupten kann, da letztere wiederholte Zählungen beinhalten. Das wichtigste Problem bei der Analyse von Zeitreihen ist das Problem der Vergleichbarkeit der Reihenniveaus. Dieses Konzept ist sehr vielfältig. Die Werte müssen hinsichtlich der Berechnungsmethoden sowie hinsichtlich der Fläche und der Abdeckung der Bevölkerungseinheiten vergleichbar sein. Wird die DR-Reihe kostentechnisch aufgebaut, müssen alle Stufen in vergleichbaren Preisen dargestellt bzw. kalkuliert werden. Bei der Konstruktion von Intervallreihen müssen die Niveaus identische Zeiträume charakterisieren. Bei der Erstellung von Momentenreihen müssen die Pegel zum gleichen Datum erfasst werden. DR-Serien können vollständig oder unvollständig sein. Unvollständige Zeilen werden in offiziellen Veröffentlichungen verwendet (1980,1985,1990,1995,1996,1997,1998,1999...). Eine umfassende Analyse der RD umfasst die Untersuchung der folgenden Punkte:

1. Berechnung von Indikatoren für Änderungen der RD-Werte

2. Berechnung der durchschnittlichen RD-Indikatoren

3. Identifizieren des Haupttrends der Serie, Erstellen von Trendmodellen

4. Bewertung der Autokorrelation in RD, Konstruktion autoregressiver Modelle

5. RD-Korrelation (Untersuchung der Zusammenhänge zwischen m/y DR-Reihen)

6. Rollwegvorhersage.

35. Indikatoren für Änderungen der Zeitreihenniveaus .

Im Allgemeinen kann die Serie wie folgt vorgestellt werden:

y – DR-Ebene, t – Zeitpunkt oder Zeitraum, zu dem die Ebene (Indikator) gehört, n – Länge der DR-Serie (Anzahl der Perioden). Bei der Untersuchung einer Reihe von Dynamiken werden folgende Indikatoren berechnet: 1. absolutes Wachstum, 2. Wachstumskoeffizient (Wachstumsrate), 3. Beschleunigung, 4. Wachstumskoeffizient (Wachstumsrate), 5. absoluter Wert von 1 % Wachstum. Die berechneten Indikatoren können sein: 1. Kette – erhalten durch Vergleich jeder Ebene der Reihe mit der unmittelbar vorhergehenden, 2. Basis – erhalten durch Vergleich mit der Ebene, die als Vergleichsbasis ausgewählt wurde (sofern nicht ausdrücklich angegeben, die 1. Ebene der Reihe). zugrunde gelegt wird). 1. Absolute Kettenzuwächse:. Zeigt an, wie viel mehr oder weniger. Absolute Kettenzuwächse werden als Indikatoren für die Änderungsrate der Niveaus einer dynamischen Reihe bezeichnet. Absolutes Basiswachstum: . Wenn es sich bei den Reihenniveaus um relative Indikatoren handelt, die in % ausgedrückt werden, wird der absolute Anstieg in Änderungspunkten ausgedrückt. 2. Wachstumsrate (Wachstumsrate): Sie wird als Verhältnis der Niveaus der Reihe zu den unmittelbar vorhergehenden (Kettenwachstumskoeffizienten) oder zum als Vergleichsniveau herangezogenen Niveau (Basiswachstumskoeffizienten) berechnet: . Gibt an, wie oft jede Ebene der Serie > oder< предшествующего или базисного. На основе коэффициентов роста рассчитываются темпы роста. Это коэффициенты роста, выраженные в %ах: 3. Basierend auf absoluten Steigerungen wird der Indikator berechnet - Beschleunigung des absoluten Wachstums: . Beschleunigung ist ein absoluter Anstieg absoluter Anstiege. Bewertet, wie sich die Gewinne selbst ändern, ob sie stabil sind oder sich beschleunigen (zunehmen). 4. Wachstumsrate ist das Verhältnis des Wachstums zur Vergleichsbasis. Ausgedrückt %: ; . Die Wachstumsrate ist die Wachstumsrate minus 100 %. Zeigt an, wie viel Prozent des angegebenen Niveaus der Reihe > oder beträgt< предшествующего либо базисного. 5. абсолютное значение 1% прироста. Рассчитывается как отношение абсолютного прироста к темпу прироста, т.е.: - сотая доля предыдущего уровня. Все эти показатели рассчитываются для оценки степени изменения уровней ряда. Цепные коэффициенты и темпы роста называются показателями интенсивности изменения уровней ДРядов.

2. Berechnung der durchschnittlichen RD-Indikatoren Es werden durchschnittliche Zeilenhöhen, durchschnittliche absolute Zuwächse, durchschnittliche Wachstumsraten und durchschnittliche Wachstumsraten berechnet. Durchschnittsindikatoren werden mit dem Ziel berechnet, Informationen zusammenzufassen und einen Vergleich der Niveaus und Indikatoren ihrer Veränderung über verschiedene Zeitreihen hinweg zu ermöglichen. 1. mittlere Reihenebene a) für Intervallzeitreihen wird mithilfe des einfachen arithmetischen Mittels berechnet: , wobei n die Anzahl der Ebenen in der Zeitreihe ist; b) Für Momentenreihen wird der Durchschnittswert anhand einer bestimmten Formel berechnet, die als chronologischer Durchschnitt bezeichnet wird: . 2. durchschnittlicher absoluter Anstieg berechnet auf der Grundlage absoluter Kettenzuwächse basierend auf dem einfachen arithmetischen Durchschnitt:

. 3. Durchschnittliche Wachstumsrate berechnet auf der Grundlage von Kettenwachstumskoeffizienten unter Verwendung der geometrischen Mittelformel: . Bei der Kommentierung der Durchschnittsindikatoren der DR-Reihe müssen zwei Punkte angegeben werden: der Zeitraum, der den analysierten Indikator charakterisiert, und das Zeitintervall, für das die DR-Reihe erstellt wurde. 4. Durchschnittliche Wachstumsrate: . 5. durchschnittliche Wachstumsrate: .