Beispiel für eine multiple Regression mit Lösung. Ein Beispiel für die Lösung eines multiplen Regressionsproblems mit Python. Nutzung der Funktionen des Excel-Tabellenkalkulationsprozessors

Das Ziel der multiplen linearen Regression besteht darin, ein lineares Modell der Beziehung zwischen einer Reihe kontinuierlicher Prädiktoren und einer kontinuierlichen abhängigen Variablen zu erstellen. Die folgende Regressionsgleichung wird häufig verwendet:

Hier und ich- Regressionskoeffizienten, b 0- kostenloses Mitglied (falls genutzt), e- ein Term, der einen Fehler enthält - darüber werden verschiedene Annahmen getroffen, die jedoch häufiger auf die Normalität der Verteilung mit einer Nullvektormatte hinauslaufen. Erwartungen und Korrelationsmatrix.

Dieses lineare Modell beschreibt gut viele Probleme in verschiedenen Fachgebieten, beispielsweise Wirtschaft, Industrie, Medizin. Dies liegt daran, dass einige Probleme linearer Natur sind.

Lassen Sie uns ein einfaches Beispiel geben. Angenommen, Sie müssen die Kosten für den Bau einer Straße anhand der bekannten Parameter vorhersagen. Gleichzeitig verfügen wir über Daten zu bereits verlegten Straßen mit Angabe der Länge, der Tiefe des Belags, der Menge des Arbeitsmaterials, der Anzahl der Arbeiter usw.

Es ist klar, dass die Kosten der Straße letztendlich der Summe der Kosten aller dieser Faktoren einzeln entsprechen werden. Sie benötigen beispielsweise eine bestimmte Menge Schotter mit bekannten Kosten pro Tonne und eine bestimmte Menge Asphalt, ebenfalls mit bekannten Kosten.

Für die Installation kann es erforderlich sein, Wälder abzuholzen, was ebenfalls zu zusätzlichen Kosten führt. All dies zusammen ergibt die Kosten für den Bau der Straße.

In diesem Fall umfasst das Modell ein kostenloses Mitglied, das beispielsweise für den organisatorischen Aufwand (der für alle Bau- und Installationsarbeiten einer bestimmten Ebene ungefähr gleich hoch ist) oder für Steuerabzüge verantwortlich ist.

Der Fehler umfasst Faktoren, die wir beim Bau des Modells nicht berücksichtigt haben (z. B. Wetter während des Baus – eine Berücksichtigung ist im Allgemeinen nicht möglich).

Beispiel: Multiple Regressionsanalyse

Für dieses Beispiel werden mehrere mögliche Korrelationen der Armutsquote analysiert und der Grad analysiert, der den Prozentsatz der Familien unterhalb der Armutsgrenze vorhersagt. Daher betrachten wir die Variable, die den Prozentsatz der Familien unterhalb der Armutsgrenze charakterisiert, als abhängige Variable und die übrigen Variablen als kontinuierliche Prädiktoren.

Regressionskoeffizienten

Um herauszufinden, welche der unabhängigen Variablen mehr zur Vorhersage von Armut beiträgt, untersuchen wir die standardisierten Koeffizienten (oder Betas) der Regression.

Reis. 1. Schätzungen der Parameter der Regressionskoeffizienten.

Beta-Koeffizienten sind die Koeffizienten, die Sie erhalten würden, wenn Sie alle Variablen auf einen Mittelwert von 0 und eine Standardabweichung von 1 normalisieren würden. Daher ermöglicht Ihnen die Größe dieser Beta-Koeffizienten, den relativen Beitrag jeder unabhängigen Variablen mit der abhängigen Variablen zu vergleichen. Wie aus der oben dargestellten Tabelle hervorgeht, sind die Variablen Bevölkerungsveränderung seit 1960 (POP_CHING), Prozentsatz der in ländlichen Gebieten lebenden Bevölkerung (PT_RURAL) und Anzahl der in der Landwirtschaft Beschäftigten (N_Empld) die wichtigsten Prädiktoren für Armut Ebenen, weil nur sie sind statistisch signifikant (ihr 95 %-Konfidenzintervall umfasst nicht 0). Der Regressionskoeffizient der Bevölkerungsveränderung seit 1960 (Pop_Chng) ist negativ. Je weniger die Bevölkerung zunimmt, desto mehr Familien leben im entsprechenden Landkreis unterhalb der Armutsgrenze. Der Regressionskoeffizient für die in einem Dorf lebende Bevölkerung (%) (Pt_Rural) ist positiv, d. h. je höher der Anteil der Landbewohner, desto höher die Armutsgrenze.

Bedeutung von Prädiktoreffekten

Schauen wir uns die Tabelle mit den Signifikanzkriterien an.

Reis. 2. Gleichzeitige Ergebnisse für jede gegebene Variable.

Wie diese Tabelle zeigt, sind nur die Auswirkungen von zwei Variablen statistisch signifikant: Bevölkerungsveränderung seit 1960 (Pop_Chng) und Prozentsatz der in einem Dorf lebenden Bevölkerung (Pt_Rural), S< .05.

Rückstandsanalyse. Nach dem Anpassen einer Regressionsgleichung müssen Sie fast immer die vorhergesagten Werte und Residuen überprüfen. Große Ausreißer können beispielsweise die Ergebnisse stark verfälschen und zu falschen Schlussfolgerungen führen.

Zeilenweises Emissionsdiagramm

Normalerweise ist es notwendig, die ursprünglichen oder standardisierten Residuen auf große Ausreißer zu überprüfen.

Reis. 3. Beobachtungszahlen und Residuen.

Der Maßstab der vertikalen Achse dieses Diagramms wird entsprechend dem Sigma-Wert, d. h. der Standardabweichung der Residuen, aufgetragen. Wenn eine oder mehrere Beobachtungen nicht in das ±3-fache Sigma-Intervall fallen, kann es sich lohnen, diese Beobachtungen zu eliminieren (dies kann leicht über Beobachtungsauswahlbedingungen erfolgen) und die Analyse erneut durchzuführen, um sicherzustellen, dass die Ergebnisse dadurch nicht beeinträchtigt werden Ausreißer.

Mahalanobis-Entfernungen

In den meisten Statistiklehrbüchern wird viel Zeit auf Ausreißer und Residuen relativ zur abhängigen Variablen verwendet. Allerdings bleibt die Rolle von Ausreißern bei Prädiktoren oft unerkannt. Auf der Seite der Prädiktorvariablen gibt es eine Liste von Variablen, die mit unterschiedlichen Gewichten (Regressionskoeffizienten) an der Vorhersage der abhängigen Variablen beteiligt sind. Sie können sich unabhängige Variablen als einen mehrdimensionalen Raum vorstellen, in dem jede Beobachtung dargestellt werden kann. Wenn Sie beispielsweise zwei unabhängige Variablen mit gleichen Regressionskoeffizienten hätten, könnten Sie ein Streudiagramm der beiden Variablen zeichnen und jede Beobachtung in diesem Diagramm platzieren. Sie könnten dann den Durchschnittswert in diesem Diagramm markieren und die Abstände jeder Beobachtung zu diesem Durchschnitt (dem sogenannten Schwerpunkt) im zweidimensionalen Raum berechnen. Dies ist der Grundgedanke bei der Berechnung der Mahalanobis-Distanz. Schauen wir uns nun das Histogramm der Bevölkerungsveränderungsvariablen seit 1960 an.

Reis. 4. Histogramm der Mahalanobis-Distanzverteilung.

Aus der Grafik geht hervor, dass es bei den Mahalanobis-Abständen einen Ausreißer gibt.

Reis. 5. Beobachtete, vorhergesagte und Restwerte.

Beachten Sie, dass Shelby County (in der ersten Reihe) sich vom Rest der Countys abhebt. Schaut man sich die Rohdaten an, stellt man fest, dass Shelby County tatsächlich die höchste Zahl an Beschäftigten in der Landwirtschaft hat (Variable N_Empld). Es könnte sinnvoll sein, es als Prozentsatz und nicht als absolute Zahl auszudrücken. In diesem Fall wäre die Mahalanobis-Entfernung im Shelby County im Vergleich zu anderen Landkreisen wahrscheinlich nicht so groß. Offensichtlich ist Shelby County ein Ausreißer.

Reste entfernt

Eine weitere sehr wichtige Kennzahl, die hilft, die Schwere eines Emissionsproblems einzuschätzen, sind die entfernten Rückstände. Dies sind die standardisierten Residuen für die entsprechenden Beobachtungen, die erhalten werden, wenn diese Beobachtung aus der Analyse entfernt wird. Denken Sie daran, dass das Verfahren der multiplen Regression die Regressionsoberfläche anpasst, um die Beziehung zwischen der abhängigen Variablen und der Prädiktorvariablen anzuzeigen. Wenn eine Beobachtung ein Ausreißer ist (wie Shelby County), besteht die Tendenz, dass sich die Regressionsoberfläche in Richtung dieses Ausreißers „zieht“. Wenn daher die entsprechende Beobachtung entfernt wird, erhält man eine andere Oberfläche (und andere Beta-Koeffizienten). Wenn sich die entfernten Residuen daher stark von den standardisierten Residuen unterscheiden, haben Sie Grund zu der Annahme, dass die Regressionsanalyse durch die entsprechende Beobachtung stark verzerrt ist. In diesem Beispiel zeigen die entfernten Residuen für Shelby County, dass es sich um einen Ausreißer handelt, was die Analyse erheblich verzerrt. Das Streudiagramm zeigt deutlich einen Ausreißer.

Reis. 6. Ursprüngliche Residuen und gelöschte Residuen einer Variablen, die den Prozentsatz der Familien angibt, die unter dem Existenzminimum leben.

Die meisten von ihnen haben mehr oder weniger klare Interpretationen. Wenden wir uns jedoch den normalen Wahrscheinlichkeitsgraphen zu.

Wie bereits erwähnt geht die multiple Regression davon aus, dass zwischen den Variablen in der Gleichung ein linearer Zusammenhang besteht und die Residuen normalverteilt sind. Wenn diese Annahmen verletzt werden, kann die Schlussfolgerung ungenau sein. Ein normales Wahrscheinlichkeitsdiagramm der Residuen gibt Aufschluss darüber, ob schwerwiegende Verstöße gegen diese Annahmen vorliegen oder nicht.

Reis. 7. Normalwahrscheinlichkeitsdiagramm; Anfangssalden.

Dieses Diagramm wurde wie folgt erstellt. Zunächst werden die standardisierten Residuen der Reihe nach geordnet. Aus diesen Rängen können Z-Scores (d. h. Standardwerte einer Normalverteilung) berechnet werden, basierend auf der Annahme, dass die Daten einer Normalverteilung folgen. Diese Z-Werte werden auf der Y-Achse des Diagramms aufgetragen.

Wenn die beobachteten Residuen (auf der x-Achse aufgetragen) normalverteilt wären, würden alle Werte auf einer geraden Linie im Diagramm liegen. In unserem Diagramm liegen alle Punkte sehr nahe an der Kurve. Wenn die Residuen nicht normalverteilt sind, weichen sie von dieser Linie ab. Auch in dieser Grafik machen sich Ausreißer bemerkbar.

Wenn ein Anpassungsverlust vorliegt und die Daten eine klare Kurve (z. B. eine S-Form) um die Linie zu bilden scheinen, kann die abhängige Variable auf irgendeine Weise transformiert werden (z. B. eine logarithmische Transformation, um das Ende davon zu „verkleinern“) die Verteilung usw.). Eine Diskussion dieser Methode würde den Rahmen dieses Beispiels sprengen (Neter, Wasserman und Kutner, 1985, S. 134–141, präsentieren eine Diskussion von Transformationen, die Nichtnormalität und Nichtlinearität in den Daten beseitigen). Allerdings führen Forscher die Analysen sehr oft einfach direkt durch, ohne die zugrunde liegenden Annahmen zu testen, was zu falschen Schlussfolgerungen führt.

In früheren Beiträgen konzentrierte sich die Analyse häufig auf eine einzelne numerische Variable, beispielsweise die Rendite von Investmentfonds, die Ladezeiten von Webseiten oder den Konsum von Erfrischungsgetränken. In dieser und den folgenden Anmerkungen werden wir uns mit Methoden zur Vorhersage der Werte einer numerischen Variablen in Abhängigkeit von den Werten einer oder mehrerer anderer numerischer Variablen befassen.

Das Material wird anhand eines Querschnittsbeispiels veranschaulicht. Prognose des Umsatzvolumens in einem Bekleidungsgeschäft. Die Discount-Bekleidungskette Sunflowers expandiert seit 25 Jahren kontinuierlich. Allerdings verfügt das Unternehmen derzeit nicht über einen systematischen Ansatz bei der Auswahl neuer Filialen. Der Standort, an dem ein Unternehmen eine neue Filiale eröffnen möchte, wird anhand subjektiver Überlegungen bestimmt. Auswahlkriterien sind günstige Mietkonditionen oder die Vorstellung des Managers vom idealen Ladenstandort. Stellen Sie sich vor, Sie wären Leiter der Abteilung Sonderprojekte und Planung. Sie wurden damit beauftragt, einen strategischen Plan für die Eröffnung neuer Geschäfte zu entwickeln. Dieser Plan sollte eine Prognose des Jahresumsatzes für neu eröffnete Geschäfte enthalten. Sie glauben, dass die Verkaufsfläche in direktem Zusammenhang mit dem Umsatz steht, und möchten dies in Ihren Entscheidungsprozess einbeziehen. Wie entwickelt man ein statistisches Modell, um den Jahresumsatz basierend auf der Größe eines neuen Geschäfts vorherzusagen?

Normalerweise wird die Regressionsanalyse verwendet, um die Werte einer Variablen vorherzusagen. Sein Ziel ist es, ein statistisches Modell zu entwickeln, das die Werte einer abhängigen Variablen oder Antwort aus den Werten mindestens einer unabhängigen oder erklärenden Variablen vorhersagen kann. In diesem Hinweis betrachten wir die einfache lineare Regression – eine statistische Methode, mit der Sie die Werte einer abhängigen Variablen vorhersagen können Y durch unabhängige Variablenwerte X. In den folgenden Anmerkungen wird ein multiples Regressionsmodell beschrieben, mit dem die Werte einer unabhängigen Variablen vorhergesagt werden sollen Y basierend auf den Werten mehrerer abhängiger Variablen ( X 1, X 2, …, X k).

Laden Sie die Notiz im oder Format herunter, Beispiele im Format

Arten von Regressionsmodellen

Wo ρ 1 – Autokorrelationskoeffizient; Wenn ρ 1 = 0 (keine Autokorrelation), D≈ 2; Wenn ρ 1 ≈ 1 (positive Autokorrelation), D≈ 0; Wenn ρ 1 = -1 (negative Autokorrelation), D ≈ 4.

In der Praxis basiert die Anwendung des Durbin-Watson-Kriteriums auf dem Vergleich der Werte D mit kritischen theoretischen Werten dL Und du für eine gegebene Anzahl von Beobachtungen N, Anzahl der unabhängigen Variablen des Modells k(für einfache lineare Regression k= 1) und Signifikanzniveau α. Wenn D< d L , wird die Hypothese über die Unabhängigkeit zufälliger Abweichungen abgelehnt (daher liegt eine positive Autokorrelation vor); Wenn D>dU, die Hypothese wird nicht abgelehnt (d. h. es gibt keine Autokorrelation); Wenn dL< D < d U Es liegen keine ausreichenden Entscheidungsgründe vor. Wenn der berechnete Wert D 2 überschreitet, dann mit dL Und du Es wird nicht der Koeffizient selbst verglichen D, und der Ausdruck (4 – D).

Um die Durbin-Watson-Statistik in Excel zu berechnen, wenden wir uns der unteren Tabelle in Abb. zu. 14 Auszahlung des Guthabens. Der Zähler in Ausdruck (10) wird mit der Funktion =SUMMAR(array1;array2) und der Nenner =SUMMAR(array) berechnet (Abb. 16).

Reis. 16. Formeln zur Berechnung der Durbin-Watson-Statistik

In unserem Beispiel D= 0,883. Die Hauptfrage lautet: Welcher Wert der Durbin-Watson-Statistik sollte als klein genug angesehen werden, um den Schluss zu ziehen, dass eine positive Autokorrelation vorliegt? Es ist notwendig, den Wert von D mit den kritischen Werten zu korrelieren ( dL Und du), abhängig von der Anzahl der Beobachtungen N und Signifikanzniveau α (Abb. 17).

Reis. 17. Kritische Werte der Durbin-Watson-Statistik (Tabellenfragment)

Somit gibt es im Problem des Verkaufsvolumens in einem Geschäft, das Waren nach Hause liefert, eine unabhängige Variable ( k= 1), 15 Beobachtungen ( N= 15) und Signifikanzniveau α = 0,05. Somit, dL= 1,08 und DU= 1,36. Weil das D = 0,883 < dL= 1,08, es besteht eine positive Autokorrelation zwischen den Residuen, die Methode der kleinsten Quadrate kann nicht verwendet werden.

Testen von Hypothesen über Steigung und Korrelationskoeffizient

Oben wurde die Regression ausschließlich zur Prognose verwendet. Um Regressionskoeffizienten zu bestimmen und den Wert einer Variablen vorherzusagen Y für einen gegebenen Variablenwert X Es wurde die Methode der kleinsten Quadrate verwendet. Darüber hinaus haben wir den quadratischen Mittelfehler der Schätzung und den gemischten Korrelationskoeffizienten untersucht. Wenn die Analyse der Residuen bestätigt, dass die Bedingungen für die Anwendbarkeit der Methode der kleinsten Quadrate nicht verletzt werden und das einfache lineare Regressionsmodell auf der Grundlage der Stichprobendaten angemessen ist, kann argumentiert werden, dass zwischen den Variablen in den Residuen eine lineare Beziehung besteht Bevölkerung.

AnwendungT -Kriterien für die Steigung. Indem Sie testen, ob die Grundgesamtheitssteigung β 1 gleich Null ist, können Sie feststellen, ob eine statistisch signifikante Beziehung zwischen den Variablen besteht X Und Y. Wenn diese Hypothese abgelehnt wird, kann argumentiert werden, dass zwischen den Variablen X Und Y es besteht ein linearer Zusammenhang. Die Null- und Alternativhypothese werden wie folgt formuliert: H 0: β 1 = 0 (es besteht keine lineare Abhängigkeit), H1: β 1 ≠ 0 (es besteht eine lineare Abhängigkeit). A-Priorat T-statistic ist gleich der Differenz zwischen der Stichprobensteigung und dem hypothetischen Wert der Populationssteigung, dividiert durch den quadratischen Mittelfehler der Steigungsschätzung:

(11) T = (B 1 β 1 ) / Sb 1

Wo B 1 – Steigung der direkten Regression auf Stichprobendaten, β1 – hypothetische Steigung der direkten Grundgesamtheit, und Teststatistiken T Es hat T-Verteilung mit n – 2 Freiheitsgrade.

Prüfen wir, ob bei α = 0,05 ein statistisch signifikanter Zusammenhang zwischen Ladengröße und Jahresumsatz besteht. T-Das Kriterium wird bei Verwendung zusammen mit anderen Parametern angezeigt Analysepaket(Möglichkeit Rückschritt). Die vollständigen Ergebnisse des Analysepakets sind in Abb. dargestellt. 4, Fragment zur T-Statistik – in Abb. 18.

Reis. 18. Anwendungsergebnisse T

Da die Anzahl der Geschäfte N= 14 (siehe Abb. 3), kritischer Wert T-Statistiken auf einem Signifikanzniveau von α = 0,05 können mit der Formel ermittelt werden: tL=STUDENT.ARV(0,025,12) = –2,1788, wobei 0,025 die Hälfte des Signifikanzniveaus und 12 = ist N – 2; tu=STUDENT.OBR(0,975,12) = +2,1788.

Weil das T-Statistik = 10,64 > tu= 2,1788 (Abb. 19), Nullhypothese H 0 abgelehnt. Andererseits, R-Wert für X= 10,6411, berechnet nach der Formel =1-STUDENT.DIST(D3,12,TRUE), ist ungefähr gleich Null, so die Hypothese H 0 erneut abgelehnt. Die Tatsache, dass R-Wert von nahezu Null bedeutet, dass es praktisch unmöglich wäre, ihn mithilfe der linearen Regression zu ermitteln, wenn es keinen echten linearen Zusammenhang zwischen Ladengröße und Jahresumsatz gäbe. Daher besteht ein statistisch signifikanter linearer Zusammenhang zwischen dem durchschnittlichen jährlichen Ladenumsatz und der Ladengröße.

Reis. 19. Testen der Hypothese über die Bevölkerungssteigung bei einem Signifikanzniveau von 0,05 und 12 Freiheitsgraden

AnwendungF -Kriterien für die Steigung. Ein alternativer Ansatz zum Testen von Hypothesen über die Steigung einer einfachen linearen Regression ist die Verwendung F-Kriterien. Wir möchten Sie daran erinnern F-test wird verwendet, um die Beziehung zwischen zwei Varianzen zu testen (weitere Einzelheiten finden Sie unter). Beim Testen der Steigungshypothese ist das Maß für zufällige Fehler die Fehlervarianz (die Summe der quadratischen Fehler dividiert durch die Anzahl der Freiheitsgrade). F-Kriterium verwendet das Verhältnis der durch die Regression erklärten Varianz (d. h. den Wert). SSR, dividiert durch die Anzahl der unabhängigen Variablen k), zur Fehlervarianz ( MSE = S YX 2 ).

A-Priorat F-statistic ist gleich dem mittleren Quadrat der Regression (MSR) dividiert durch die Fehlervarianz (MSE): F = MSR/ MSE, Wo MSR=SSR / k, MSE =SSE/(N– k – 1), k– Anzahl unabhängiger Variablen im Regressionsmodell. Teststatistiken F Es hat F-Verteilung mit k Und N– k – 1 Freiheitsgrade.

Für ein gegebenes Signifikanzniveau α wird die Entscheidungsregel wie folgt formuliert: if F>FU, die Nullhypothese wird abgelehnt; andernfalls wird es nicht abgelehnt. Die Ergebnisse, dargestellt in Form einer Übersichtstabelle der Varianzanalyse, sind in Abb. dargestellt. 20.

Reis. 20. Varianzanalysetabelle zum Testen der Hypothese über die statistische Signifikanz des Regressionskoeffizienten

Ebenfalls T-Kriterium F-Das Kriterium wird bei Verwendung in der Tabelle angezeigt Analysepaket(Möglichkeit Rückschritt). Vollständige Ergebnisse der Arbeit Analysepaket sind in Abb. dargestellt. 4, Fragment bezogen auf F-Statistik – in Abb. 21.

Reis. 21. Anwendungsergebnisse F-Kriterien, die mit dem Excel-Analysepaket erhalten wurden

Die F-Statistik beträgt 113,23 und R-Wert nahe Null (Zelle BedeutungF). Wenn das Signifikanzniveau α 0,05 beträgt, bestimmen Sie den kritischen Wert F-Verteilungen mit einem und 12 Freiheitsgraden können mit der Formel ermittelt werden F U=F.OBR(1-0,05;1;12) = 4,7472 (Abb. 22). Weil das F = 113,23 > F U= 4,7472 und R-Wert nahe 0< 0,05, нулевая гипотеза H 0 wird abgelehnt, d.h. Die Größe eines Ladens hängt eng mit seinem Jahresumsatz zusammen.

Reis. 22. Testen der Populationssteigungshypothese bei einem Signifikanzniveau von 0,05 mit einem und 12 Freiheitsgraden

Konfidenzintervall mit Steigung β 1 . Um die Hypothese zu testen, dass zwischen Variablen eine lineare Beziehung besteht, können Sie ein Konfidenzintervall erstellen, das die Steigung β 1 enthält, und überprüfen, ob der hypothetische Wert β 1 = 0 zu diesem Intervall gehört. Die Mitte des Konfidenzintervalls, das die Steigung β 1 enthält, ist die Stichprobensteigung B 1 , und seine Grenzen sind die Mengen b 1 ±tn –2 Sb 1

Wie in Abb. 18, B 1 = +1,670, N = 14, Sb 1 = 0,157. T 12 =STUDENT.ARV(0,975,12) = 2,1788. Somit, b 1 ±tn –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 oder + 1,328 ≤ β 1 ≤ +2,012. Somit besteht eine Wahrscheinlichkeit von 0,95, dass die Bevölkerungssteigung zwischen +1,328 und +2,012 liegt (d. h. 1.328.000 $ bis 2.012.000 $). Da diese Werte größer als Null sind, besteht ein statistisch signifikanter linearer Zusammenhang zwischen Jahresumsatz und Ladenfläche. Wenn das Konfidenzintervall Null enthalten würde, gäbe es keine Beziehung zwischen den Variablen. Darüber hinaus bedeutet das Konfidenzintervall, dass jede Vergrößerung der Ladenfläche um 1.000 Quadratmeter erfolgt. ft. führt zu einer Steigerung des durchschnittlichen Verkaufsvolumens zwischen 1.328.000 und 2.012.000 US-Dollar.

VerwendungT -Kriterien für den Korrelationskoeffizienten. Korrelationskoeffizient eingeführt R, ein Maß für die Beziehung zwischen zwei numerischen Variablen. Damit lässt sich feststellen, ob zwischen zwei Variablen ein statistisch signifikanter Zusammenhang besteht. Bezeichnen wir den Korrelationskoeffizienten zwischen den Populationen beider Variablen mit dem Symbol ρ. Die Null- und Alternativhypothese werden wie folgt formuliert: H 0: ρ = 0 (keine Korrelation), H 1: ρ ≠ 0 (es besteht ein Zusammenhang). Prüfung des Vorliegens einer Korrelation:

Wo R = + , Wenn B 1 > 0, R = – , Wenn B 1 < 0. Тестовая статистика T Es hat T-Verteilung mit n – 2 Freiheitsgrade.

Im Problem mit der Sunflowers-Ladenkette r 2= 0,904, a b 1- +1,670 (siehe Abb. 4). Weil das b 1> 0, der Korrelationskoeffizient zwischen Jahresumsatz und Ladengröße beträgt R= +√0,904 = +0,951. Testen wir die Nullhypothese, dass zwischen diesen Variablen keine Korrelation besteht T-Statistiken:

Bei einem Signifikanzniveau von α = 0,05 sollte die Nullhypothese verworfen werden, weil T= 10,64 > 2,1788. Somit kann argumentiert werden, dass ein statistisch signifikanter Zusammenhang zwischen dem Jahresumsatz und der Ladengröße besteht.

Bei der Erörterung von Schlussfolgerungen bezüglich der Bevölkerungssteigung werden Konfidenzintervalle und Hypothesentests synonym verwendet. Allerdings erweist sich die Berechnung des Konfidenzintervalls, das den Korrelationskoeffizienten enthält, aufgrund der Art der Stichprobenverteilung der Statistik als schwieriger R hängt vom wahren Korrelationskoeffizienten ab.

Schätzung der mathematischen Erwartung und Vorhersage einzelner Werte

In diesem Abschnitt werden Methoden zur Schätzung der mathematischen Erwartung einer Antwort erläutert Y und Vorhersagen einzelner Werte Y für gegebene Werte der Variablen X.

Erstellen eines Konfidenzintervalls. In Beispiel 2 (siehe Abschnitt oben Methode der kleinsten Quadrate) Die Regressionsgleichung ermöglichte es, den Wert der Variablen vorherzusagen Y X. Bei der Standortwahl für eine Einzelhandelsfiliale wird der durchschnittliche Jahresumsatz in einem Geschäft mit einer Fläche von 4000 qm ermittelt. Fuß entsprach 7,644 Millionen Dollar. Diese Schätzung der mathematischen Erwartung der allgemeinen Bevölkerung ist jedoch stichhaltig. Um die mathematischen Erwartungen der Bevölkerung abzuschätzen, wurde das Konzept eines Konfidenzintervalls vorgeschlagen. Ebenso können wir das Konzept vorstellen Konfidenzintervall für die mathematische Erwartung der Antwort für einen gegebenen Variablenwert X:

Wo , = B 0 + B 1 X i– Der vorhergesagte Wert ist variabel Y bei X = X i, S YX– quadratischer Mittelwertfehler, N– Stichprobengröße, Xich- spezifizierter Wert der Variablen X, µ Y|X = Xich– mathematische Erwartung der Variablen Y bei X = X i, SSX =

Die Analyse der Formel (13) zeigt, dass die Breite des Konfidenzintervalls von mehreren Faktoren abhängt. Bei einem gegebenen Signifikanzniveau führt eine Zunahme der Amplitude der Schwankungen um die Regressionslinie, gemessen anhand des quadratischen Mittelfehlers, zu einer Zunahme der Breite des Intervalls. Andererseits geht erwartungsgemäß mit einer Vergrößerung der Stichprobengröße eine Verengung des Intervalls einher. Darüber hinaus ändert sich die Breite des Intervalls je nach Wert Xich. Wenn der Variablenwert Y für Mengen vorhergesagt X, nahe am Durchschnittswert , fällt das Konfidenzintervall enger aus als bei der Vorhersage der Antwort für Werte, die weit vom Durchschnitt entfernt sind.

Nehmen wir an, wir möchten bei der Auswahl eines Ladenstandorts ein 95 %-Konfidenzintervall für den durchschnittlichen Jahresumsatz aller Geschäfte mit einer Fläche von 4000 Quadratmetern erstellen. Füße:

Daher beträgt das durchschnittliche Jahresumsatzvolumen in allen Filialen mit einer Fläche von 4.000 qm. Fuß liegt mit einer Wahrscheinlichkeit von 95 % im Bereich von 6,971 bis 8,317 Millionen Dollar.

Berechnen Sie das Konfidenzintervall für den vorhergesagten Wert. Zusätzlich zum Konfidenzintervall für die mathematische Erwartung der Antwort für einen bestimmten Wert der Variablen X, ist es oft notwendig, das Konfidenzintervall für den vorhergesagten Wert zu kennen. Obwohl die Formel zur Berechnung eines solchen Konfidenzintervalls der Formel (13) sehr ähnlich ist, enthält dieses Intervall den vorhergesagten Wert und nicht die Parameterschätzung. Intervall für die vorhergesagte Reaktion YX = Xi für einen bestimmten Variablenwert Xich bestimmt durch die Formel:

Angenommen, wir möchten bei der Auswahl eines Standorts für eine Einzelhandelsfiliale ein 95 %-Konfidenzintervall für den prognostizierten Jahresumsatz eines Geschäfts mit einer Fläche von 4000 Quadratmetern erstellen. Füße:

Daher beträgt das prognostizierte jährliche Verkaufsvolumen für ein Geschäft mit einer Fläche von 4000 qm. Fuß liegt mit einer Wahrscheinlichkeit von 95 % im Bereich von 5,433 bis 9,854 Millionen Dollar. Wie wir sehen können, ist das Konfidenzintervall für den vorhergesagten Antwortwert viel breiter als das Konfidenzintervall für seinen mathematischen Erwartungswert. Dies liegt daran, dass die Variabilität bei der Vorhersage einzelner Werte viel größer ist als bei der Schätzung der mathematischen Erwartung.

Fallstricke und ethische Probleme im Zusammenhang mit der Verwendung von Regression

Schwierigkeiten im Zusammenhang mit der Regressionsanalyse:

  • Ignorieren der Anwendbarkeitsbedingungen der Methode der kleinsten Quadrate.
  • Fehlerhafte Beurteilung der Voraussetzungen für die Anwendbarkeit der Methode der kleinsten Quadrate.
  • Falsche Wahl alternativer Methoden, wenn die Anwendbarkeitsbedingungen der Methode der kleinsten Quadrate verletzt werden.
  • Anwendung der Regressionsanalyse ohne tiefe Kenntnisse des Forschungsgegenstandes.
  • Extrapolieren einer Regression über den Bereich der erklärenden Variablen hinaus.
  • Verwirrung zwischen statistischen und kausalen Zusammenhängen.

Durch den weit verbreiteten Einsatz von Tabellenkalkulationen und Statistiksoftware wurden die Rechenprobleme beseitigt, die den Einsatz der Regressionsanalyse behindert hatten. Dies führte jedoch dazu, dass die Regressionsanalyse von Anwendern genutzt wurde, die nicht über ausreichende Qualifikationen und Kenntnisse verfügten. Wie können Benutzer alternative Methoden kennen, wenn viele von ihnen überhaupt keine Ahnung von den Anwendbarkeitsbedingungen der Methode der kleinsten Quadrate haben und nicht wissen, wie sie ihre Implementierung überprüfen können?

Der Forscher sollte sich nicht mit der Berechnung von Zahlen – der Berechnung der Verschiebung, der Steigung und des gemischten Korrelationskoeffizienten – hinreißen lassen. Er braucht tieferes Wissen. Lassen Sie uns dies anhand eines klassischen Beispiels aus Lehrbüchern veranschaulichen. Anscombe zeigte, dass alle vier in Abb. 23, haben die gleichen Regressionsparameter (Abb. 24).

Reis. 23. Vier künstliche Datensätze

Reis. 24. Regressionsanalyse von vier künstlichen Datensätzen; Fertig mit Analysepaket(Klicken Sie auf das Bild, um das Bild zu vergrößern)

Aus Sicht der Regressionsanalyse sind also alle diese Datensätze völlig identisch. Wenn die Analyse dort enden würde, würden wir viele nützliche Informationen verlieren. Dies wird durch die für diese Datensätze erstellten Streudiagramme (Abbildung 25) und Residuendiagramme (Abbildung 26) belegt.

Reis. 25. Streudiagramme für vier Datensätze

Streudiagramme und Residuendiagramme weisen darauf hin, dass diese Daten voneinander abweichen. Die einzige Menge, die entlang einer geraden Linie verteilt ist, ist Menge A. Die Darstellung der aus Menge A berechneten Residuen weist kein Muster auf. Für die Mengen B, C und D lässt sich das nicht sagen. Das für die Menge B erstellte Streudiagramm zeigt ein ausgeprägtes quadratisches Muster. Diese Schlussfolgerung wird durch das Residuendiagramm bestätigt, das eine parabolische Form hat. Das Streudiagramm und das Residuendiagramm zeigen, dass Datensatz B einen Ausreißer enthält. In dieser Situation ist es notwendig, den Ausreißer aus dem Datensatz auszuschließen und die Analyse zu wiederholen. Eine Methode zum Erkennen und Eliminieren von Ausreißern in Beobachtungen wird als Einflussanalyse bezeichnet. Nach Eliminierung des Ausreißers kann das Ergebnis einer Neuschätzung des Modells völlig anders ausfallen. Das aus Daten aus Satz G erstellte Streudiagramm veranschaulicht eine ungewöhnliche Situation, in der das empirische Modell erheblich von einer individuellen Reaktion abhängt ( X 8 = 19, Y 8 = 12,5). Solche Regressionsmodelle müssen besonders sorgfältig berechnet werden. Daher sind Streu- und Residuendiagramme ein wesentliches Werkzeug für die Regressionsanalyse und sollten ein integraler Bestandteil davon sein. Ohne sie ist die Regressionsanalyse nicht glaubwürdig.

Reis. 26. Residuendiagramme für vier Datensätze

So vermeiden Sie Fallstricke bei der Regressionsanalyse:

  • Analyse möglicher Beziehungen zwischen Variablen X Und Y Beginnen Sie immer mit dem Zeichnen eines Streudiagramms.
  • Bevor Sie die Ergebnisse der Regressionsanalyse interpretieren, prüfen Sie die Bedingungen für deren Anwendbarkeit.
  • Zeichnen Sie die Residuen gegen die unabhängige Variable auf. Dadurch wird es möglich, festzustellen, wie gut das empirische Modell mit den Beobachtungsergebnissen übereinstimmt, und eine Verletzung der Varianzkonstanz zu erkennen.
  • Verwenden Sie Histogramme, Stamm-Blatt-Diagramme, Boxplots und Normalverteilungsdiagramme, um die Annahme einer normalen Fehlerverteilung zu testen.
  • Wenn die Bedingungen für die Anwendbarkeit der Methode der kleinsten Quadrate nicht erfüllt sind, verwenden Sie alternative Methoden (z. B. quadratische oder multiple Regressionsmodelle).
  • Wenn die Bedingungen für die Anwendbarkeit der Methode der kleinsten Quadrate erfüllt sind, ist es notwendig, die Hypothese über die statistische Signifikanz der Regressionskoeffizienten zu testen und Konfidenzintervalle zu erstellen, die den mathematischen Erwartungswert und den vorhergesagten Antwortwert enthalten.
  • Vermeiden Sie es, Werte der abhängigen Variablen außerhalb des Bereichs der unabhängigen Variablen vorherzusagen.
  • Bedenken Sie, dass statistische Beziehungen nicht immer Ursache-Wirkungs-Beziehungen sind. Denken Sie daran, dass eine Korrelation zwischen Variablen nicht bedeutet, dass zwischen ihnen eine Ursache-Wirkungs-Beziehung besteht.

Zusammenfassung. Wie im Blockdiagramm (Abbildung 27) dargestellt, beschreibt der Hinweis das einfache lineare Regressionsmodell, die Bedingungen für seine Anwendbarkeit und wie diese Bedingungen getestet werden. Berücksichtigt T-Kriterium zum Testen der statistischen Signifikanz der Regressionssteigung. Zur Vorhersage der Werte der abhängigen Variablen wurde ein Regressionsmodell verwendet. Betrachtet wird ein Beispiel im Zusammenhang mit der Standortwahl einer Einzelhandelsfiliale, bei dem die Abhängigkeit des Jahresumsatzes von der Ladenfläche untersucht wird. Mithilfe der erhaltenen Informationen können Sie einen Standort für ein Geschäft genauer auswählen und dessen jährliches Verkaufsvolumen vorhersagen. In den folgenden Anmerkungen wird die Diskussion der Regressionsanalyse fortgesetzt und auch mehrere Regressionsmodelle betrachtet.

Reis. 27. Strukturdiagramm beachten

Es werden Materialien aus dem Buch Levin et al. „Statistics for Managers“ verwendet. – M.: Williams, 2004. – S. 792–872

Wenn die abhängige Variable kategorial ist, muss die logistische Regression verwendet werden.

Der Zweck der multiplen Regression besteht darin, die Beziehung zwischen einer abhängigen und mehreren unabhängigen Variablen zu analysieren.

Beispiel: Für verschiedene PDM-Systeme liegen Angaben zu den Kosten eines Arbeitsplatzes (bei Kauf von 50 Arbeitsplätzen) vor. Erforderlich: Bewerten Sie das Verhältnis zwischen dem Preis einer PDM-System-Workstation und der Anzahl der darin implementierten Merkmale, siehe Tabelle 2.

Tabelle 2 – Eigenschaften von PDM-Systemen

Bestellnummer PDM-System Preis Produktkonfigurationsmanagement Produktmodelle Zusammenarbeit Produktänderungsmanagement Dokumentenfluss Archiv Dokumente durchsuchen Projektplanung Produktherstellungsmanagement
iMAN Ja Ja
PartYPlus Ja Ja
PDM STEP Suite Ja Ja
Suchen Ja Ja
Windchill Ja Ja
Kompass-Manager Ja Ja
T-Flex-Dokumente Ja Ja
TechnoPro Nein Nein

Der numerische Wert der Merkmale (außer „Kosten“, „Produktmodelle“ und „Teamarbeit“) bedeutet die Anzahl der Anforderungen jedes Merkmals, die umgesetzt werden.

Lassen Sie uns eine Tabelle mit den Ausgangsdaten erstellen und ausfüllen (Abbildung 27).

Der Wert „1“ der Variablen „Mod. ed." und „Sammlung“. Bezirk." entspricht dem „Ja“-Wert der Quelldaten und der Wert „0“ dem „Nein“-Wert der Quelldaten.

Erstellen wir eine Regression zwischen der abhängigen Variablen „Kosten“ und den unabhängigen Variablen „Bsp. conf.“, „Mod. Hrsg.“, „Sammeln. r-ta“, „Ex. ändern.“, „Dok.“, „Archive“, „Suchen“, „Plan-e“, „Kontrolle“. gemacht."

Um mit der statistischen Analyse der Quelldaten zu beginnen, rufen Sie das Modul „Multiple Regression“ auf (Abbildung 22).

Geben Sie im angezeigten Dialogfeld (Abbildung 23) die Variablen an, für die eine statistische Analyse durchgeführt werden soll.

Abbildung 27 – Ausgangsdaten

Klicken Sie dazu auf die Schaltfläche „Variablen“ und wählen Sie im angezeigten Dialogfeld (Abbildung 28) im Teil, der den abhängigen Variablen entspricht (Abhängige Variable), „1-Kosten“ und im Teil, der den unabhängigen Variablen entspricht (Liste unabhängiger Variablen), wählen Sie alle anderen Variablen aus. Die Auswahl mehrerer Variablen aus der Liste erfolgt mit den Tasten „Strg“ oder „Umschalt“ oder durch Angabe der Nummern (Nummernbereich) der Variablen im entsprechenden Feld.



Abbildung 28 – Dialogfeld zum Festlegen von Variablen für die statistische Analyse

Nachdem die Variablen ausgewählt wurden, klicken Sie im Dialogfeld zum Festlegen der Parameter des Moduls „Multiple Regression“ auf die Schaltfläche „OK“. Im erscheinenden Fenster mit der Aufschrift „No of indep. Vars. >=(N-1); Korr. kann nicht invertiert werden. Matrix." (Abbildung 29) Drücken Sie die Taste „OK“.

Diese Meldung erscheint, wenn das System keine Regression für alle deklarierten unabhängigen Variablen erstellen kann, weil Die Anzahl der Variablen ist größer oder gleich der Anzahl der Fälle minus 1.

Im erscheinenden Fenster (Abbildung 30) auf der Registerkarte „Erweitert“ können Sie die Methode zur Erstellung der Regressionsgleichung ändern.

Abbildung 29 – Fehlermeldung

Wählen Sie dazu im Feld „Methode“ die Option „Schrittweise vorwärts“ (Schritt für Schritt mit Einbeziehung).

Abbildung 30 – Fenster zum Auswählen einer Methode und zum Festlegen von Parametern zum Erstellen einer Regressionsgleichung

Die Methode der schrittweisen Regression besteht darin, bei jedem Schritt eine unabhängige Variable zum Modell hinzuzufügen oder auszuschließen. Daher werden viele der „wichtigsten“ Variablen hervorgehoben. Dadurch können Sie die Anzahl der Variablen reduzieren, die die Abhängigkeit beschreiben.

Schrittweise Analyse mit Eliminierung („Schrittweise rückwärts“). In diesem Fall werden zunächst alle Variablen in das Modell einbezogen und dann bei jedem Schritt Variablen eliminiert, die nur einen geringen Beitrag zu den Vorhersagen leisten. Als Ergebnis einer erfolgreichen Analyse können dann nur noch „wichtige“ Variablen im Modell erhalten bleiben, also solche Variablen, deren Beitrag zur Diskriminierung größer ist als andere.

Schrittweise Analyse mit Einbeziehung („Schrittweise vorwärts“). Bei Verwendung dieser Methode werden unabhängige Variablen nacheinander in die Regressionsgleichung einbezogen, bis die Gleichung die Originaldaten zufriedenstellend beschreibt. Die Einbeziehung von Variablen wird mithilfe des F-Tests ermittelt. Bei jedem Schritt werden alle Variablen betrachtet und diejenige gefunden, die den größten Beitrag zum Unterschied zwischen den Populationen leistet. Diese Variable muss in diesem Schritt in das Modell aufgenommen werden und mit dem nächsten Schritt fortgefahren werden.

Im Feld „Achsenabschnitt“ (freier Regressionsterm) können Sie wählen, ob Sie ihn in die Gleichung einbeziehen („In Modell einschließen“) oder nicht berücksichtigen und als gleich Null betrachten („Auf Null setzen“).

Der Parameter „Toleranz“ ist die Toleranz von Variablen. Definiert als 1 minus dem Quadrat des multiplen Korrelationskoeffizienten dieser Variablen mit allen anderen unabhängigen Variablen in der Regressionsgleichung. Je geringer also die Toleranz einer Variablen ist, desto redundanter ist ihr Beitrag zur Regressionsgleichung. Wenn die Toleranz einer der Variablen in der Regressionsgleichung gleich oder nahe Null ist, kann die Regressionsgleichung nicht geschätzt werden. Daher empfiehlt es sich, den Toleranzparameter auf 0,05 oder 0,1 einzustellen.

Der Parameter „Ridge-Regression; lambda:“ wird verwendet, wenn die unabhängigen Variablen stark miteinander korrelieren und robuste Schätzungen für die Koeffizienten der Regressionsgleichung nicht mit der Methode der kleinsten Quadrate erhalten werden können. Die angegebene Konstante (Lambda) wird zur Diagonale der Korrelationsmatrix addiert, die dann neu standardisiert wird (so dass alle Diagonalelemente gleich 1,0 sind). Mit anderen Worten: Dieser Parameter reduziert die Korrelationskoeffizienten künstlich, sodass robustere (jedoch voreingenommene) Schätzungen der Regressionsparameter berechnet werden können. In unserem Fall wird dieser Parameter nicht verwendet.

Der Parameter „Stapelverarbeitung/Drucken“ wird verwendet, wenn mehrere Tabellen gleichzeitig für einen Bericht vorbereitet werden müssen, der die Ergebnisse und den Prozess der Regressionsanalyse widerspiegelt. Diese Option ist sehr nützlich, wenn Sie die Ergebnisse einer schrittweisen Regressionsanalyse für jeden Schritt drucken oder analysieren müssen.

Auf der Registerkarte „Schrittweise“ (Abbildung 31) können Sie Parameter für die Bedingungen für den Einschluss („Eingabe von F“) oder den Ausschluss („Entfernung von F“) von Variablen bei der Erstellung einer Regressionsgleichung sowie die Anzahl festlegen Schritte zum Aufbau der Gleichung („Anzahl der Schritte“).

Abbildung 31 – Registerkarte „Schrittweise“ des Fensters zur Auswahl einer Methode und Einstellung von Parametern für die Erstellung einer Regressionsgleichung

F ist die Größe des F-Testwerts.

Wenn es bei der schrittweisen Analyse mit Einbeziehung erforderlich ist, dass alle oder fast alle Variablen in die Regressionsgleichung eingehen, muss der Wert „F to enter“ auf das Minimum (0,0001) und der Wert „F to take“ auf den Minimalwert (0,0001) gesetzt werden Der Wert „“ muss ebenfalls auf das Minimum eingestellt werden.

Wenn es bei der schrittweisen Analyse mit Ausschluss erforderlich ist, alle Variablen (eine nach der anderen) aus der Regressionsgleichung zu entfernen, muss der Wert „F zur Eingabe“ sehr groß eingestellt werden, beispielsweise 999. und stellen Sie den Wert für „F zum Entfernen“ in die Nähe von „F zum Eingeben“ ein.

Es ist zu beachten, dass der Wert des Parameters „F zum Entfernen“ immer kleiner sein sollte als „F zum Eingeben“.

Die Option „Ergebnisse anzeigen“ bietet zwei Optionen:

2) Bei jedem Schritt – Anzeige der Analyseergebnisse bei jedem Schritt.

Nachdem Sie im Fenster zur Auswahl der Regressionsanalysemethoden auf die Schaltfläche „OK“ geklickt haben, erscheint das Fenster mit den Analyseergebnissen (Abbildung 32).

Abbildung 32 – Fenster mit den Analyseergebnissen

Abbildung 33 – Kurze Ergebnisse der Regressionsanalyse

Nach den Ergebnissen der Analyse beträgt das Bestimmtheitsmaß . Das bedeutet, dass die konstruierte Regression 99,987 % der Streuung der Werte relativ zum Durchschnitt erklärt, d.h. erklärt fast die gesamte Variabilität der Variablen.

Ein großer Wert und sein Signifikanzniveau zeigen an, dass die konstruierte Regression hochsignifikant ist.

Um die zusammenfassenden Regressionsergebnisse anzuzeigen, klicken Sie auf die Schaltfläche „Zusammenfassung: Regressionsergebnis“. Auf dem Bildschirm erscheint eine Tabelle mit den Analyseergebnissen (Abbildung 33).

Die dritte Spalte („B“) zeigt Schätzungen der unbekannten Parameter des Modells, d. h. Koeffizienten der Regressionsgleichung.

Somit sieht die gewünschte Regression wie folgt aus:

Eine qualitativ konstruierte Regressionsgleichung kann wie folgt interpretiert werden:

1) Die Kosten eines PDM-Systems steigen mit der Zunahme der Anzahl implementierter Funktionen für Änderungsmanagement, Dokumentenfluss und Planung und auch, wenn das System eine Produktmodell-Unterstützungsfunktion umfasst;

2) Die Kosten eines PDM-Systems sinken mit zunehmender Implementierung von Kound zunehmenden Suchfunktionen.

Nehmen wir an, dass eine durchschnittliche statistische Prognose des Kraftstoffverbrauchs des Fahrzeugs auf der Straße erstellt werden muss. Zu diesem Zweck ist es möglich, den Kraftstoffverbrauch mithilfe einer multiplen Regressionsanalyse (basierend auf der Analyse der Parameter einer großen Anzahl von Fahrzeugen) abzuschätzen Q[l/100 km] unter Verwendung der folgenden Variablen (Parameter):

m 1– Automotorvolumen [cm 3 ];
m 2– Fahrzeuggewicht [kg];
m 3– Antriebsart, bestimmt durch die Anzahl der Antriebsräder;
m 4– Motorleistung [PS].

In diesem Beispiel wird davon ausgegangen, dass zwischen jeder unabhängigen Variablen eine lineare Beziehung besteht ( m 1, m 2, m 3 Und m 4) und abhängige Variable ( Q), also der Kraftstoffverbrauch. Die Quelldaten sind in der Abbildung dargestellt.

Die Einstellungen zur Lösung des Problems sind im Bild des Fensters „Regression“ dargestellt. Die Berechnungsergebnisse werden auf einem separaten Blatt in veröffentlicht Tabelle 6.

Als Ergebnis wurde das folgende mathematische Modell erhalten:

Q = -0,002159246 x 1+ 0,001581937 x 2+ 1.987200675· x 3+ 0,078512695 x 4- 4,428016498

Jetzt können Sie den ungefähren Kraftstoffverbrauch eines Pkw mit Benzinmotor und 4×4-Radanordnung ermitteln, wenn bekannt ist, dass der Pkw-Motor ein Volumen von 2700 cm 3 hat, sein Gewicht 1950 kg beträgt, das Auto hat alles -Radantrieb – 4 Antriebsräder, Motorleistung beträgt 163 PS nach folgender Formel:

Q = -0,002159246 2700 - 0,001581937 1950 + 1.987200675· 4 + 0,078512695 163 - 4,428016498

Nachdem wir diese Gleichung gelöst haben, erhalten wir den Kraftstoffverbrauch dieses Autos: Q = 13,57 l/100 km.

Die wichtigsten Ergebnisse der Regressionsanalyse sind:

· Variablenkoeffizienten und Y-Schnittpunkt, die die erforderlichen Parameter des Modells sind;

mehrfacher Koeffizient R, der die Genauigkeit charakterisiert


Modelle für verfügbare Eingabedaten;

· Fisher-F-Test(im betrachteten Beispiel überschreitet er den kritischen Wert von 3,54868E-09 deutlich);

· t-Statistik– Werte, die den Signifikanzgrad einzelner Koeffizienten des Modells charakterisieren.

Besondere Aufmerksamkeit verdienen die T-Statistiken. Sehr oft ist beim Erstellen eines Regressionsmodells nicht bekannt, ob ein bestimmter Faktor X Y beeinflusst. Das Einbeziehen von Faktoren in das Modell, die den Ausgabewert nicht beeinflussen, verschlechtert die Qualität des Modells. Die Berechnung der T-Statistik hilft dabei, solche Faktoren zu erkennen. Eine ungefähre Schätzung kann wie folgt vorgenommen werden: Wenn für n>>k der Absolutwert der t-Statistik deutlich größer als drei ist, sollte der entsprechende Koeffizient als signifikant angesehen und der Faktor in das Modell einbezogen werden. Andernfalls muss es aus dem Modell ausgeschlossen werden. Daher können wir eine Technologie zur Erstellung eines Regressionsmodells vorschlagen, die aus zwei Phasen besteht:

1) alle verfügbaren Daten mit dem Regressionspaket verarbeiten und die t-Statistikwerte analysieren;

2) Entfernen Sie aus der Quelldatentabelle die Spalten mit den Faktoren, für die die Koeffizienten unbedeutend sind, und verarbeiten Sie die neue Tabelle mit dem Paket „Regression“.

Betrachten Sie beispielsweise die Variable m4. Im Handbuch der mathematischen Statistik beträgt der t-kritische Wert mit (n-k-1) = 15-5-1 = 9 Freiheitsgraden und einem Konfidenzniveau von 0,95 2,26. Da der absolute Wert von t mit 4,17 größer als 2,26 ist, ist die Motorleistung eine wichtige Größe zur Schätzung des Kraftstoffverbrauchs. Alle anderen Variablen können auf ähnliche Weise auf statistische Signifikanz getestet werden. Im Folgenden sind die beobachteten t-Werte für jede der unabhängigen Variablen aufgeführt:

Aus der Tabelle ist ersichtlich, dass die Werte „Motorleistung – m4“ und „Antriebsart – m3“ einen absoluten Wert von mehr als 2,26 haben; daher sind diese in der Regressionsgleichung verwendeten Variablen nützlich, um die Fahrt des Fahrzeugs vorherzusagen Kraftstoffverbrauch. Und Werte wie „Fahrzeugmasse – m 2“ und „Motorvolumen – m 1“ haben einen absoluten Wert von weniger als 2,26. Daher müssen diese in der Regressionsgleichung verwendeten Variablen aus dem Modell ausgeschlossen werden. Dadurch wird die Qualität der Vorhersage des Kraftstoffverbrauchs eines Fahrzeugs verbessert.

Kontrollfragen

1. Was nennt man wissenschaftliche Forschung?

2. Was ist der Gegenstand wissenschaftlicher Forschung? Nenne Beispiele;

3. Was beinhaltet die Struktur des wissenschaftlichen Forschungsgegenstandes;

4. Formulierung der Ziele und Festlegung von Zielen der wissenschaftlichen Forschung. Nenne Beispiele;

5. Welche Arten wissenschaftlicher Forschung kennen Sie? Erklären Sie ihr Wesen, ihre Vor- und Nachteile;

6. Struktur experimenteller wissenschaftlicher Forschung;

7. Welche Methoden umfasst die experimentelle wissenschaftliche Forschung?

8. Erläutern Sie den Zweck und Inhalt der Methodik zur Planung einer experimentellen Studie.

9. Wie man die Stichprobengröße durch Testen statistischer Hypothesen bestimmt;

10. Konstruktions- und Testmöglichkeiten von Ständern mit Lauftrommeln im Prozess der experimentellen Forschung im Straßenverkehr;

11. Konstruktions- und Testmöglichkeiten von Ständen zur Untersuchung der Reifeneigenschaften;

12. Design- und Testmöglichkeiten von Ständen zum Einstellen von Testmodi bei der Untersuchung eines Automotors;

13. Struktur der analytischen wissenschaftlichen Forschung zum Straßenverkehr;

14. Welche Geräte kennen Sie zum Einstellen von Testmodi für Forschungsobjekte im Straßenverkehr?

15. Wie Ursache-Wirkungs-Beziehungen im Strukturdiagramm des Forschungsobjekts hergestellt werden;

16. Wie ein mathematisches Modell des untersuchten Prozesses entwickelt wird;

17. So überprüfen Sie die Angemessenheit und konfigurieren das mathematische Modell;

18. Welche Fragen ermöglicht die Regressionsanalyse im Rahmen der wissenschaftlichen Forschung im Straßenverkehr zu lösen;

19. So erstellen Sie ein multiples Regressionsmodell in der MIKROSOFT EXCEL-Umgebung.

20. Zeichnen Sie ein Diagramm und erläutern Sie das Wesen der Kraftmessung mit der Dehnungsmessstreifenmethode.

21. Zeichnen Sie ein Diagramm und erläutern Sie das Wesentliche der Druckmessung.

22. Zeichnen Sie ein Diagramm und erläutern Sie das Wesentliche bei der Messung von Kraftmomenten mit der Dehnungsmessstreifenmethode.

23. Wie das Kraftmesssystem kalibriert wird;

24. Zeichnen Sie ein Diagramm und erklären Sie die Essenz der Messung von Zeitintervallen mit der digitalen Methode;

25. Zeichnen Sie ein Diagramm und erläutern Sie das Wesentliche bei der Messung der Drehzahl.

26. Zeichnen Sie ein Diagramm und erklären Sie das Wesentliche bei der Messung des Drehwinkels der Welle.

27. Zeichnen Sie ein Diagramm und erläutern Sie das Wesentliche bei der Messung des Drehwinkels der Motorkurbelwelle.

28. Zeichnen Sie ein Diagramm und erläutern Sie das Wesentliche der Temperaturmessung mithilfe des Widerstands eines Wärmewandlers.

29. Zeichnen Sie ein Diagramm und erläutern Sie das Wesentliche der Temperaturmessung mit einem thermoelektrischen Wandler (Thermoelement);

30. Analyse von Temperaturfeldern mit einer Wärmebildkamera;

31. Zeichnen Sie ein Diagramm und erläutern Sie das Wesentliche der stroboskopischen Methode zur Messung des Zündzeitpunkts.

32. Zeichnen Sie ein Diagramm und erklären Sie das Wesentliche der gyroskopischen Methode zur Winkelmessung;

33. Zeichnen Sie ein Diagramm und erläutern Sie die Funktionsweise eines Kraftstoffdurchflussmessers vom Rotationstyp.

34. Zeichnen Sie ein Diagramm und erläutern Sie die Funktionsweise eines volumetrischen Kraftstoffdurchflussmessers.

35. Zeichnen Sie ein Diagramm eines volumetrischen Kraftstoffdurchflussmessers und erläutern Sie das Funktionsprinzip bei der Messung des „Momentan“- und „Fahrt“-Kraftstoffverbrauchs;

36. Wie der Kraftstoffdurchflussmesser kalibriert wird;

37. Definieren Sie das Konzept des „absoluten Messfehlers“. Wie wird es bestimmt;

38. Definieren Sie das Konzept des „relativen Messfehlers“. Wie wird es bestimmt;

39. Messfehler. Wie werden die absoluten und relativen Fehler der Kraftmessung mit der DMS-Methode ermittelt?

40. Welche Geräte zur Visualisierung von Messergebnissen kennen Sie?

41. Wie ein Kathodenstrahloszilloskop funktioniert und wie es funktioniert;

42. So kalibrieren Sie die vertikale Skala eines Kathodenstrahloszilloskops;

43. So kalibrieren Sie die horizontale Skala eines Kathodenstrahloszilloskops;

44. Analog-Digital-Umwandlung. Stellen Sie ein Diagramm des Prozesses bereit und geben Sie eine Erklärung.

45. Erklären Sie die Methode zur Kodierung von Zahlen als Kombination aus Nullen und Einsen. Definieren Sie die Konzepte „logische Null“ und „logische Eins“;

46. ​​​​Wie man ein Histogramm und eine Verteilungskurve einer Zufallsvariablen erstellt;

47. Wie Messergebnisse verarbeitet werden;

48. Wie die Ergebnisse einer experimentellen Studie analysiert werden;

49. Wie man Funktionsdaten mit der Methode der kleinsten Quadrate approximiert;

50. Wie man die Ergebnisse einer experimentellen Studie in der MIKROSOFT EXCEL-Umgebung annähert. Definieren Sie den Begriff „Annäherung“;

51. Erklären Sie das Wesen des Näherungszuverlässigkeitskoeffizienten R 2 ;

52. Listen Sie die statistischen Merkmale einer Zufallsvariablen auf.

Liste der Grundlagenliteratur:

1. Autodiagnose: Lehrbuch für Universitäten. // Fedotov A.I., ISTU-Verlag, Irkutsk. 2012. 463 S. Il. 273. Tabelle. 22. Bibliographie: 64 Titel.

2. Elektrische Messungen physikalischer Größen: Messmethoden: Lehrbuch für Universitäten // S.A. Spektor.,: L. Energoatomizdat. Zweigstelle Leningrad, 1987. - 320 S.

3. Grundlagen der Prüftechnik und Fahrzeugzertifizierung // Bezverkhy S.F., Yatsenko N.N., M.: IPK Standards Publishing House, 1996. – 600

4. Festigkeit und Haltbarkeit des Autos // Unter der allgemeinen Redaktion. B.V. Golda, M., Mechanical Engineering, 1974. 328 Seiten, mit Abb.

5. Statistische Schätzung und Prüfung von Hypothesen am Computer // Petrovich M.L., Davidovich M.I. - M.: Finanzen und Statistik, 1989. -191 S.: Abb. (Mathematische Unterstützung der angewandten Statistik).

6. Optimierungsmethoden. Einführungskurs // Bandi B.: Trans. aus dem Englischen – M.: Radio and Communications, 1988. – 128 S.: Abb.

7. Optimierungsmethoden in der technischen Diagnose von Maschinen // Kharazov A.M., Tsvid S.F. M.: Maschinenbau, 1983. – 132 S., Abb.

8. Experimentelle Planung und Datenanalyse // Montgomery D., Trans. aus dem Englischen – L.: Schiffbau, 1980. – 384 S., mit Abb.

9. Methoden zur Verarbeitung experimenteller Daten während Messungen // Granovsky V.A., Siraya T.N., Energoatomizdat. Leningr. Abteilung, 1990. – 288 S.: Abb.

10. Ufer. Ya. B. Statistische Analysemethoden sowie Qualitäts- und Zuverlässigkeitskontrolle. M.: Gosenergoizdat, 1962, S. 552, S. 92-98.

Liste weiterer Literatur:

11. Diagnoseunterstützung für Fahrzeugwartung und -reparatur: Referenz. Zuschuss. – M.: Höher. Schule, 1990. – 208 S.: Abb.

12. Prüfung von Automobilen // Lehrbuch für Maschinenbauschulen im Fachgebiet „Automobiltechnik“ / Balabin I.V., Kurov B.A., Laptev S.A. – 2. Aufl., überarbeitet. und zusätzlich – M.: Maschinenbau, 1988. – 192 S.: Abb.

13. Technologische Ausrüstung für die Wartung und Reparatur von Personenkraftwagen: Verzeichnis / R.A. Poprzhedzinsky, A.M. Kharazov et al. - M.: Transport, 1988. - 176 S., Abb., Tabelle.

14. Messungen in der Elektro- und Funktechnik: Lehrbuch. Nutzen. für durchschnittlich Prof.-Techn. Schulen – M.: Vys. Schule, 1984. – 207 S., mit Abb.

Thema 1. Methodische Grundlagen wissenschaftlichen Wissens und Kreativität…………
Formulierung des Zwecks und Festlegung der Forschungsziele….………………………
Thema 2. Theoretische und empirische Forschungsmethoden…………………………
Thema 3.Methodik zur Planung experimenteller Forschung…………………..
Thema 4. Ausrüstung zum Einstellen von Testmodi…………………………………..
Thema 5. Messgeräte und -systeme für die wissenschaftliche Forschung………………………………………………………..…………………………………….
Kraftmessung mit einer DMS-Brücke …………………………………
Drehmomentmessung…………………………………………………………….
Kalibrierung von DMS-Messgeräten für Kraftparameter……………………….
Kalibrierung von DMS-Drehmomentmessgeräten……………….……
Druckmessung……………………………………………………………….……………………
Zeitintervalle messen…………….…………………………….……………………
Drehzahlmessung………………………………….……………………….
Messung des Wellendrehwinkels……………………………………………………………….
Messung der Kurbelwellendrehzahl………………………………………….
Temperatur messung…………………………………………………………….……………………. .
Widerstandswärmewandler………………………………………………….……
Thermoelektrische Wandler…………………………………………………………….………
Analyse von Temperaturfeldern…………………………………………………………….…………………
Stroboskopische Methode zur Messung des Zündzeitpunkts………….………
Kreiselverfahren zur Winkelmessung………………………………….………………….
Messung des Kraftstoffverbrauchs mit einem Rotationsdurchflussmesser……………….……...
Messung des Kraftstoffverbrauchs mit einem Kolbendurchflussmesser………………….…….
Messung des momentanen Kraftstoffverbrauchs.………………………………….………………
Messung des Kraftstoffverbrauchs während der Reise ……………………………… ….…………………………
Kalibrierung von Kraftstoffdurchflussmessern………………………………………………………………
Thema 6. Ausrüstung zur Visualisierung von Messergebnissen……………………….
Thema 7. Analog-Digital-Umwandlung gemessener Signale…………………….
Messtechnische Eigenschaften der Analog-Digital-Wandlung…………...
THEMA 8. Theorie und Methodik der wissenschaftlichen und technischen Kreativität …………………..
Angewandte Methoden der mathematischen Verarbeitung experimenteller Daten…….
THEMA 9. Analytische wissenschaftliche Forschung zum Straßenverkehr…….
Überprüfung der Angemessenheit des mathematischen Modells…………………….……………….….
Thema 10. Datennäherung mithilfe der Methode der kleinsten Quadrate
Erstellen von Trendmodellen mithilfe von Diagrammen………………………………..
Näherungszuverlässigkeitskoeffizient R 2 ……………………………………………..
Thema 11. Regressionsanalyse ………………………………………………………………..
Kontrollfragen …………………………………………………………………………….
Referenzliste……………………………………………………………………………………
Inhaltsverzeichnis

Fedotow Alexander Iwanowitsch

GRUNDLAGEN DER WISSENSCHAFTLICHEN FORSCHUNG

Pädagogisches und methodisches Handbuch

für Universitätsstudenten im Profil „Bedienung verkehrstechnischer Maschinen und Anlagen“, Ausbildungsbereiche 190600.62 Bedienung verkehrstechnischer Maschinen und Anlagen, Abschluss – „Meister“ sowie 190600.68 Abschluss – „Meister“

Für den Druck 2015 signiert. Format 60x84 1/16

Druckerpapier. Offsetdruck. Bedingt Ofen l. 6.25

Akademisch – Hrsg. l. 5.9 Auflage 200 Exemplare. Zach

ID-Nr. 06506 vom 26. Dezember 2001

Guten Tag, liebe Leser.
In früheren Artikeln habe ich anhand praktischer Beispiele Möglichkeiten zur Lösung von Klassifizierungsproblemen (Bonitätsbewertungsproblem) und die Grundlagen der Textinformationsanalyse (Passproblem) aufgezeigt. Heute möchte ich auf eine andere Klasse von Problemen eingehen, nämlich die Regressionswiederherstellung. Probleme dieser Klasse werden normalerweise in der Prognose verwendet.
Als Beispiel für die Lösung eines Prognoseproblems habe ich den Datensatz zur Energieeffizienz aus dem größten UCI-Repository entnommen. Traditionell verwenden wir Python mit den Analysepaketen pandas und scikit-learn als Tools.

Beschreibung des Datensatzes und Problemstellung

Gegeben sei ein Datensatz, der die folgenden Raumattribute beschreibt:

Es enthält die Eigenschaften des Raumes, auf deren Grundlage die Analyse durchgeführt wird, und die Belastungswerte, die vorhergesagt werden müssen.

Vorläufige Datenanalyse

Laden wir zunächst unsere Daten herunter und schauen sie uns an:

Aus Pandas Importieren Sie Read_csv, DataFrame aus Sklearn.neighbors Importieren Sie Kneighborsressor aus Sklearn.Linear_MPORT LINEARREGRESSION, LOGISTICREGREGRESSION AUS SKLEARN.SVM IMM IM Port SVR aus Sklearn.enseble Importieren Sie Randomforgressor aus Sklearn.metrics Importieren Sie R2_Score aus Sklearn.cross_validation Importieren Sie Train_Test_SPLIT DATASET = Read_CSV (" Energy Icience /ENB2012_data.csv",";") dataset.head()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

Sehen wir uns nun an, ob irgendwelche Attribute miteinander in Zusammenhang stehen. Dies kann durch die Berechnung der Korrelationskoeffizienten für alle Spalten erfolgen. Wie das geht, wurde im vorherigen Artikel beschrieben:

Datensatz.corr()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
X1 1,000000e+00 -9.919015e-01 -2.037817e-01 -8.688234e-01 8.277473e-01 0.000000 1.283986e-17 1.764620e-17 0.622272 0.634339
X2 -9.919015e-01 1,000000e+00 1.955016e-01 8.807195e-01 -8.581477e-01 0.000000 1.318356e-16 -3.558613e-16 -0.658120 -0.672999
X3 -2.037817e-01 1.955016e-01 1,000000e+00 -2.923165e-01 2.809757e-01 0.000000 -7.969726e-19 0,000000e+00 0.455671 0.427117
X4 -8.688234e-01 8.807195e-01 -2.923165e-01 1,000000e+00 -9.725122e-01 0.000000 -1.381805e-16 -1.079129e-16 -0.861828 -0.862547
X5 8.277473e-01 -8.581477e-01 2.809757e-01 -9.725122e-01 1,000000e+00 0.000000 1.861418e-18 0,000000e+00 0.889431 0.895785
X6 0,000000e+00 0,000000e+00 0,000000e+00 0,000000e+00 0,000000e+00 1.000000 0,000000e+00 0,000000e+00 -0.002587 0.014290
X7 1.283986e-17 1.318356e-16 -7.969726e-19 -1.381805e-16 1.861418e-18 0.000000 1,000000e+00 2.129642e-01 0.269841 0.207505
X8 1.764620e-17 -3.558613e-16 0,000000e+00 -1.079129e-16 0,000000e+00 0.000000 2.129642e-01 1,000000e+00 0.087368 0.050525
Y1 6.222722e-01 -6.581202e-01 4.556712e-01 -8.618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Y2 6.343391e-01 -6.729989e-01 4.271170e-01 -8.625466e-01 8.957852e-01 0.014290 2.075050e-01 5.052512e-02 0.975862 1.000000

Wie Sie unserer Matrix entnehmen können, korrelieren die folgenden Spalten miteinander (der Wert des Korrelationskoeffizienten ist größer als 95 %):
  • y1 -> y2
  • x1 -> x2
  • x4 -> x5
Wählen wir nun aus, welche Spalten unserer Paare wir aus unserer Stichprobe entfernen können. Dazu wählen wir in jedem Paar die Spalten aus, die einen größeren Einfluss auf die vorhergesagten Werte haben Y1 Und Y2 und lassen Sie sie und löschen Sie den Rest.
Wie Sie sehen, handelt es sich um Matrizen mit Korrelationskoeffizienten y1 ,y2 mehr Bedeutung haben X2 Und X5 als X1 und X4, sodass wir die letzten Spalten entfernen können.

Dataset = dataset.drop(["X1","X4"], axis=1) dataset.head()
Darüber hinaus können Sie feststellen, dass die Felder Y1 Und Y2 hängen sehr eng miteinander zusammen. Da wir jedoch beide Werte vorhersagen müssen, lassen wir sie „wie sie sind“.

Modellauswahl

Trennen wir die vorhergesagten Werte aus unserer Stichprobe:

Trg = dataset[["Y1","Y2"]] trn = dataset.drop(["Y1","Y2"], axis=1)
Nach der Verarbeitung der Daten können Sie mit der Erstellung eines Modells fortfahren. Um das Modell zu erstellen, verwenden wir die folgenden Methoden:

Die Theorie zu diesen Methoden kann im Rahmen der Vorlesungen von K.V. Vorontsov über maschinelles Lernen nachgelesen werden.
Wir werden eine Bewertung anhand des Bestimmtheitsmaßes vornehmen ( R Quadrat). Dieser Koeffizient wird wie folgt bestimmt:

Wo ist die bedingte Varianz der abhängigen Größe? bei nach Faktor X.
Der Koeffizient nimmt einen Wert in einem Intervall an und je näher er bei 1 liegt, desto stärker ist die Abhängigkeit.
Nun können Sie direkt mit dem Erstellen eines Modells und der Auswahl eines Modells fortfahren. Um die weitere Analyse zu erleichtern, fassen wir alle unsere Modelle in einer Liste zusammen:

Modelle =
Damit die Modelle fertig sind, werden wir nun unsere Ausgangsdaten in zwei Teilstichproben aufteilen: prüfen Und lehrreich. Diejenigen, die meine vorherigen Artikel gelesen haben, wissen, dass dies mit der Funktion train_test_split() aus dem scikit-learn-Paket erfolgen kann:

Xtrn, Xtest, Ytrn, Ytest = train_test_split(trn, trg, test_size=0.4)
Da wir nun zwei Parameter vorhersagen müssen, müssen wir für jeden von ihnen eine Regression erstellen. Darüber hinaus können Sie die erzielten Ergebnisse zur weiteren Analyse temporär aufzeichnen Datenrahmen. Sie können es so machen:

#temporäre Strukturen erstellen TestModels = DataFrame() tmp = () #für jedes Modell aus der Liste für Modell in Modellen: #den Modellnamen abrufen m = str(model) tmp["Model"] = m[:m.index( "( ")] #für jede Spalte der Ergebnismenge für i in xrange(Ytrn.shape): #trainiere das Modell model.fit(Xtrn, Ytrn[:,i]) #berechne das Bestimmtheitsmaß tmp["R2_Y %s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #zeichnen Sie die Daten und den endgültigen Datenrahmen auf. TestModels = TestModels.append() #erstellen Sie einen Index für das Modell name TestModels.set_index("Model", inplace= True)
Wie Sie dem obigen Code entnehmen können, wird die Funktion r2_score() zur Berechnung des Koeffizienten verwendet.
Die Daten zur Analyse sind also eingetroffen. Lassen Sie uns nun die Diagramme zeichnen und sehen, welches Modell das beste Ergebnis zeigte:

Abb, Achsen = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=axes, kind="bar", title="R2_Y1") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

Analyse der Ergebnisse und Schlussfolgerungen

Aus den obigen Grafiken können wir schließen, dass die Methode die Aufgabe besser bewältigte als andere RandomForest(zufälliger Wald). Seine Bestimmtheitsmaße sind für beide Variablen höher als andere:
Zur weiteren Analyse trainieren wir unser Modell neu:

Modell = Modelle model.fit(Xtrn, Ytrn)
Bei näherer Betrachtung kann sich die Frage stellen, warum die abhängige Stichprobe beim vorherigen Mal geteilt wurde. Ytrn zu Variablen (nach Spalten), aber das machen wir jetzt nicht mehr.
Der Punkt ist, dass einige Methoden, wie z RandomForestRegressor, kann mit mehreren Prädiktorvariablen umgehen, während andere (z. B. SVR) kann nur mit einer Variablen arbeiten. Daher haben wir im vorherigen Training die Spaltenpartitionierung verwendet, um Fehler beim Erstellen einiger Modelle zu vermeiden.
Die Auswahl eines Modells ist natürlich gut, aber es wäre auch schön, Informationen darüber zu haben, wie sich die einzelnen Faktoren auf den vorhergesagten Wert auswirken. Zu diesem Zweck verfügt das Modell über die Eigenschaft feature_importances_.
Damit können Sie das Gewicht jedes Faktors in den endgültigen Modellen sehen:

Model.feature_importances_
array([ 0.40717901, 0.11394948, 0.34984766, 0.00751686, 0.09158358,
0.02992342])

In unserem Fall zeigt sich, dass die Gesamthöhe und -fläche den größten Einfluss auf die Heiz- und Kühllast hat. Ihr Gesamtbeitrag zum Prognosemodell beträgt etwa 72 %.
Es ist auch zu beachten, dass Sie anhand des obigen Diagramms den Einfluss jedes Faktors separat auf die Erwärmung und separat auf die Kühlung sehen können. Da diese Faktoren jedoch sehr eng miteinander korrelieren (), haben wir zu beiden eine allgemeine Schlussfolgerung gezogen: was oben geschrieben wurde.

Abschluss

In dem Artikel habe ich versucht, die Hauptphasen der Regressionsdatenanalyse mithilfe von Python und Analysepaketen aufzuzeigen Pandas Und scikit-lernen.
Es ist zu beachten, dass der Datensatz speziell so ausgewählt wurde, dass er möglichst formalisiert ist und die primäre Verarbeitung der Eingabedaten minimal ist. Meiner Meinung nach wird der Artikel sowohl für diejenigen nützlich sein, die gerade erst mit der Datenanalyse beginnen, als auch für diejenigen, die über eine gute theoretische Grundlage verfügen, aber Werkzeuge für die Arbeit auswählen.