domov » Materiali za popravilo in zaključna dela » Kako narisati regresijske ostanke. Hitra linearna regresija v Excelu: Trendline. Linearna regresija v Excelu

Kako narisati regresijske ostanke. Hitra linearna regresija v Excelu: Trendline. Linearna regresija v Excelu

Kaj je regresija?

Razmislite o dveh zveznih spremenljivkah x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Postavimo točke na 2D raztreseni graf in povejmo, da imamo linearno razmerječe so podatki aproksimirani z ravno črto.

Če domnevamo, da l odvisno od x, in spremembe v l ki jih povzročajo spremembe v x, lahko določimo regresijsko črto (regresijo l na x), ki najbolje opisuje ravno črtno razmerje med tema dvema spremenljivkama.

Statistična uporaba besede "regresija" izhaja iz pojava, znanega kot regresija na povprečje, ki ga pripisujejo Siru Francisu Galtonu (1889).

Pokazal je, da medtem ko imajo visoki očetje ponavadi visoke sinove, je povprečna višina sinov nižja od višine njihovih visokih očetov. Povprečna višina sinov je »nazadovala« in se »pomaknila nazaj« na povprečno višino vseh očetov v populaciji. Tako imajo v povprečju visoki očetje nižje (a še vedno visoke) sinove, nizki očetje pa višje (a še vedno precej nizke) sinove.

regresijska črta

Matematična enačba, ki ovrednoti preprosto (parno) linearno regresijsko premico:

x imenujemo neodvisna spremenljivka ali napovedovalec.

Y je odvisna ali odzivna spremenljivka. To je vrednost, ki jo pričakujemo l(povprečno), če poznamo vrednost x, tj. je predvidena vrednost l»

a- prost član (prehod) ocenjevalne črte; to vrednost Y, kdaj x=0(slika 1).
b- naklon ali gradient ocenjene črte; gre za znesek, po katerem Y se v povprečju poveča, če povečamo x za eno enoto.
a in b se imenujejo regresijski koeficienti ocenjene črte, čeprav se ta izraz pogosto uporablja samo za b.

Parno linearno regresijo je mogoče razširiti tako, da vključuje več kot eno neodvisno spremenljivko; v tem primeru je znan kot multipla regresija.

Slika 1. Linearna regresijska premica, ki prikazuje presečišče a in naklona b (količina povečanja Y, ko se x poveča za eno enoto)

Metoda najmanjših kvadratov

Izvajamo regresijsko analizo z uporabo vzorca opazovanj, kjer a in b- vzorčne ocene pravih (splošnih) parametrov, α in β, ki določajo linijo linearne regresije v populaciji (splošna populacija).

Najenostavnejša metoda za določanje koeficientov a in b je metoda najmanjših kvadratov(MNK).

Prileganje se oceni z upoštevanjem ostankov (navpična razdalja vsake točke od črte, npr. preostanek = opazen l- napovedano l, riž. 2).

Premica najboljšega prileganja je izbrana tako, da je vsota kvadratov ostankov minimalna.

riž. 2. Linearna regresijska premica z upodobljenimi ostanki (navpične pikčaste črte) za vsako točko.

Predpostavke linearne regresije

Torej je za vsako opazovano vrednost rezidual enak razliki in pripadajoči napovedani vrednosti.Vsak rezidual je lahko pozitiven ali negativen.

Z ostanki lahko preizkusite naslednje predpostavke za linearno regresijo:

Ostanki so običajno porazdeljeni z ničelno srednjo vrednostjo;

Če so predpostavke o linearnosti, normalnosti in/ali konstantni varianci vprašljive, lahko transformiramo ali izračunamo novo regresijsko črto, za katero so te predpostavke izpolnjene (npr. uporabimo logaritemsko transformacijo itd.).

Nenormalne vrednosti (outliers) in točke vpliva

"Vplivno" opazovanje, če je izpuščeno, spremeni eno ali več ocen parametrov modela (tj. naklon ali presek).

Izstop (opazovanje, ki je v nasprotju z večino vrednosti v naboru podatkov) je lahko "vplivno" opažanje in ga je mogoče vizualno dobro zaznati, ko gledamo 2D razpršeni diagram ali diagram ostankov.

Tako za outliere kot za "vplivna" opazovanja (točke) se uporabljajo modeli, tako z njihovo vključitvijo kot brez njih, bodite pozorni na spremembo ocene (regresijski koeficienti).

Ko izvajate analizo, ne zavrzite samodejno odstopanj ali vplivnih točk, saj lahko preprosto ignoriranje vpliva na rezultate. Vedno preučite vzroke za te odstopanja in jih analizirajte.

Hipoteza linearne regresije

Pri konstruiranju linearne regresije se preveri ničelna hipoteza, da je splošni naklon regresijske premice β enak nič.

Če je naklon premice enak nič, med in ni linearne povezave: sprememba ne vpliva

Če želite preveriti ničelno hipotezo, da je pravi naklon enak nič, lahko uporabite naslednji algoritem:

Izračunajte testno statistiko, ki je enaka razmerju , ki upošteva porazdelitev s prostostnimi stopnjami, kjer je standardna napaka koeficienta

- ocena variance ostankov.

Običajno se ničelna hipoteza zavrne, če je dosežena stopnja pomembnosti.

kjer je odstotna točka porazdelitve s prostostnimi stopnjami, ki daje verjetnost dvosmernega testa

To je interval, ki vsebuje splošni naklon z verjetnostjo 95 %.

Za velike vzorce lahko recimo približamo vrednost 1,96 (to pomeni, da bo testna statistika običajno porazdeljena)

Ocena kakovosti linearne regresije: determinacijski koeficient R 2

Zaradi linearnega razmerja pričakujemo, da se bodo spremembe spreminjale , in to imenujemo variacija, ki je posledica ali razložena z regresijo. Preostala variacija mora biti čim manjša.

Če je tako, potem bo večina variacije razložena z regresijo, točke pa bodo ležale blizu regresijske črte, tj. vrstica se dobro prilega podatkom.

Delež celotne variance, ki ga pojasni regresija, se imenuje determinacijski koeficient, običajno izraženo v odstotkih in označeno R2(v parni linearni regresiji je to vrednost r2, kvadrat korelacijskega koeficienta), vam omogoča subjektivno oceno kakovosti regresijske enačbe.

Razlika je odstotek variance, ki ga ni mogoče razložiti z regresijo.

Ker ni formalnega testa za oceno, smo se prisiljeni zanašati na subjektivno presojo, da bi določili kakovost prileganja regresijske črte.

Uporaba regresijske črte za napoved

Z regresijsko črto lahko napoveste vrednost iz vrednosti znotraj opazovanega obsega (nikoli ne ekstrapolirajte preko teh meja).

Srednjo vrednost za opazovalce, ki imajo določeno vrednost, napovemo tako, da to vrednost nadomestimo v enačbo regresijske črte.

Torej, če napovedujemo tako, da uporabimo to napovedano vrednost in njeno standardno napako za oceno intervala zaupanja za pravo srednjo populacijo.

Ponavljanje tega postopka za različne vrednosti vam omogoča, da zgradite meje zaupanja za to vrstico. To je pas ali območje, ki vsebuje pravo črto, na primer s 95-odstotno stopnjo zaupanja.

Preprosti regresijski načrti

Preprosti regresijski načrti vsebujejo en neprekinjen napovedovalec. Če obstajajo 3 primeri z napovedovalnimi vrednostmi P, kot so 7, 4 in 9, in načrt vključuje učinek prvega reda P, potem bo matrika načrta X

in regresijska enačba z uporabo P za X1 izgleda takole

Y = b0 + b1 P

Če preprosta regresijska zasnova vsebuje učinek višjega reda na P, kot je kvadratni učinek, bodo vrednosti v stolpcu X1 v matriki zasnove povišane na drugo potenco:

in enačba bo dobila obliko

Y = b0 + b1 P2

Sigma-omejene in nadparametrizirane metode kodiranja ne veljajo za preproste regresijske zasnove in druge zasnove, ki vsebujejo samo neprekinjene napovedovalce (ker preprosto ni kategoričnih napovedovalcev). Ne glede na izbrano metodo kodiranja se vrednosti zveznih spremenljivk povečajo za ustrezno moč in uporabijo kot vrednosti za spremenljivke X. V tem primeru se pretvorba ne izvede. Poleg tega lahko pri opisovanju regresijskih načrtov izpustite upoštevanje matrike načrta X in delate samo z regresijsko enačbo.

Primer: preprosta regresijska analiza

Ta primer uporablja podatke iz tabele:

riž. 3. Tabela začetnih podatkov.

Podatki temeljijo na primerjavi popisov leta 1960 in 1970 v 30 naključno izbranih okrajih. Imena okrajev so predstavljena kot imena opazovanj. Informacije o vsaki spremenljivki so predstavljene spodaj:

riž. 4. Tabela specifikacij spremenljivk.

Raziskovalni cilj

Za ta primer bo analizirana korelacija med stopnjo revščine in močjo, ki napoveduje odstotek družin, ki so pod pragom revščine. Zato bomo spremenljivko 3 (Pt_Poor) obravnavali kot odvisno spremenljivko.

Lahko postavimo hipotezo: sprememba števila prebivalstva in odstotek družin pod pragom revščine sta povezana. Smiselno se zdi pričakovati, da revščina povzroči odliv prebivalstva, zato bi obstajala negativna korelacija med odstotkom ljudi pod pragom revščine in spremembo prebivalstva. Zato bomo obravnavali spremenljivko 1 (Pop_Chng) kot napovedovalno spremenljivko.

Oglejte si rezultate

Regresijski koeficienti

riž. 5. Regresijski koeficienti Pt_Poor na Pop_Chng.

Na presečišču vrstice Pop_Chng in Param. nestandardizirani koeficient za regresijo Pt_Poor na Pop_Chng je -0,40374. To pomeni, da za vsako enoto zmanjšanja prebivalstva pride do povečanja stopnje revščine za ,40374. Zgornja in spodnja (privzeta) 95-odstotna meja zaupanja za ta nestandardiziran koeficient ne vključujeta ničle, zato je regresijski koeficient pomemben na ravni p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Porazdelitev spremenljivk

Korelacijski koeficienti lahko postanejo znatno precenjeni ali podcenjeni, če so v podatkih veliki odstopanja. Oglejmo si porazdelitev odvisne spremenljivke Pt_Poor po okrožjih. Da bi to naredili, bomo zgradili histogram spremenljivke Pt_Poor.

riž. 6. Histogram spremenljivke Pt_Poor.

Kot lahko vidite, se porazdelitev te spremenljivke izrazito razlikuje od običajne porazdelitve. Čeprav imata celo dve okraji (desna dva stolpca) višji odstotek družin, ki so pod pragom revščine, kot je pričakovano v normalni porazdelitvi, se zdi, da sta "znotraj razpona".

riž. 7. Histogram spremenljivke Pt_Poor.

Ta presoja je nekoliko subjektivna. Osnovno pravilo je, da je treba upoštevati odstopanja, če opazovanje (ali opazovanja) ne spadajo v interval (srednja vrednost ± 3-kratni standardni odklon). V tem primeru je vredno ponoviti analizo z izstopajočimi vrednostmi in brez njih, da se prepričamo, da nimajo resnega vpliva na korelacijo med člani populacije.

Graf raztrosa

Če ena od hipotez a priori govori o razmerju med podanimi spremenljivkami, jo je koristno preveriti na grafu ustreznega razpršitvenega grafa.

riž. 8. Razpršilni prikaz.

Raztreseni grafikon kaže jasno negativno korelacijo (-,65) med obema spremenljivkama. Prikazuje tudi 95-odstotni interval zaupanja za regresijsko črto, tj. s 95-odstotno verjetnostjo gre regresijska črta med obema črtkanima krivuljama.

Merila pomembnosti

riž. 9. Tabela s kriteriji pomembnosti.

Test za regresijski koeficient Pop_Chng potrjuje, da je Pop_Chng močno povezan s Pt_Poor, p<.001 .

Izid

Ta primer je pokazal, kako analizirati preprost regresijski načrt. Predstavljena je bila tudi interpretacija nestandardiziranih in standardiziranih regresijskih koeficientov. Obravnavan je pomen proučevanja porazdelitve odziva odvisne spremenljivke in prikazana je tehnika za določanje smeri in moči razmerja med napovedovalno in odvisno spremenljivko.

Storitvena naloga. S pomočjo spletne storitve lahko najdete:

parametri linearne regresijske enačbe y=a+bx , linearni korelacijski koeficient s testom njegove pomembnosti;
tesnost povezave z uporabo korelacijskih in determinacijskih indikatorjev, ocena najmanjših kvadratov, statična zanesljivost regresijskega modeliranja s Fisherjevim F-testom in Studentovim t-testom, interval zaupanja napovedi za stopnjo pomembnosti α

Enačba parne regresije se nanaša na regresijska enačba prvega reda. Če ekonometrični model vsebuje samo eno razlagalno spremenljivko, se imenuje parna regresija. Regresijska enačba drugega reda in regresijska enačba tretjega reda se nanašajo na nelinearne regresijske enačbe.

Primer. Izberite odvisno (razloženo) in pojasnjevalno spremenljivko, da sestavite parni regresijski model. Daj . Določite teoretično parno regresijsko enačbo. Ocenite ustreznost izdelanega modela (interpretirajte R-kvadrat, t-statistiko, F-statistiko).
rešitev bo temeljil na proces ekonometričnega modeliranja.
1. stopnja (staging) – določitev končnih ciljev modeliranja, nabora faktorjev in indikatorjev, ki sodelujejo v modelu, ter njihove vloge.
Specifikacija modela - opredelitev namena študije in izbira ekonomskih spremenljivk modela.
Situacijska (praktična) naloga. Za 10 podjetij v regiji preučujemo odvisnost proizvodnje na delavca y (tisoč rubljev) od deleža visokokvalificiranih delavcev v skupnem številu delavcev x (v %).
Faza 2 (a priori) - predmodelna analiza ekonomskega bistva preučevanega pojava, oblikovanje in formalizacija apriornih informacij in začetnih predpostavk, zlasti povezanih z naravo in genezo začetnih statističnih podatkov in naključnega ostanka komponente v obliki niza hipotez.
Že na tej stopnji lahko govorimo o jasni odvisnosti stopnje usposobljenosti delavca in njegovega učinka, saj bolj ko je delavec izkušen, večja je njegova produktivnost. Toda kako ovrednotiti to odvisnost?
Parna regresija je regresija med dvema spremenljivkama - y in x, torej model oblike:

Kjer je y odvisna spremenljivka (rezultantni predznak); x je neodvisna ali razlagalna spremenljivka (faktor predznaka). Znak »^« pomeni, da med spremenljivkama x in y ni stroge funkcionalne odvisnosti, zato je vrednost y skoraj v vsakem posameznem primeru sestavljena iz dveh členov:

kjer je y dejanska vrednost efektivne lastnosti; y x je teoretična vrednost efektivne lastnosti, ugotovljena na podlagi regresijske enačbe; ε je naključna spremenljivka, ki označuje odstopanja dejanske vrednosti dobljene lastnosti od teoretične vrednosti, ugotovljene z regresijsko enačbo.
Grafično bomo prikazali regresijsko odvisnost med proizvodnjo na delavca in deležem visokokvalificiranih delavcev.

3. stopnja (parametrizacija) - dejansko modeliranje, t.j. izbira splošne oblike modela, vključno s sestavo in obliko odnosov med spremenljivkami, ki so vanj vključene. Izbira vrste funkcionalne odvisnosti v regresijski enačbi se imenuje parametrizacija modela. Izberite parna regresijska enačba, tj. samo en dejavnik bo vplival na končni rezultat y.
4. stopnja (informacijska) - zbiranje potrebnih statističnih informacij, tj. registracija vrednosti dejavnikov in kazalnikov, ki sodelujejo v modelu. Vzorec je sestavljen iz 10 industrijskih podjetij.
Faza 5 (identifikacija modela) – ocena neznanih parametrov modela z uporabo razpoložljivih statističnih podatkov.
Za določitev parametrov modela uporabljamo LSM - metoda najmanjših kvadratov. Sistem normalnih enačb bo videti takole:
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Za izračun regresijskih parametrov bomo izdelali računsko tabelo (tabela 1).

x	l	x2	y2	x y
10	6	100	36	60
12	6	144	36	72
15	7	225	49	105
17	7	289	49	119
18	7	324	49	126
19	8	361	64	152
19	8	361	64	152
20	9	400	81	180
20	9	400	81	180
21	10	441	100	210
171	77	3045	609	1356

Vzamemo podatke iz tabele 1 (zadnja vrstica), kot rezultat imamo:
10a + 171b = 77
171 a + 3045 b = 1356
Ta SLAE se rešuje po Cramerjevi metodi ali metodi inverzne matrike.
Dobimo empirične regresijske koeficiente: b = 0,3251, a = 2,1414
Empirična regresijska enačba ima obliko:
y = 0,3251 x + 2,1414
6. stopnja (verifikacija modela) - primerjava realnih in modelnih podatkov, preverjanje ustreznosti modela, ocena točnosti modelskih podatkov.
Analiza se izvaja z uporabo

Regresijska in korelacijska analiza - statistične raziskovalne metode. To so najpogostejši načini za prikaz odvisnosti parametra od ene ali več neodvisnih spremenljivk.

V nadaljevanju bomo na konkretnih praktičnih primerih obravnavali ti dve med ekonomisti zelo priljubljeni analizi. Podali bomo tudi primer pridobivanja rezultatov, ko jih združimo.

Regresijska analiza v Excelu

Prikazuje vpliv nekaterih vrednosti (neodvisnih, neodvisnih) na odvisno spremenljivko. Na primer, kako je število delovno aktivnega prebivalstva odvisno od števila podjetij, plač in drugih parametrov. Ali pa: kako na višino BDP vplivajo tuje investicije, cene energentov itd.

Rezultat analize vam omogoča, da določite prednost. In na podlagi glavnih dejavnikov predvideti, načrtovati razvoj prednostnih področij, sprejemati upravljavske odločitve.

Regresija se zgodi:

linearni (y = a + bx);
parabolični (y = a + bx + cx 2);
eksponentna (y = a * exp(bx));
moč (y = a*x^b);
hiperbolični (y = b/x + a);
logaritemsko (y = b * 1n(x) + a);
eksponentna (y = a * b^x).

Razmislite o primeru gradnje regresijskega modela v Excelu in interpretaciji rezultatov. Vzemimo linearno vrsto regresije.

Naloga. V 6 podjetjih so analizirali povprečno mesečno plačo in število zaposlenih, ki so odšli. Ugotoviti je treba odvisnost števila upokojenih zaposlenih od povprečne plače.

Model linearne regresije ima naslednjo obliko:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Kjer so a regresijski koeficienti, x so spremenljivke, ki vplivajo, in k je število dejavnikov.

V našem primeru je Y indikator delavcev, ki so prenehali s službo. Vplivni faktor je plača (x).

Excel ima vgrajene funkcije, ki jih je mogoče uporabiti za izračun parametrov modela linearne regresije. Toda dodatek Analysis ToolPak bo to naredil hitreje.

Aktivirajte zmogljivo analitično orodje:

Ko je dodatek aktiviran, bo na voljo pod zavihkom Podatki.

Zdaj se bomo ukvarjali neposredno z regresijsko analizo.

Najprej smo pozorni na R-kvadrat in koeficiente.

R-kvadrat je koeficient determinacije. V našem primeru je 0,755 ali 75,5 %. To pomeni, da izračunani parametri modela v 75,5 % pojasnijo razmerje med proučevanimi parametri. Višji ko je koeficient determinacije, boljši je model. Dobro - nad 0,8. Slabo - manj kot 0,5 (takšna analiza se težko šteje za razumno). V našem primeru - "ni slabo".

Koeficient 64,1428 kaže, kakšen bo Y, če so vse spremenljivke v obravnavanem modelu enake 0. To pomeni, da na vrednost analiziranega parametra vplivajo tudi drugi dejavniki, ki v modelu niso opisani.

Koeficient -0,16285 prikazuje težo spremenljivke X glede na Y. To pomeni, da povprečna mesečna plača znotraj tega modela vpliva na število opuščenih z utežjo -0,16285 (to je majhna stopnja vpliva). Znak »-« označuje negativen vpliv: višja kot je plača, manj odpovedi. Kar je pošteno.

Korelacijska analiza v Excelu

Korelacijska analiza pomaga ugotoviti, ali obstaja povezava med indikatorji v enem ali dveh vzorcih. Na primer med časom delovanja stroja in stroški popravil, ceno opreme in trajanjem delovanja, višino in težo otrok itd.

Če obstaja povezava, torej, ali povečanje enega parametra povzroči povečanje (pozitivna korelacija) ali zmanjšanje (negativno) drugega. Korelacijska analiza pomaga analitiku ugotoviti, ali lahko vrednost enega kazalnika napove možno vrednost drugega.

Korelacijski koeficient je označen z r. Spreminja se od +1 do -1. Razvrstitev korelacij za različna področja bo različna. Ko je vrednost koeficienta 0, med vzorci ni linearne povezave.

Razmislite, kako uporabiti Excel za iskanje korelacijskega koeficienta.

Funkcija CORREL se uporablja za iskanje seznanjenih koeficientov.

Naloga: Ugotovite, ali obstaja povezava med obratovalnim časom stružnice in stroški njenega vzdrževanja.

Kazalec postavite v katero koli celico in pritisnite gumb fx.

V kategoriji "Statistika" izberite funkcijo CORREL.
Argument "Array 1" - prvi obseg vrednosti - čas stroja: A2: A14.
Argument "Array 2" - drugo območje vrednosti - stroški popravil: B2: B14. Kliknite OK.

Če želite določiti vrsto povezave, morate pogledati absolutno število koeficienta (vsako področje dejavnosti ima svojo lestvico).

Za korelacijsko analizo več parametrov (več kot 2) je bolj priročno uporabiti "Analizo podatkov" (dodatek "Analysis Package"). Na seznamu morate izbrati korelacijo in določiti niz. Vse.

Dobljeni koeficienti bodo prikazani v korelacijski matriki. kot ta:

Korelacijsko-regresijska analiza

V praksi se ti dve tehniki pogosto uporabljata skupaj.

primer:

Zdaj so podatki regresijske analize vidni.

AT excel obstaja še hitrejši in priročnejši način za risanje linearne regresije (in celo glavne vrste nelinearnih regresij, glejte spodaj). To je mogoče storiti takole:

1) izberite stolpce s podatki X in Y(v tem vrstnem redu morajo biti!);

2) klic Čarovnik za grafikone in izberite v skupini Tip – pikčasto in takoj pritisnite pripravljena;

3) ne da bi preklicali izbiro diagrama, izberite element glavnega menija, ki se prikaže Diagram, v katerem morate izbrati predmet Dodajte črto trenda;

4) v pogovornem oknu, ki se prikaže linija trenda zavihek Tip izberite Linearno;

5) zavihek Opcije stikalo se lahko aktivira Pokaži enačbo na grafikonu, ki vam bo omogočil vpogled v enačbo linearne regresije (4.4), v kateri bodo izračunani koeficienti (4.5).

6) V istem zavihku lahko aktivirate stikalo Na diagram vnesite vrednost aproksimacijskega zaupanja (R^2). Ta vrednost je kvadrat korelacijskega koeficienta (4.3) in kaže, kako dobro izračunana enačba opisuje eksperimentalno odvisnost. Če R 2 blizu enote, potem teoretična regresijska enačba dobro opisuje eksperimentalno odvisnost (teorija se dobro ujema z eksperimentom) in če R 2 blizu nič, potem ta enačba ni primerna za opis eksperimentalne odvisnosti (teorija se ne ujema z eksperimentom).

Kot rezultat izvajanja opisanih dejanj boste dobili diagram z regresijskim grafom in njegovo enačbo.

§4.3. Glavne vrste nelinearne regresije

Parabolična in polinomska regresija.

Parabolični odvisnost od vrednosti Y od vrednosti X odvisnost, izražena s kvadratno funkcijo (parabola 2. reda), se imenuje:

Ta enačba se imenuje parabolična regresija Y na X. Opcije a, b, z klical parabolični regresijski koeficienti. Izračun koeficientov parabolične regresije je vedno okoren, zato je za izračune priporočljivo uporabiti računalnik.

Enačba (4.8) parabolične regresije je poseben primer bolj splošne regresije, imenovane polinom. polinom odvisnost od vrednosti Y od vrednosti X imenujemo odvisnost, izražena s polinomom n-th red:

kje so številke a i (jaz=0,1,…, n) se imenujejo polinomski regresijski koeficienti.

Regresija moči.

Moč odvisnost od vrednosti Y od vrednosti X se imenuje odvisnost oblike:

Ta enačba se imenuje enačba potenčne regresije Y na X. Opcije a in b klical regresijski koeficienti moči.

ln=ln a+b ln x. (4.11)

Ta enačba opisuje premico v ravnini z logaritemskimi koordinatnimi osemi ln x in ln. Zato je merilo za uporabnost potenčne regresije zahteva, da točke logaritmov empiričnih podatkov ln x i in ln jaz najbližje ravni črti (4,11).

eksponentna regresija.

zgleden(oz eksponentno) odvisnost od količine Y od vrednosti X se imenuje odvisnost oblike:

(ali ). (4.12)

Ta enačba se imenuje eksponentna enačba(oz eksponentno) regresija Y na X. Opcije a(oz k) in b klical eksponentno(oz eksponentno) regresija.

Če vzamemo logaritem obeh strani enačbe potenčne regresije, dobimo enačbo

ln = x ln a+ln b(ali ln = k x+ln b). (4.13)

Ta enačba opisuje linearno odvisnost logaritma ene količine ln od druge količine x. Zato je merilo za uporabnost potenčne regresije zahteva, da empirične podatkovne točke enake velikosti x i in logaritmi druge vrednosti ln jaz so bile najbližje ravni črti (4,13).

logaritemska regresija.

Logaritemsko odvisnost od vrednosti Y od vrednosti X se imenuje odvisnost oblike:

=a+b ln x. (4.14)

Ta enačba se imenuje logaritemska regresija Y na X. Opcije a in b klical logaritemski regresijski koeficienti.

hiperbolična regresija.

Hiperbolično odvisnost od vrednosti Y od vrednosti X se imenuje odvisnost oblike:

Ta enačba se imenuje hiperbolična regresijska enačba Y na X. Opcije a in b klical hiperbolični regresijski koeficienti in so določene z metodo najmanjših kvadratov. Uporaba te metode vodi do formul:

V formulah (4.16-4.17) se seštevek izvede preko indeksa jaz od enega do števila opazovanj n.

Na žalost v excel ni funkcije, ki bi izračunala koeficiente hiperbolične regresije. V primerih, ko ni zagotovo znano, da so izmerjene vrednosti povezane z obratno sorazmernostjo, je priporočljivo poiskati enačbo regresije moči namesto enačbe hiperbolične regresije, torej v excel obstaja postopek za iskanje. Če se predpostavi hiperbolična odvisnost med izmerjenimi vrednostmi, bo treba njene regresijske koeficiente izračunati s pomožnimi računskimi tabelami in operacijami seštevanja z uporabo formul (4.16-4.17).

Regresijska premica je grafični odraz razmerja med pojavi. V Excelu lahko preprosto zgradite regresijsko črto.

Za to potrebujete:

1.Odprite program Excel

2. Ustvarite stolpce s podatki. V našem primeru bomo zgradili regresijsko črto oziroma razmerje med agresivnostjo in dvomom vase pri prvošolcih. V poskusu je sodelovalo 30 otrok, podatki so predstavljeni v Excelovi tabeli:

1 stolpec - številka predmeta

2 stolpec - agresivnost v točkah

3 stolpec - pomanjkanje samospoštovanja v točkah

3. Nato morate izbrati oba stolpca (brez imena stolpca), pritisnite zavihek vstavi , izberite točka , in med predlaganimi postavitvami izberite prvo pika z markerji .

4. Tako smo dobili praznino za regresijsko črto - tako imenovano - graf raztrosa. Če želite iti na regresijsko črto, morate klikniti nastalo sliko, kliknite zavihek konstruktor, poiščite na plošči postavitve grafikonov in izberite M a ket9 , še piše f(x)

5. Torej imamo regresijsko črto. Graf prikazuje tudi njeno enačbo in kvadrat korelacijskega koeficienta

6. Ostaja še dodati ime grafa, ime osi. Po želji lahko tudi odstranite legendo, zmanjšate število vodoravnih mrežnih črt (zavihek postavitev , potem mreža ). Glavne spremembe in nastavitve se izvedejo v zavihku Postavitev