FINANTE
Finante publice, legislatie fiscala, contabilitate, informatii fiscale, asistenta contribuabili, transparenta institutionala, formulare fiscale din domaniul finantelor publice si private (Declaratii fiscale · Fise fiscale · Situatii financiare · Raportari anuale) |
StiuCum
Home » FINANTE
» finante generale
|
|
Modelul de regresie |
|
Modelul de regresie OBIECTIVE: introducerea studentilor in sfera si notiunile specifice modelului de regresie, PREZENTARE SINTETICA: Specificarea unui model de regresie Un studiu econometric incepe cu o serie de presupuneri teoretice despre anumite aspecte ale economiei. Investigatiile 636c25g empirice furnizeaza estimatori pentru parametri necunoscuti ai modelului. Keynes: C=f(x) Suma cheltuita pentru consum depinde de: marimea venitului pe de o parte alte obiective in functie de circumstante (de exemplu investitiile) alte nevoi subiective Legea psihologica fundamentala: "o persoana este dispusa de regula si in medie sa isi creasca consumul pe masura cresterii venitului dar nu in aceeasi masura"
un nivel absolut mai mare al venitului va tinde de regula sa mareasca diferenta intre venit si consum:
Presupunerea cea mai simpla: C=a bX, 0<b<1 este o relatie determinista neadecvata. In model trebuie inclus si factorul aleator: C=f(X,e Modelul cel mai simplu: C=a bX+e Modelul general ce trebuie estimat are forma: yi =a bxi + ei, i=1,n unde: - xi este nestochastic (situatie experimentala) - analistul alege valorile regresiei xi si apoi observa yi Valoarea parametrului b arata modificarea proportionala a variabilei efect (Y) la modificarea cu o unitate a variabilei cauza (X). Valoarea parametrului a arata punctul in care linia intercepteaza (taie) axa OY ei reprezinta componenta reziduala (eroarea aleatoare) pentru fiecare unitate, adica partea din valoarea variabilei Y care nu poate fi masurata prin relatia sistematica existenta cu variabila X. Modelul liniar unifactorial y=1+0,5x Modelul probabilistic contine: a) componenta deterministica, adica partea din valoarea lui Yi care poate fi determinata cunoscand valoarea Xi (a + bXi = Yi') b) componenta reziduala care nu poate fi determinata cunoscand valoarea individuala Xi (ei) Atunci, Yi = a + bXi + ei
Yi = componenta predictibila (detrministica) + eroarea aleatoareYi = Yi' + ei Daca datele disponibile provin dintr-un esantion avem la dispozitie n perechi de observatii (x1, y1), (x2,y2), (xn, yn), pe care le vom folosi pentru estimarea parametrilor ecuatiei de regresie liniara simpla, a si b Modelul de regresie liniara in esantion este yi = a + bxi + ei cu componenta predictibila: a si b sunt estimatorii punctului de interceptie (a) si pantei liniei drepte (b), obtinuti pe esantion ei este valoarea reziduala (pentru unitatea i) in esantion: ei = yi - (a + bxi) Abaterea ei de la linia de regresieIpotezele modelului de regresie liniara Pentru a obtine proprietatile dorite ale estimatorilor regresiei, se fac, de obicei, cinci presupuneri (ipoteze) standard pentru modelul din populatia generala: Ipotezele ce trebuie verificate: Forma functionala: yi =a bxi + ei, i=1,n Normalitatea erorilor: ei N(0,s Media zero a erorilor: μ(ei i Homoscedasticitatea: σ2ei s constanta i Non autocorelarea erorilor: Cov(ei ej i¹j Necorelarea intre regresor si erori: Cov(xi,ej i si j Ipoteza 1: Forma functionala a. y=a+bx a. y=a+bz, z=ex b. y=a+br, r=1/x c. y=a+bq, q=ln(x)
Fig. - Modele ce pot fi linearizate Sau y=Axb Þ ln(y)=a bln(x) Forma generala: f(yi)= a bg(xi)+ei Contra exemplu: nu poate fi transformat in model liniar. Erorile Ipoteza de linearitate a modelului include si aditivitatea erorilor. Forma modelului: y = a bx + e, De exemplu modelul se transforma prin logaritmare in modelul liniar: ln(y)=ln(A)+bln(x)+e Insa modelul nu mai poate fi transformat in model liniar. Daca ipoteza de linearitate este verificata, variabila dependenta observata este suma a doua elemente: - un termen nestochastic: a bx - o variabila aleatoare Ipoteza 2: normalitatea erorilor Se presupune ca variabila aleatoare ei este normal distribuita : Distributia de probabilitate pentru ei Ipoteza 3: media erorilor este zero: μ(ei i Este naturala atata timp cat e este vazuta ca suma efectelor individuale, cu semne diferite. Daca media erorilor este diferita de zero, ea poate fi considerata ca o parte sistematica a regresiei: e m Þ a bx + e a m bx + (e m media erorilor este acum nula. Aceasta presupunere indica faptul ca media valorilor Y, conditionat de X, m (Y/X = Xi) = a bXi, adica nu exista variabile omise asociate cu regresia in populatie. Ipoteza 4 (de homoscedasticitate): Var(ei s constanta i Dispersia reziduurilor in populatie este constanta peste toate valorile Xi a) Dispersia
reziduurilor a) Discutie: Profiturile firmelor mari vor varia mult mai mult ca profiturile firmelor mici. variatia cheltuielilor gospodariilor in functie de venit sau de marimea lor poate fi diferita. Ipoteza 5: Non autocorelarea erorilor: μ(eiej i¹j Aceasta ipoteza nu implica faptul ca yi si yj sunt necorelate, ci faptul ca deviatiile observatiilor de la valorile lor asteptate sunt necorelate. Variabilele aleatoare ei sunt statistic independente una de alta, adica = 0, pentru i ¹ j. Acest lucru inseamna ca eroarea asociata cu o valoare a variabilei Y nu are nici un efect asupra erorilor asociate cu alte valori ale lui Y; nu exista deci corelatie intre reziduuri; OBSERVATIE: De asemenea este convenabil a considera ca erorile sunt independente si normal distribuite cu medie zero si variatie constanta pentru obtinerea de rezultate statistice exacte. Estimarea parametrilor modelului de regresie clasic Parametrii necunoscuti ai reactiei stochastice sunt cei ce trebuie estimati: yi =a bxi + ei, i=1,n Modelul estimat va fi scris:
Eroarea asociata unui punct i este: ei = yi - a bxi Pentru orice valori estimate a si b, erorile estimate vor fi: ei = yi - a - bxi Pentru estimarea parametrilor a si b pe baza datelor observate, un criteriu natural este cel de maximizare a potrivirii modelului cu datele observate, deci de minimizare a erorilor observate:
Conditiile de ordin 1 de minimizare a functiei sunt: Þ
Ramane de verificat daca este verificata conditia de ordin 2, adica solutia gasita este un punct de minim. Matricea derivatelor partiale de ordin doi trebuie sa fie pozitiv definita:
Deci matricea este pozitiv definita. Modelul de regresie clasic Evaluarea validitatii modelului de regresie clasic Estimatorii a (interceptia) si b (panta) ai parametrilor a si b sunt dati de :
Se observa ca obtinem din ecuatia: impartind prin n : si, inlocuind in ecuatia : pe xi cu deviatia obtinem: Cum primul termen situat in partea stanga a ecuatiei este egal cu zero, rezulta:
si in final:
Estimatorul a (interceptia) poate lua valori negative sau pozitive. Estimatorul b (panta liniei drepte) numit si coeficient de regresie are intotdeauna semnul indicatorului sxy, sxy este covarianta intre x si y.
|
Linii de regresie cu a) panta pozitiva b) panta negativa c) panta egala cu zero
In evaluarea validitatii modelului se verifica daca variatia lui x este un bun predictor pentru variatia lui y.
Doi indicatori alternativi pot fi utilizati pentru a masura calitatea ajustarii pentru regresia statistica :
Abaterea medie patratica (eroarea standard) a reziduurilor (masura absoluta a calitatii ajustarii pe baza regresiei in esantion)
Coeficientul de determinatie (indicator relativ).
Este necesar sa analizam componentele indicatorilor de variatie a lui y.
In aplicarea metodei regresiei, sunt asociate variabilei dependente y doua medii:
media totala () si
media conditionata (
variatia (abaterea) totala () poate fi impartita in :
abaterea neexplicata de model () si
abaterea explicata (), astfel:
Abaterea () nu poate fi explicata de linia de regresie, deoarece atunci cand xi se modifica, ambele valori yi si se modifica;
abaterea ) poate fi explicata, deoarece cand xi se schimba, ramane constant
Prin ridicarea la patrat a fiecarei abateri si insumarea pentru toate observatiile, obtinem:
Putem nota:
= varianta totala, suma patratelor abaterilor totale.
= varianta neexplicata, suma patratelor erorilor.
= varianta explicata, suma patratelor abaterilor datorate regresiei.
Vom avea, atunci:
se mai noteaza:
Variatia variabilei dependente y este definita in termeni de deviatie de la valoarea ei medie:
Deci: SST = SSR + SSE
Variatia totala = Variatia de regresie + Variatia reziduala
Putem calcula si discuta cei doi indicatori ai calitatii ajustarii astfel :
tabelul ANOVA este pentru testarea calitatii ajustarii
Tabelul ANOVA
Sursa variatiei |
Suma patratelor |
Grade de libertate |
Media patratelor (dispersia corectata) |
|
|
|
|
Datorata regresiei Reziduala |
|
k n - k - 1 |
|
Totala |
|
n - 1 |
|
Unde:
k reprezinta numarul variabilelor independente luate in consideratie (pentru regresia liniara simpla, k = 1).
Daca se impart variantele la (n - 1), avem:
relatie care poate fi scrisa ca
deoarece:
abaterea medie patratica a erorilor in esantion este:
unde este un estimator nedeplasat al dispersiei reziduurilor . o marime relativa a calitatii ajustarii, prin exprimarea ponderilor dispersiilor (explicata si reziduala) in dispersia totala este:
Coeficientul de determinatie este:
Raportul reprezinta proportia variatiei totala care este explicata de linia de regresie.
Sau se poate scrie
Coeficientul de determinare ca proportia variatiei explicata de modelul de regresie in variatia totala:
R2 = 0 daca b=0, , deci daca ecuatia de regresie este o dreapta orizontala. In acest caz variabila x nu are putere explicativa.
R2 = 1 daca punctele determinate de observatiile facute asupra variabilelor x si y se afla toate pe o dreapta, caz in care erorile vor fi zero.
In cazul in care toate valorile lui y se afla pe o dreapta verticala, R2 nu are nici o semnificatie si nu poate fi calculat.
Asadar, R2 reprezinta masura in care variabila independenta, X, explica variatia variabilei rezultative Y.
Coeficientul de determinatie nu este ajustat cu gradele de libertate. Daca utilizam estimatorii nedeplasati si , obtinem valoarea ajustata a coeficientului de determinatie
Valoarea lui este intotdeauna mai mica decat valoarea lui R2.
Observatii:
R2 poate fi interpretat ca procentul variatiei lui y explicata de variatia veriabilei x doar pentru cazul in care metoda celor mai mici patrate este aplicata modelului liniar de regresie.
Pentru orice model coeficientul R2 poate fi calculat ca:
unde
Probleme rezolvate
Exemplu : Modelul de regresie clasic
I. Estimarea parametrilor
Ecuatiile normale pentru exemplul din primul paragraf privind consumul si veniturile sunt:
Deci:
C = -67,58 + 0,98 V
Interpretare:
1. La o variatie a venitului cu o unitate monetara, consumul va varia in aceeasi directie cu 0,98 unitati monetare.
2. Termenul liber se interpreteaza in general ca nivelul variabilei dependente pentru cazul in care variabila independenta este zero. In cazul exemplificat, valoarea termenului liber este negativa, iar consumul nu poate fi negativ, deci singura interpretare ce poate fi data este ca va avea loc a consumul de la un nivel al venitului de: 67,58/0,98=69.
II. Determinarea coeficientului de determinare
Pentru exemplul anterior se mai cunosc:
Scc=64972,12; Sxx=67192,44; Sxc=65799,34
SST = Scc = 64972,12
SSR = b2Sxx = 0,979267*67192,44 = 64435,12
SSE = SST-SSR = 64972,12 - 64435,12 = 537
Deci: R2 = SSR/SST = 64435,13/64972,12 = 0,99173
Interpretare:
1. 99,17% din variatia consumului este datorata variatiei venitului.
2. 99,17% din variatia consumului este explicata de modelul de regresie.
III. Testarea coeficientului de determinare
Tabelul ANOVA
Sursa variatiei |
Masura variatiei |
Numarul gradelor de libertate |
Suma patratelor |
Variatia de regresie |
64435,12 |
1 |
64435,12 |
Variatia reziduala |
537 |
8 |
67,124 |
Variatia totala |
64972,12 |
9 |
7219,12 |
Fcalc = 64435,12/67,124 = 959,94
F0,95;1,8 = 5,32
Fcalc > F0,95;1,8 deci R2 este reprezentativ.
Politica de confidentialitate
|
Despre finante generale |
|||||||
Stiu si altele ... |
|||||||
|
|||||||