10. Korel�cija.

Gad�juma lielumi, kas par�d�s vien� proces�, var b�t neatkar�gi, bet var b�t ar� atkar�gi. Ja process ir divu kauli�u meana, tad katra kauli�a uzkrituo punktu skaits ir divi neatkar�gi lielumi. Toties, ja apl�kojam viena kauli�a me�anu un ar K1 apz�m�jam gad�juma lielumu "uzkritu�o punktu skaits", bet ar L1 - lielumu "uzkritu�o punktu skaita kvadr�ts", tad �ie divi lielumi, protams, ir atkar�gi. o atkar�bu izsaka vien�d�ba L1=(K1)2.

Tas ir t.s. funkcion�l�s atkar�bas piem�rs: viens no lielumiem ir otra lieluma funkcija (L1 v�rt�bu var apr��in�t, zinot K1 v�rt�bu). Funkcion�l�s atkar�bas speci�lgad�jums ir line�r� atkar�ba: gad�juma lielumus X,Y, kas par�d�s vien� proces�, sauc par line�ri atkar�giem, ja eksist� divi re�li skait�i a,b (a<>0) t�di, ka vienm�r Y = aX+b. (T� k� vienlaic�gi ar� X = Y/a - b/a, tad line�r� atkar�ba ir simetriska �pa�ba). Lielumi K1, L1 ir atkar�gi, bet, protams, nav line�ri atkar�gi.

Da�k�rt gad�juma lielumi nav gan "prec�zi" funkcion�li atkar�gi, tom�r to starp� "kaut k�da sakar�ba ir". Piem�ram, apl�kojot divu sp��u kauli�u me�anu:

K = "punktu skaits, kas uzkr�t pirmajam kauli�am",

K' = "punktu skaits, kas uzkr�t otrajam kauli�am".

Ieved�sim v�l vienu gad�juma lielumu: L=K+0,01K'. Ko var teikt par lielumu K un L savstarp�jo atkar�bu? Protams, L nav vienk�ra K funkcija: piem�ram, ja m�s esam uzzin�jui, ka K=1, tad L ar vien�d�m varb�t�b�m var pie�emt jebkuru no se�m v�rt�b�m:

1,01; 1,02; 1,03; 1,04; 1,05; 1,06.

Tom�r "pavisam neatkar�gi" lielumi K,L, protams, ar� nav: uzzinot K v�rt�bu, m�s ar� L v�rt�bu uzzin�m jau diezgan prec�zi. �d� situ�cij�, kad divi gad�juma lielumi, neb�dami funkcion�li atkar�gi, "zin�m� m�r�" atkar�gi tom�r ir, pie�emts run�t par korel�cijuo lielumu starp�. Sare���t�kos procesos, kuru meh�nisms nav piln�gi izp�t�ts, gad�juma lielumu korel�cija da�k�rt j�noskaidro eksperiment�li - balstoties uz o lielumu pie�emto v�rt�bu statistiku.

Ja k�d� proces� par�d�s divi gad�juma lielumi X, Y, tad k� praktiski p�rliecin�ties, ir to starp� kaut kas l�dz�gs line�rai korel�cijai vai nav? Protams, j�v�c statistika, daudzk�rt nov�rojot procesa atk�rtojumus. P�c n nov�rojumiem tad m�su r�c�b� b�s n skait�u p�ri:

(x1, y1), (x2, y2), ..., (xn, yn).

Ja �o skait�u p�rus att�losim k� plaknes punktus, tad var�tu izn�kt, piem�ram, �da aina:

Y
|......................................o.........
|...............................o................
|...........................o....o..............
|................o......o.......................
|...................o......o....................
|..............o..o.............................
|.............o..................................
|.........o......................................
|.....o....o....................................
|--------------------------------- X

ai gad�jum� ir gribot negribot j�secina, ka punkti "pulc�jas" ap k�du taisni. Ja taisnes vien�dojums ir y=ax+b, tad k� atrast koeficientus a, b? Laikam ta�u tie j�samekl� t�di, lai atz�m�tie punkti b�tu ai taisnei "p�c iesp�jas tuv�k".

S�kum� uzdevums liekas vienk�rs. Apr��in�sim punkta (xi, yi) att�lumu l�dz taisnei y=ax+b. T� b�s k�da funkcija f(a, b, xi, yi). M�su uzdevums ir izv�l�ties skait�us a,b t�, lai vid�jais att�lums

1/n * Summa{f(a, b, xi, yi) | i = 1 l�dz n} ----------------(*)

b�tu vismaz�kais. Pam��in�sim atrast funkcijas f izteiksmi. Att�luma kvadr�ts no punkta (x, y ) l�dz punktam (xi, yi) ir (x-xi)2+(y-yi)2. �ausim punktam (x,y) "sl�d�t" pa taisni y=ax+b un apl�kosim att�luma kvadr�tu k� funkciju no x:

g(x) = (x-xi)2+(ax+b-yi)2 = (1+a2)x2 -2(xi+a(yi-b))x+(xi2+(yi-b)2).

T� k� koeficients pie x2 ir pozit�vs, tad im kvadr�t-trinomam vismaz�k� v�rt�ba b�s pie

x = (xi+a(yi-b))/(1+a2).

Ievietojot �o x un y=ax+b funkcijas g(x) izteiksm�, izn�k, ka:

min g(x) = f2(a, b, xi, yi) = ((1+a2)(yi-axi)2-2b(1+a)(yi-axi)+ab2) / (1+a2)2.

Ja summ�sim kvadr�tsaknes no �d�m izteiksm�m, vai mums izdosies atrast t�s a un b v�rt�bas, kur�m summas v�rt�ba ir vismaz�k�? Skaidrs, ka izteiksmes "briesm�g�s" sare���t�bas d�� mums tas nevar izdoties. Negl�bs ar� matem�ti�u parast� metode - vid�j� att�luma viet� ievest vid�jo att�luma kvadr�tu - ar� bez kvadr�tsakn�m izteiksme jau ir pietiekami "briesm�ga".

Izeju no �s situ�cijas atrada v�cu matem�ti�is K�rlis Fr�drihs Gauss (1777-1855). Vi� iedom�j�s minimiz�t nevis punktu att�lumus l�dz taisnei vai o att�lumu kvadr�tus, bet att�lumu kvadr�tus pa vertik�li! Patiesi, tad izteiksme (*) izn�k daudz vienk�r�ka. Punktam (x,y) pa vertik�li atbilst taisnes y=ax+b punkts (x, ax+b), att�luma kvadr�ts t�p�c b�s (ax+b-y)2, un izteiksme (*) tad b�s �da:

1/n * Summa{(axi+bi-y)2 | i = 1 l�dz n}

Stingri �emot, t� ir halt�ra, "viegl�kais ce�", ta�u k�di lieliski rezult�ti t�l�t sekos!

Pirms aiziet "pa viegl�ko ce�u", p�riesim tom�r uzreiz no eksperimenta datu anal�zes pie divu gad�juma lielumu X,Y iesp�jam�s atkar�bas teor�tiskas anal�zes. Tad mums j�ieved nedaudz cit�di pamatj�dzieni. Procesam, kur� abi lielumi par�d�s, ir n izn�kumi i1, i2,... in, pie tam izn�kums ik par�d�s ar varb�t�bu pk (visi pk ir pozit�vi un to summa ir vien�da ar 1), un to pavada X v�rt�ba xk un Y v�rt�ba yk.

Katram procesa izn�kumam ik atbilst plaknes punkts (xk, yk). Varb�t�bu pk tad var uzskat�t par punkta "svaru" (jo liel�ka varb�t�ba, jo "smag�ks" punkts). Plakn� novilksim taisni y=ax+b. Atk�rtojot m�su procesu, m�s ieg�stam plaknes "gad�juma" punktu (X,Y) (katru reizi tas sakr�t ar k�du no punktiem (xk, yk)). �� punkta att�luma kvadr�ts pa vertik�li no taisnes y=ax+b ir gad�juma lielums (aX+b-Y)2. � lieluma vid�j� v�rt�ba ir

S(a,b) = E(aX+b-Y)2 = E(a2X2+b2+Y2+2abX-2aXY-2bY) =
= a2E(X2)+b2+E(Y2)+2abE(X)-2aE(XY)-2bE(Y).

M�su uzdevums ir atrast t�dus a,b, kuri dotu vismaz�ko iesp�jamo izteiksmes S(a,b) v�rt�bu (t.i., "vistuv�ko" taisni punktu (X,Y) "m�konim").

Ja a v�rt�ba b�tu fiks�ta, tad S(a,b) k� funkcija no b b�tu kvadr�ttrinoms:

S(a,b) = b2-2b(E(Y)-aE(X))+...,

kur� savu vismaz�ko v�rt�bu pie�em pie b=E(Y)-aE(X), jeb:

E(Y) = aE(X) + b.

Tas noz�m�, ka "vistuv�k�" taisne iet caur punktu "m�ko�a" smaguma centru - punktu (E(X),E(Y)).

Tagad izteiksim b ar a: b=E(Y)-aE(X), un ievietosim S(a,b) izteiksm�:

S(a,b) = E(aX+b-Y)2 = E(aX+E(Y)-aE(X)-Y)2 =
= E(a(X-E(X))-(Y-E(Y)))2 =
= E(a2(X-E(X))2 - 2a(X-E(X))(Y-E(Y)) + (Y-E(Y))2) =
= a2E(X-E(X))2 - 2aE((X-E(X))(Y-E(Y)) + E(Y-E(Y))2 =
= a2D(X) - 2aE((X-E(X))(Y-E(Y)) + D(Y).

is kvadr�ttrinoms pie�em vismaz�ko v�rt�bu pie

a = (E((X-E(X))(Y-E(Y))) / D(X).

Skait�t�ja izteiksmi p�rveidosim apr��iniem �rt�k� form�:

E((X-E(X))(Y-E(Y)) = E(XY-XE(Y)-YE(X) + E(X)E(Y)) =

= E(XY) - E(X)E(Y) - E(Y)E(X) + E(X)E(Y) =

= E(XY) - E(X)E(Y),

a = (E(XY)-E(X)E(Y)) / D(X),

Atrastaj�m a, b v�rt�b�m atbilst vismaz�k� S(a,b) v�rt�ba. T�tad "vistuv�k�s" taisnes vien�dojums ir

y = ax+b = ax+(E(Y)-aE(X))

y-E(Y) = a(x-E(X))

Koeficients a nav simetrisks pret X un Y. To var "izlabot" ��d� veid�:

(Y - E(Y)) / sqrt(D(Y)) = (E(XY) - E(X)E(Y)) / sqrt(D(X)D(Y)) * (X - E(X)) / sqrt(D(X)).

Izteiksmi

K(X, Y) = (E(XY)-E(X)E(Y)) / sqrt(D(X)D(Y))

pie�emts saukt par gad�juma lielumu X un Y korel�cijas koeficientu. K�p�c t�?

Atcer�simies m�su s�kotn�jo izteiksmi E(aX+b-Y)2. Koeficientus a, b m�s tagad protam izv�l�ties t�, lai E(aX+b-Y)2 (punkta (X, Y) un taisnes y=ax+b att�luma kvadr�ta) vid�j� v�rt�ba b�tu vismaz�k�. K�da tad ir � vismaz�k� v�rt�ba?

min E(aX+b-Y)2 = a2D(X) - 2a(E(XY)-E(X)E(Y)) + D(Y).

"Garais" reizin�t�js otraj� saskait�maj� ir vien�ds ar aD(X), t�p�c:

min E(aX+b-Y)2 = D(Y) - a2D(X) = D(Y) - k2*D(Y) = (1-k2)D(Y), --------(**)

kur k=K(X, Y) ir lielumu X un Y korel�cijas koeficients.

No ��s sakar�bas var ieg�t vair�kus svar�gus secin�jumus:

1. T� k� E(aX+b-Y)2>=0 un D(Y)>0, tad 1-k2>=0 un t�tad -1 <= K(X, Y) <= 1.

T.i., divu gad�jumu lielumu korel�cijas koeficients vienm�r ir no -1 l�dz +1.

2. Ja K(X, Y)=+1 vai -1, tad E(aX+b-Y)2=0 (m�su atrastaj�m a, b v�rt�b�m). Tas noz�m�, ka

Summa { Pk(axk+b-yk)2 | k=1..n } = 0,

t�tad axk+b-yk=0 visiem k, t.i., lielumi X, Y ir line�ri atkar�gi: Y=aX+b.

Pie tam a un b v�rt�bas apr��in�mas �di:

a = K(X,Y) sqrt(D(Y)/ D(X)) ------------------(***)

b = aE(X) - E(Y).-----------------------------------

23.uzdevums. P�rliecinieties, ka ar� otr�di: ja X un Y ir line�ri atkar�gi, tad K(X, Y)=+1 vai -1.

3. Nemainoties D(Y), jo tuv�k K(X, Y) ir +1 vai -1, jo maz�ka ir vid�j� v�rt�ba min E(aX+b-Y)2, t.i., jo maz�ka ir "m�ko�a" (X, Y) punktu vid�j� novirze no taisnes Y=aX+b (kur a, b ieg�ti ar formul�m (***)). T�tad, ja divu lielumu korel�cijas koeficients ir tuvs +1 vai -1, tas noz�m�, ka ie lielumi ir "tuvu line�rai atkar�bai', "gandr�z line�ri atkar�gi" vai tml.

Pie tam, ja K(X, Y) ir tuvu +1, tad pie�emts run�t par pozit�vu korel�ciju (augot X v�rt�bai, gandr�z vienm�r pieaug ar� Y). Ja K(X, Y) tuvu -1, tad run� par negat�vu korel�ciju (augot X v�rt�bai, Y v�rt�ba gandr�z vienm�r samazin�s). is pr�tojums nav sevi�i korekts: konkr�t� situ�cij� vislab�k visus secin�jumus izdar�t no sakar�bas (**), ja min E(aX+b-Y)2 v�rt�ba ir maza, tad korel�cija ir liela (un otr�di).

4. Ja gad�juma lielumi X, Y ir neatkar�gi, tad E(XY)=E(X)E(Y) un t�p�c K(X, Y)=0. B�tu ide�li, ja ar� no K(X, Y)=0 sekotu, ka lielumi X un Y ir neatkar�gi. Diem��l, tas t� nav (un nevar b�t).

Apl�kosim sp��u kauli�a meanu un divus gad�juma lielumus, kuri par�d�s aj� proces�:

K = "uzkritu�o punktu skaits",

M = min(K,7-K).

Skaidrs, ka lielums M ir funkcion�li atkar�gs no K. Abu lielumu varb�t�bu sadal�jums:

 

K 1 2 3 4 5 6
M 1 2 3 3 2 1
P 1/6 1/6 1/6 1/6 1/6 1/6

T�tad E(K) = 3,5, E(M) = 2, E(KM) = 1/6*(1+4+9+12+10+6) = 7. Tas noz�m�, ka E(KM) - E(K)E(M)=0 un K(K,M)=0. T�tad lielumu K un M korel�cijas koeficients ir 0, kaut ar� lielums M ir funkcion�li atkar�gs no K. No K(X,Y)=0 gad�juma lielumu X un Y neatkar�ba t�tad neseko.

24. uzdevums. a) Apr��iniet �s sada�as s�kum� min�to lielumu K, L korel�cijas koeficientu. Vai korel�cija starp K un L ir "izteikti liela"?

b) Apr��iniet 7.sada�as s�kum� min�to gad�juma lielumu A un �B korel�cijas koeficientu. Ko noz�m� J�su ieg�tais rezult�ts?

Piez�me. Korel�cijas koeficienta K(X, Y) apr��ina process ir diezgan darbietilp�gs. Vislab�k ir paral�li r��in�t E(X), E(Y), E(X2), E(Y2) un E(XY), un tikai beig�s apr��in�t D(X) = E(X2) - (E(X))2, D(Y) - analo�iski, un beidzot - K(X,Y).