DHTML JavaScript Menu Courtesy of Milonic.com

Genova        
Numero 43, anno XII        
Febbraio 2011        

Google: bing:  

 

di Diego Rosa

Parte Sesta

Curve di regressione

Sia data una grandezza di misura Y, di natura aleatoria od affetta di imprecisione aleatoria che si ritiene possa essere funzione di una o più variabili indipendenti xi. Sia così: , o nel caso di relazione lineare  dove e è una indeterminazione casuale di valore medio nullo e gli i sono dei parametri da determinare. La curva interpolatrice dedotta dai vari valori di x e quelli corrispondenti e misurati di Y è la curva di regressione ed i coefficienti i sono i coefficienti di regressione.
Nel caso più semplice e più usuale, la relazione è supposta lineare nei confronti di una sola variabile indipendente, x. Si ha così :

 

In un piano cartesiano X,Y rappresentiamo le coppie x,Y. Esse formano il diagramma di dispersione della relazione come nelle figg. qui sotto:


Fig. 1 Diagrammi di dispersione

Nel primo caso è individuabile una relazione lineare , nel secondo una quadratica , nel terzo pare mancare una correlazione qualsivoglia.
Ipotizziamo che esista una correlazione lineare (regressione lineare semplice) tra i valori di x e quelli di y, rappresentabile da una retta: 

Come determinare a partire dai dati del campione, indichiamoli Yi e xi, i valori migliori A e B di e ? Utilizziamo il metodo dei minimi quadrati pubblicato da Legendre nel 1795 ma già utilizzato da Gauss nel 1795. I valori di A e B saranno quelli che renderanno minima la “distanza” tra la curva ipotizzata (nel nostro caso una retta) ed i valori Yi del campione. Espressione migliore di tale “distanza” è la sommatoria dei quadrati delle differenze tra i valori ipotizzati (in numero di n) dalla curva teorica Y*i = A+Bxi e quelli osservati Yi.

Dall’analisi matematica la variabile D, che è la somma dei quadrati dei “residui” ,vista come funzione di A e B, essendo sempre positiva e derivabile, avrà un minimo dove si annullano le derivate parziali rispetto ad A e B.

In questo caso si avrà:
 


 

Si ottiene, risolvendo il sistema:
 


 

E ponendo 
 


 

Abbiamo ancora, rimaneggiando le sommatorie e tenendo conto della definizione della media, alcune notazioni utili:

Così che si avrà :

e

L’espressione:

rappresenta il coefficiente di correlazione campionaria. Quando esso è > di 0 i dati sono correlati positivamente, quando è < 0 negativamente. Il valore assoluto di r, |r| è 1.

Importante è l’espressione , dove Y* è il valore stimato di Y sulla linea di regressione, che diventa:

(SSR/n)1/2 che per una correlazioni lineare ha l’espressione , è l’errore standard della stima che tiene conto della variazione di Y al variare dei dati di ingresso x .

Sviluppando la 8) con le espressioni di A e di B si ha:
 


 

Abbiamo ancora che: SSR/Syy = 1-(SxY)2/SxxSyy  

La grandezza esprime la variabilità totale, rispetto alla media delle risposte o dati misurati Y, mentre la grandezza SSR misura la variabilità delle risposte rispetto ai dati stimati dalla regressione.
La grandezza Syy - SSR è rappresentativa della quota parte della variabilità totale spiegata dalla variabilità dei valori di ingresso xi

La grandezza:

(L’ultima uguaglianza essendo valida per la regressione lineare e polinomiale) è la frazione della variabilità Syy di questa quota parte ed è chiamata coefficiente di determinazione. R2 varia da 1 a 0. Per R2 tendente a 1 (SSR si approssima a 0) i punti Yi, xi tendono a disporsi sulla retta di regressione; nel contrario essi tendono ad allontanarsene.

Essa corrisponde al quadrato del coefficiente di correlazione campionaria r che nel caso di regressione lineare può esprimersi anche con:

La 7) si applica a tutti i casi di regressione e definisce il coefficiente generalizzato di correlazione.

Esponiamo un esempio di regressione lineare relativamente alla quantità di acqua assorbita al giorno da un materiale in funzione dell’umidità atmosferica (dati in valori percentuali).

 X UR

46

53

29

61

36

39

47

49

52

38

55

32

57

54

44

Y

H2O

12

15

7

17

10

11

11

12

14

9

16

8

18

14

12

Il diagramma di dispersione è il seguente:

Si hanno i seguenti valori dei parametri:

A= -2,51; B = 0,32 da cui Y = -2,51+0,32x. Ed ancora:

Sxx= 1287,73 ; Syy= 147,6 ; = 12,25; = 46,13

La somma dei quadrati dei residui SSR è = 13,08 da cui il coefficiente di determinazione

R2 = 1-SSR/ Syy = 1-13,08/147,6 = 0,91

esprimente un’ottima adeguatezza della retta di regressione ai valori Y delle misurazioni. Solo il 9% della variabilità è dovuta alla varianza delle misurazioni stesse