Rivista Ligure di Meteorologia 43 - Appunti di statistica meteorologica

Genova
Numero 43, anno XII
Febbraio 2011

Google: bing:

di Diego Rosa

Parte Sesta

Curve di regressione

Sia data una grandezza di misura Y, di natura aleatoria od affetta di imprecisione aleatoria che si ritiene possa essere funzione di una o più variabili indipendenti x_i. Sia così: , o nel caso di relazione lineare dove e è una indeterminazione casuale di valore medio nullo e gli _i sono dei parametri da determinare. La curva interpolatrice dedotta dai vari valori di x e quelli corrispondenti e misurati di Y è la curva di regressione ed i coefficienti _i sono i coefficienti di regressione.
Nel caso più semplice e più usuale, la relazione è supposta lineare nei confronti di una sola variabile indipendente, x. Si ha così :

In un piano cartesiano X,Y rappresentiamo le coppie x,Y. Esse formano il diagramma di dispersione della relazione come nelle figg. qui sotto:

Fig. 1 Diagrammi di dispersione

Nel primo caso è individuabile una relazione lineare , nel secondo una quadratica , nel terzo pare mancare una correlazione qualsivoglia.
Ipotizziamo che esista una correlazione lineare (regressione lineare semplice) tra i valori di x e quelli di y, rappresentabile da una retta:

Come determinare a partire dai dati del campione, indichiamoli Yi e xi, i valori migliori A e B di e ? Utilizziamo il metodo dei minimi quadrati pubblicato da Legendre nel 1795 ma già utilizzato da Gauss nel 1795. I valori di A e B saranno quelli che renderanno minima la “distanza” tra la curva ipotizzata (nel nostro caso una retta) ed i valori Yi del campione. Espressione migliore di tale “distanza” è la sommatoria dei quadrati delle differenze tra i valori ipotizzati (in numero di n) dalla curva teorica Y*i = A+Bx_i e quelli osservati Yi.

Dall’analisi matematica la variabile D, che è la somma dei quadrati dei “residui” ,vista come funzione di A e B, essendo sempre positiva e derivabile, avrà un minimo dove si annullano le derivate parziali rispetto ad A e B.

In questo caso si avrà:

Si ottiene, risolvendo il sistema:

E ponendo

Abbiamo ancora, rimaneggiando le sommatorie e tenendo conto della definizione della media, alcune notazioni utili:

Così che si avrà :

e

L’espressione:

rappresenta il coefficiente di correlazione campionaria. Quando esso è > di 0 i dati sono correlati positivamente, quando è < 0 negativamente. Il valore assoluto di r, |r| è 1.

Importante è l’espressione , dove Y* è il valore stimato di Y sulla linea di regressione, che diventa:

(SS_R/n)^1/2 che per una correlazioni lineare ha l’espressione , è l’errore standard della stima che tiene conto della variazione di Y al variare dei dati di ingresso x .

Sviluppando la 8) con le espressioni di A e di B si ha:

Abbiamo ancora che: SS_R/S_yy = 1-(S_xY)²/S_xxS_yy

La grandezza esprime la variabilità totale, rispetto alla media delle risposte o dati misurati Y, mentre la grandezza SS_R misura la variabilità delle risposte rispetto ai dati stimati dalla regressione.
La grandezza S_yy - SS_R è rappresentativa della quota parte della variabilità totale spiegata dalla variabilità dei valori di ingresso x_i

La grandezza:

(L’ultima uguaglianza essendo valida per la regressione lineare e polinomiale) è la frazione della variabilità S_yy di questa quota parte ed è chiamata coefficiente di determinazione. R² varia da 1 a 0. Per R² tendente a 1 (SS_R si approssima a 0) i punti Y_i, x_i tendono a disporsi sulla retta di regressione; nel contrario essi tendono ad allontanarsene.

Essa corrisponde al quadrato del coefficiente di correlazione campionaria r che nel caso di regressione lineare può esprimersi anche con:

La 7) si applica a tutti i casi di regressione e definisce il coefficiente generalizzato di correlazione.

Esponiamo un esempio di regressione lineare relativamente alla quantità di acqua assorbita al giorno da un materiale in funzione dell’umidità atmosferica (dati in valori percentuali).

X UR

H2O

Il diagramma di dispersione è il seguente:

Si hanno i seguenti valori dei parametri:

A= -2,51; B = 0,32 da cui Y = -2,51+0,32x. Ed ancora:

S_xx= 1287,73 ; S_yy= 147,6 ; = 12,25; = 46,13

La somma dei quadrati dei residui SS_R è = 13,08 da cui il coefficiente di determinazione

R2 = 1-SS_R/ S_yy = 1-13,08/147,6 = 0,91

esprimente un’ottima adeguatezza della retta di regressione ai valori Y delle misurazioni. Solo il 9% della variabilità è dovuta alla varianza delle misurazioni stesse