Sia data una grandezza
di misura
Y, di natura aleatoria od affetta di imprecisione aleatoria
che si ritiene possa essere funzione di una o più variabili
indipendenti
xi.
Sia così:
,
o nel caso di relazione lineare
dove
e è una indeterminazione casuale di
valore medio nullo e gli
i sono dei parametri da determinare. La
curva interpolatrice dedotta dai vari valori di
x e
quelli corrispondenti e misurati di
Y è
la curva di regressione ed i coefficienti
i sono i coefficienti di
regressione.
Nel caso più semplice e più usuale, la relazione è supposta lineare
nei confronti di una sola variabile indipendente,
x.
Si ha così :
In un piano cartesiano
X,Y rappresentiamo le coppie
x,Y. Esse formano il diagramma di dispersione della relazione
come nelle figg. qui sotto:
Fig. 1 Diagrammi di dispersione
Nel primo caso è
individuabile una relazione lineare , nel secondo una quadratica
,
nel terzo pare mancare una correlazione qualsivoglia.
Ipotizziamo che esista una correlazione lineare (regressione lineare
semplice) tra i valori di x e quelli di y, rappresentabile da una
retta:
Come determinare a
partire dai dati del campione, indichiamoli
Yi e
xi, i valori migliori A e B di
e
?
Utilizziamo il metodo dei minimi quadrati pubblicato da Legendre nel
1795 ma già utilizzato da Gauss nel 1795. I valori di
A e
B saranno quelli che renderanno minima la “distanza” tra la
curva ipotizzata (nel nostro caso una retta) ed i valori
Yi del campione. Espressione migliore di tale “distanza” è la
sommatoria dei quadrati delle differenze tra i valori ipotizzati (in
numero di n) dalla curva teorica
Y*i = A+Bxi e quelli osservati
Yi.
Dall’analisi matematica la variabile
D, che è la somma dei quadrati dei “residui” ,vista come
funzione di
A e
B, essendo sempre positiva e derivabile, avrà un minimo dove
si annullano le derivate parziali rispetto ad
A e
B.
In questo caso si avrà:
Si ottiene, risolvendo il sistema:
E ponendo
Abbiamo ancora, rimaneggiando le sommatorie e
tenendo conto della definizione della media, alcune notazioni utili:
Così che si avrà :
e
L’espressione:
rappresenta il coefficiente di correlazione
campionaria. Quando esso è > di
0 i dati sono correlati positivamente, quando è <
0 negativamente. Il valore assoluto di
r,
|r|
è1.
Importante è l’espressione
,
dove
Y*
è il valore stimato di
Y
sulla linea di regressione, che diventa:
(SSR/n)1/2
che per una correlazioni lineare ha l’espressione
,
è l’errore standard della stima che tiene conto della variazione di
Y
al variare dei dati di ingresso
x .
Sviluppando la 8) con le espressioni di
A
e di
B
si ha:
Abbiamo ancora che:
SSR/Syy
= 1-(SxY)2/SxxSyy
La grandezza
esprime la variabilità totale, rispetto alla media delle risposte o
dati misurati
Y,
mentre la grandezza
SSRmisura la variabilità delle risposte rispetto ai dati
stimati dalla regressione.
La grandezza
Syy -
SSRè rappresentativa della quota parte
della variabilità totale spiegata dalla variabilità dei valori di
ingresso
xi
La grandezza:
(L’ultima uguaglianza
essendo valida per la regressione lineare e polinomiale) è la
frazione della variabilità
Syydi questa quota parte ed è chiamata coefficiente di
determinazione.
R2
varia da
1 a
0.
Per
R2
tendente a
1 (SSR
si approssima a
0)
i punti
Yi,
xi
tendono a disporsi sulla retta di regressione; nel contrario essi
tendono ad allontanarsene.
Essa corrisponde al
quadrato del coefficiente di correlazione campionariar
che nel caso di regressione lineare può esprimersi anche con:
La 7) si applica a
tutti i casi di regressione e definisce il coefficiente
generalizzato di correlazione.
Esponiamo un esempio di
regressione lineare relativamente alla quantità di acqua assorbita
al giorno da un materiale in funzione dell’umidità atmosferica (dati
in valori percentuali).
X UR
46
53
29
61
36
39
47
49
52
38
55
32
57
54
44
Y
H2O
12
15
7
17
10
11
11
12
14
9
16
8
18
14
12
Il diagramma di dispersione è il seguente:
Si hanno i seguenti valori dei parametri:
A= -2,51; B =
0,32 da cui Y = -2,51+0,32x. Ed ancora:
Sxx=
1287,73 ; Syy= 147,6 ;
= 12,25;
= 46,13
La somma dei quadrati dei residui
SSR è
= 13,08 da cui il coefficiente di determinazione
R2 = 1-SSR/
Syy = 1-13,08/147,6 = 0,91
esprimente un’ottima
adeguatezza della retta di regressione ai valori Y delle
misurazioni. Solo il 9% della variabilità è dovuta alla varianza
delle misurazioni stesse