Abbiamo visto che i
valori stimati A e B per i parametri
e
di una regressione lineare Y =
+
xi utilizzando il metodo
dei minimi quadrati hanno l’espressione
Mentre la somma dei
residui
è data da:
Con ancora:
=
media dei valori rilevati Yi
=
media degli ingressi xi
Abbiamo supposto che i valori rilevati
Yi siano
delle variabili aleatorie normali con valore medio
+xi
e varianza
per cui A,
B e
SSR saranno
anch’essi variabili aleatorie. Si ha utilizzando l’espressione e le
proprietà della media E e della varianza Var:
Inoltre A
e B in quanto
combinazioni lineari delle variabili normali
Yi risultano
essere variabili normali cioè:
mentre SSR/
ha distribuzione chi-quadro con n-2 gradi di libertà:
SSR/~x2
n-2. Discende
dalle 4) che
è una normale standard e
Fig.1 - Sealy Gosset, statista, allievo di Karl
Pearson,chimico di formazione, impiegato alla fabbrica di
birra Guiness, creatore del celebre test “t” pubblicato
sotto lo
pseudonimo “Student”
è la distribuzione t di Student con n-2 gradi di
libertà tn-2.
A partire da tali formulazioni si può stabilire
test statistici ed intervalli di confidenza sui parametri della
regressione
e
β.
L’inferenza sulla
decidere se accettare l’ipotesi
H0 che
β
sia =
β0
contro l’ipotesi H1
che
β
sia
β0
(od ancora maggiore oppure minore di
β0)
si determina dalla distribuzione
t di Student
con n gradi di libertà, individuando nelle curve o nelle tabelle
l’intervallo
è il valore di T la cui
probabilità di superamento è =
/2
od
essendo
il livello di significatività prescelto.
Se il valore di
T chiamiamolo
T0 dato da
è compreso in questi intervalli
l’ipotesi H0
è accettabile. In un altro modo definiamo “P dei dati” la
probabilità che il valore assoluto di
t sia > di quello di
T0. Si
rifiuterà l’ipotesi nulla che
β sia
da β0
se tale probabilità è <
.
Per determinare gli intervalli di confidenza
(bilaterale) di β
ad es al 1-γ si
consideri che ciò equivale a determinare di
t entro il quale
si colloca
con la probabilità pari a 1-γ
Questo intervallo, data la simmetria della curva
“t” attorno allo
0, è -t γ/2,n-2
<T< t γ/2,n-2,
si ha cioè:
Ciò equivale a:
E l’intervallo cercato per
β è:
Analogalmente per il parametro si può procedure per il
parametro
la cui variabile di Student associata è
Si ottiene ad es. per l’intervallo di confidenza
bilaterale al livello 1-γ
Fig. 2 - Curva di probabilità cumulata
P(X ≤
x) della
distribuzione t di Student per alcuni gradi di libertà
Importante è il caso in cui si debba verificare
l’ipotesi che non vi sia correlazione tra le variabili x ed y cioè
che Ho =
0 se β
= 0
In tal caso si ha:
e si rifiuta Ho
al livello di significatività γ se
dove t γ/2,
n-2 è il valore di
T la cui
probabilità
P(T > t
γ/2, n-2) = γ/2
Definite le inferenze su
A e su
B è possibile definire
la risposta media in termini di intervallo di confidenza, attorno ad
A+B x0, di
+ βx0
per un valore di ingresso x0
si ha, tenendo conto della media di
A+B x0=+βx0
per la radice quadrata di
SSR/
~ x2
n-2 si ha che:
E l’intervallo di confidenza al livello 1-γ
di (+βx0
) diventa:
Esso è minimo per
x0 =
ove assume il valore:
Con analoghi ragionamenti si può determinare
l’intervallo di confidenza, attorno al valore
A+ Bx0,
della risposta Y ad un
ingresso x0.
Sappiamo che
per cui la loro differenza standardizzata sarà
che diventerà una t con n-2 gradi di libertà
dividendo per (SSR/
((n-2))
E l’intervallo di confidenza di
Y per un ingresso x0 al
livello 1-C sara:
Fig. 3 - Accumulo della neve a Belluno (Castion) e Trento(
Gardolo).
Anni 2000 / 2001-2011/2012
Nella fig. 3 è riportato il diagramma di
dispersione della caduta di neve a Belluno e Trento negli ultimi 12
anni. Lo scarto interannuale è molto grande ed il coefficiente di
determinazione R2 è attorno al 2 % in entrambi i casi ciò significa
che il 98% della variabilità delle Y è imputabile alla aleatorietà
propria del fenomeno e non già ad una tendenza evidenziabile nel
corso dei 12 anni considerati. La correlazione tra le nevicate a
Belluno e Trento è invece molto alta, r = 0,84 indice che le due
località fanno parte di un’area climatica molto simile.
Verifichiamo, per Belluno, se l’ipotesi
H0 che β
sia = 0 è sostenibile
ad un certo livello di significatività
γ, diciamo del 10%.
Abbiamo SXX=182
SRR=15336 B=0,43 n=13
Da cui:
L’ipotesi H0
non può essere assolutamente respinta.