DHTML JavaScript Menu Courtesy of Milonic.com

Genova        
Numero 44, anno XII        
Maggio 2012        

Google: bing:  

 

di Diego Rosa

Parte Settima

Abbiamo visto che i valori stimati A e B per i parametri e di una regressione lineare Y = + xi utilizzando il metodo dei minimi quadrati hanno  l’espressione

Mentre la somma dei residui è data da:

Con ancora:

= media dei valori rilevati Yi

= media degli ingressi xi

Abbiamo supposto che i valori rilevati Yi siano delle variabili aleatorie normali con valore medio +xi e varianza per cui A, B e SSR saranno anch’essi variabili aleatorie. Si ha utilizzando l’espressione e le proprietà della media E e della varianza Var:

Inoltre A e B in quanto combinazioni lineari delle variabili normali Yi risultano essere variabili normali cioè:

mentre SSR/ ha distribuzione chi-quadro con n-2 gradi di libertà:

SSR/~x2 n-2. Discende dalle 4) che    è una normale standard e    

Anomalia termica USA agosto 2011
Fig.1 - Sealy Gosset, statista, allievo di Karl Pearson,chimico di formazione, impiegato alla fabbrica di birra Guiness, creatore del celebre test “t” pubblicato sotto lo
pseudonimo “Student”

è la distribuzione t di Student con n-2 gradi di libertà tn-2.

A partire da tali formulazioni si può stabilire test statistici ed intervalli di confidenza sui parametri della regressione e β.

L’inferenza sulla decidere se accettare l’ipotesi H0 che β sia = β0 contro l’ipotesi H1 che 

β sia β0 (od ancora maggiore oppure minore di β0) si determina dalla distribuzione t di Student con n gradi di libertà, individuando nelle curve o nelle tabelle l’intervallo   

è il valore di T la cui probabilità di superamento è = /2 od essendo il livello di significatività prescelto. 

Se il valore di T chiamiamolo T0 dato da     è compreso in questi intervalli

l’ipotesi H0 è accettabile. In un altro modo definiamo “P dei dati” la probabilità che il valore assoluto di t sia > di quello di T0. Si rifiuterà l’ipotesi nulla che β sia da β0 se tale probabilità è <  .

Per determinare gli intervalli di confidenza (bilaterale) di β ad es al 1-γ si consideri che ciò equivale a determinare di t entro il quale

si colloca     con la probabilità pari a 1-γ  

Questo intervallo, data la simmetria della curva “t” attorno allo 0, è -t γ/2,n-2 <T< t γ/2,n-2, si ha cioè:

Ciò equivale a:

E l’intervallo cercato per β è:

Analogalmente per il parametro si può procedure per il parametro la cui variabile di Student associata è    

Si ottiene ad es. per l’intervallo di confidenza bilaterale al livello 1-γ

Anomalia termica USA agosto 2011
Fig. 2 - Curva di probabilità cumulata P(X x) della
distribuzione t di Student per alcuni gradi di libertà

Importante è il caso in cui si debba verificare l’ipotesi che non vi sia correlazione tra le variabili x ed y cioè che Ho = 0 se β = 0

In tal caso si ha:

e si rifiuta Ho al livello di significatività γ se 
dove t γ/2, n-2 è il valore di T la cui probabilità

P(T > t γ/2, n-2) = γ/2

Definite le inferenze su A e su B è possibile definire la risposta media in termini di intervallo di confidenza, attorno ad A+B x0, di + βx0 per un valore di ingresso x0 si ha, tenendo conto della media di A+B x0=+βx0

per la radice quadrata di SSR/ ~ x2 n-2 si ha che:

E l’intervallo di confidenza al livello 1-γ di (+βx0 ) diventa:

Esso è minimo per x0 = ove assume il valore:

Con analoghi ragionamenti si può determinare l’intervallo di confidenza, attorno al valore A+ Bx0, della risposta Y ad un ingresso x0. Sappiamo che  

per cui la loro differenza standardizzata sarà

che diventerà una t con n-2 gradi di libertà dividendo per (SSR/ ((n-2))

E l’intervallo di confidenza di Y per un ingresso x0 al livello 1-C sara:


Fig. 3 - Accumulo della neve a Belluno (Castion) e Trento( Gardolo).
Anni 2000 / 2001-2011/2012

Nella fig. 3 è riportato il diagramma di dispersione della caduta di neve a Belluno e Trento negli ultimi 12 anni. Lo scarto interannuale è molto grande ed il coefficiente di determinazione R2 è attorno al 2 % in entrambi i casi ciò significa che il 98% della variabilità delle Y è imputabile alla aleatorietà propria del fenomeno e non già ad una tendenza evidenziabile nel corso dei 12 anni considerati. La correlazione tra le nevicate a Belluno e Trento è invece molto alta, r = 0,84 indice che le due località fanno parte di un’area climatica molto simile.

Verifichiamo, per Belluno, se l’ipotesi H0 che β sia = 0 è sostenibile ad un certo livello di significatività γ, diciamo del 10%. 

Abbiamo SXX=182   SRR=15336   B=0,43   n=13

Da cui:

L’ipotesi H0 non può essere assolutamente respinta.

 

Fine settima parte