DHTML JavaScript Menu Courtesy of Milonic.com

Genova        
Numero 39-40, anno XI        
Maggio 2011        

Google: bing:  

 

di Diego Rosa

Parte terza

La distribuzione normale o gaussiana


Immagine 1 - Abrahm De Moivre (1667-1754) Matematico francese cui sono dovuti importanti contributi alla teoria delle probabilità

Quando il parametro n della distribuzione binomiale diventa molto grande questa tende ad una funzione di densità di probabilità normale o gaussiana che ha l’espressione:

Dove μ è la media o valore atteso di x, E[x], e σ è lo scarto quadratico medio e σ2 la varianza = E[(x- μ)2] come si deduce effettuando il calcolo.

Tale funzione fu introdotta originariamente dal matematico francese Abrahm De Moivre per approssimare proprio le probabilità associate alle variabili binomiali. Il grande Gauss la utilizzò per determinare la distribuzione degli errori nelle misure astronomiche .

La funzione di distribuzione o ripartizione è data da:

che esprime la probabilità che la variabile aleatoria sia ≤ x

 

Ponendo z = (x-μ)/σ, la 1) diventa:

e la 2):

che sono la densità e la ripartizione della variabile aleatoria normale standard z con media = 0 e varianza = 1.

Fig.1 - La distribuzione normale per una variabile standardizzata Fig.2 - Funzioni di ripartizione della variabilenormale per alcuni valori di μ e di σ2

Il coefficiente nasce dalla necessità che Φ, con z estesa a tutta la retta reale, = sia = 1 (per la definizione di densità di probabilità). Il calcolo dell’integrale è pressoché immediato se conosciamo l’integrale della funzione . Consideriamo g2 che possiamo scrivere come . Passando alle coordinate polari ρ, θ, si ha: x = ρsinθ, y = ρcosθ, x2+y2= ρ2, mentre come area elementare di integrazione su tutto il piano si può considerare ρdθdρ con ρ che va da 0 a ∞ e θ da 0 a 2π. Così si ottiene :

Da cui g = Con semplice cambiamento di variabile si ottiene:

La 1) è la più importante tra le funzioni di una variabile aleatoria anche perché è la distribuzione che scaturisce dal teorema del “ Limite centrale” che giustifica teoricamente evidenze empiriche provenienti dalla fisica, dalla climatologia, dalla biologia, dalla sociologia, e dalla statistica in genere. Data la sua importanza esporremo questo teorema qui di seguito.

Il teorema del limite centrale


Immagine 2 - Carl Friedrich Gauss (1777-1855). Uno dei più grandi matematici della storia

Diamo per acquisita la conoscenza dei principali concetti dell’analisi matematica in particolare dello sviluppo in serie delle funzioni elementari.

Ricordiamo che per una funzione continua f(x) derivabile n volte in un intervallo contenente il punto x0 e almeno n+1 volte in x0 si ha:

5)  f(x) = f(x0)+f′(x0)(x-x0)+f′′(x0)(x-x0)2/2!+…+f(n) (x0)(x-x0)n/n! +R(n)

dove f(n) è la derivata na di f(x) e n!=n(n-1)(n-2)..1 è il fattoriale di n mentre R(n) rappresenta il resto n° della serie che secondo Lagrange che può essere espresso con :

6)  R(n) = f(n+1) (x0)(x-ξ)n+1/(n+1)!

Dove ξ è un punto opportuno, peraltro sconosciuto, nell’intervallo compreso tra x0 e x e R(n) può tendere a 0 per n tendente all’infinito per x in un opportuno intervallo attorno a x0 (è il caso delle funzioni così dette analitiche):

 

7) lim n→∞R(n) = 0

Si può ugualmente dimostrare che la differenza

F(x)=f(x) - f(x0)+f′(x0)(x-x0)+f′′(x0)(x-x0)2/2+…+f(n) (x0)(x-x0)n/n!

è infinitesima di ordine superiore a (x-x0)n con x-x0 infinitesimo. Cioè:

lim xx0 F(x)/ (x-x0)n = 0

Se la f(x) è indefinitamente derivabile ed il limite 7) è soddisfatto nell’intervallo si ha :

8)  f(x)= f(x0)+f′(x0)(x-x0)+f′′(x0)(x-x0)2/2+…+f(n) (x0)(x-x0)n/n!+…

che definisce la serie di Taylor della funzione. Se x0=0 la 3) diviene:

9)  f(x)= f(0)+f′(0)x+f′′(0) x2/2+…+f(n) (0)xn/n!+…

e definisce la serie di Mac Laurin della funzione stessa.

Abbiamo ad esempio applicando la 9):

10)  ex = 1+x+x2/2 + x3/3!+… 

11)  sinx = x-x3/3!+x5/5!-… 

    12)  cosx =1-x2/2+x4/4!- x6/6!+… 

    13)  (1+x)n = 1+nx+n(n-1)x2/2+n(n-1)(n-2)x3/3!+…

(se il valore assoluto di x è< 1 e n reale arbitrario)

Definiamo ora la funzione generatrice dei momenti φ(t). Essa è la media o valore atteso della funzione esponenziale etX della variabile aleatoria X avente probabilità discreta p(x) o densità f(x):

14)  φ(t) = E[etx] = Σ  etx p(x)       se X è discreta e

    

Dalla 10) abbiamo che etx può essere espressa come

etx = 1+tx+t2x2/2 + t3x3/3!+…

e la funzione generatrice (se esiste ed è limitata) φ(t) diventa:
(la media di una somma è la somma delle medie)

16)  φ(t)= 1+ tE(X)+ t2/2 E(X2)+ t3/3!E(X3)+…

Derivando n volte la 16) tenendo conto che la derivata na di tn , (tn)(n)

è = n(n-1)(n-2)…1= n!, quella ma di tn = n(n-1)…(n-m+1)tn-m

se m<n ed è = 0 se n>m, si ha derivando successivamente e calcolando la derivata nel punto x = 0

φ’(0)= E(X), φ”(0)= E(X2), φ(0)(n) = E(Xn).

Cioè la 16) porge i momenti (valori medi delle varie potenze della variabile aleatoria X) che rappresentano i termini costanti (a meno dei fattoriali) dello sviluppo in serie di Mac Laurin della funzione φ(t). Ciò torna talora estremamente utile per calcolare il valore atteso e la varianza di funzioni di densità di probabilità complesse.

Si dimostra infatti facilmente che la varianza di X di media μ, è data da = E(X2 )-E(X)2

17)  Var (X)= E(X-μ)2 = E(X2+ μ2 -2Xμ) = E(X2) + μ2 -2 μ2 = E(X2 )-E(X)2

Essendo la media di una somma di variabili aleatorie pari la somma delle loro medie, la media di una costante e del suo prodotto per una variabile aleatoria risp. la costante stessa ed il suo prodotto per la media della variabile.

Si ha, da semplici considerazioni, che la funzione generatrice della somma di 2 o più variabili aleatorie indipendenti è il prodotto delle funzioni generatrici degli addendi . Cioè:

18)  φX+Y+…(t) = E[et(x+y+…)] = E(etxety…)= E(tx)E(ty)… = φ(t)X φ(t)Y

e se X,Y… hanno la stessa distribuzione probabilistica e dunque la stessa φ(t):

19) φX+Y+…(t) = φSn(t) = φ(t)n

se n è il numero degli addendi del somma Sn.

Ed ancora:

20) φ(at) = E(eatx) = E(etax)= φaX(t)

Vale inoltre questa considerazione fondamentale :

Se due funzioni di densità di probabilità, f1(x) e f2(x), hanno la stessa funzione generatrice dei momenti φ(t), esse sono uguali.

Una dimostrazione molto bella è la seguente.

Ammettiamo che f1(x) e f2(x) siano diverse ed espandibili in serie di potenze e consideriamo la differenza:

 g(x) = f1(x) - f2(x). Espandiamola in serie di Mac Laurin:

 g(x)= a0+ a1x+a2x2/2+a3x3/3!+a4x4/4! …

Moltiplichiamola ora per f1 e successivamente per f2 ed integriamo su tutto l’asse reale i due prodotti, ricordiamo che essendo f1 e f2 densità di probabilità

I due integrali sono uguali avendo per ipotesi f1 e f2 le stesse funzioni generatrici φ(t) e dunque gli stessi momenti E(xi).
Per cui si ha:

L’integrando è un quadrato essendo g(x)=f1(x)-f2(x), dunque sempre positivo e per aversi un integrale nullo deve essere necessariamente f1 = f2 contro l’ipotesi iniziale .

Se la funzione generatrice di una funzione di densità di probabilità non esiste, esiste sempre la funzione caratteristica definita come
Φ(t) = φ (it)= E(eitx) (con i = unità immaginaria) che corrisponde alla trasformata di Fourier di f(x).

Si ha la formula fondamentale (antitrasformata di Fourier):

Siano ora X ed Y due variabili aleatorie discrete o continue con valori medi risp. μX e μY. Il valore medio del prodotto del loro scarto dalla rispettiva media è detto covarianza: Cov(X,Y) = E[(x- μX)(y- μY)].

Sviluppando la parentesi otteniamo:

25)  Cov(X,Y) = E(XY)- E(X)E(Y)

D’altro canto per la definizione di media o valore atteso abbiamo:

26)  E(XY)= Σi Σj xiyj P(xi,yj)

se i valori sono discreti e forma integrale corrispondente se se i valori sono continui.

Se le variabili X ed Y sono indipendenti la probabilità P(xi,yi) diventa = P (xi)P(yi) e la 26):

27) E(XY)= Σi xiP(xi) ΣjyjP(yj) = E(X)E(Y)

Da cui  Cov(X,Y)=0

Estendo il concetto al prodotto di n variabili indipendenti si ha che E(X1X2X3…Xn) = E(X1)E(X2)..E(Xn).

Ancora è facile vedere, applicando la definizione di media che E(aX)=aE(X) e tenendo conto che la media di una somma di variabili X è pari alla somma delle medie si ha anche che la media aritmetica di n variabili avente ciascuna la media μ è pari ad μ.

Per quanto concerne la varianza abbiamo che se le variabili X e Y sono indipendenti e vale la 27) si ha:

28)  Var(X+Y)= Var(X)+Var(Y)

e dalla sua definizione stessa

29)  Var(aX) = a2Var(X)

Sicché la somma di n variabili aleatorie indipendenti Xi di media μ e varianza σ2 ha media , varianza 2 e scarto quadratico medio .

Sia ora una variabile aleatoria X di media μ e varianza σ2. La variabile espressa da (X- μ)/σ di media = 0 e varianza = 1 (come discende da quanto sopra indicato e dal fatto che la varianza di una costante è = 0) è la variabile X standardizzata.

Tutto ciò visto enunciamo ora il teorema del limite centrale che nella sua forma più ristretta asserisce.

Sia Sn la somma di n variabili aleatorie X1,X2,…Xn che hanno la stessa distribuzione probabilistica con media μ e varianza σ2.

Allora la variabile standardizzata di Sn = Sn* = (Sn-nμ)/() tende ad avere una distribuzione normale per n che tende all’infinito. Si ha cioè:

avendo posto u = (Sn-nμ)/()  ed essendo P la probabilità.

Dimostrazione:

Riprendiamo la funzione generatrice di momenti ed applichiamola alla variabile aleatoria standardizzata Sn*. Abbiamo, tenendo conto che eu+v = euev e quanto visto sopra:

Ed avendo X1,X2 …Xn la stessa distribuzione ed essendo indipendenti per cui la media di un prodotto è = al prodotto delle medie:

Avendo scelto arbitrariamente X1 a rappresentare una delle n variabili aleatorie Sviluppando in serie l’esponenziale si ha:


Immagine 3 - Lyapunov Matematico russo (1857-1918).
A lui si devono importanti contributi sulle equazioni differenziali, la dinamica ed il calcolo delle probabilità

Da cui esplicitando e tenendo conto che E(X1-μ) = 0 e E(X1-μ)2 = σ2

   

Avendo indicato con o(t,n) il resto della serie, infinitesimo di ordine superiore a 1/n per ogni t e n→∞, se la funzione generatrice della variabile X1 esiste

Così la 32) diventa:

   35)  φSn*(t) = [1+t2/2n + o(t,n)]n = exp (t2/2) per n

Che è proprio la funzione generatrice dei momenti della variabile normale standardizzata.

Calcoliamo infatti la funzione caratteristica della 2)

  

Abbiamo:

  

Sostituendo si ha:

 

Questa relazione dà, estraendo dall’ integrale exp(1/2 t2) e ponendo x-t = u:

essendo = 1 l’espressione dell’ integrale moltiplicato per (è la densità della variabile normale standardizzata u integrata su tutto l’asse reale).

Il teorema del limite centrale è stato dimostrato valido sotto certe condizioni anche per variabili aleatorie indipendenti non identicamente distribuite (Lyapunov nel 1901 e Linderberg nel 1922)

Con simili passaggi semplificatori usati sopra, la funzione caratteristica della variabile normale non standardizzata è:

39) φ(t) = exp(μ t + σ2t2/2)