%--------------------------------------------------------------------
\chapter { Probabilità discreta}
\setlength { \parindent } { 2pt}
\begin { multicols*} { 2}
Consideriamo in questa sezione soltanto i casi in cui $ \Omega $ è
un insieme discreto, cioè finito o numerabile. Gli associamo
in modo naturale la $ \sigma $ -algebra $ \PP ( \Omega ) $ .
\section { Funzione di densità discreta}
\subsection { Definizione per il caso discreto}
\begin { definition} [Funzione di densità discreta]
Per una probabilità $ P $ su $ \Omega $ si definisce
\textbf { funzione di densità discreta} (o di massa, o
più brevemenete di densità)
la funzione $ p : \Omega \to \RR $ tale per cui:
\[ p ( \omega ) = P ( \{ \omega \} ) , \quad \forall \omega \in \Omega . \]
\end { definition}
\begin { proposition} [$ P $ è univocamente determinata da $ p $ ]
Sia $ p : \Omega \to \RR $ una funzione tale per cui:
\begin { enumerate} [(i.)]
\item $ \sum _ { \omega \in \Omega } p ( \omega ) = 1 $ ,
\item $ p ( \omega ) \geq 0 $ per ogni $ \omega \in \Omega $ .
\end { enumerate}
Allora esiste un'unica probabilità $ P $ la cui funzione di densità
è $ p $ , e vale che:
\[
P(A) = \sum _ { a \in A} p(a).
\]
\end { proposition}
\subsection { Range di una probabilità discreta e restrizione}
\begin { definition} [Range di $ P $ ]
Sia $ P $ una probabilità su $ \Omega $ discreto e
sia $ p $ la sua funzione di densità. Si
definisce allora \textbf { range} $ R _ P $ di $ P $ il
supporto di $ p $ , ovverosia:
\[ R _ P \defeq \supp p = \{ \omega \in \Omega \mid p ( \omega ) > 0 \} \subseteq \Omega . \]
\end { definition}
\begin { definition} [Restrizione di $ P $ sul range]
Data $ P $ probabilità su $ \Omega $ discreto, si
definisce \textbf { probabilità ristretta sul range $ R _ P $ }
la misura di probabilità $ \restr { P } { R _ P } : \PP ( R _ P ) $ tale
per cui:
\[
\restr { P} { R_ P} (A) = P(A).
\]
\end { definition}
\begin { remark}
La definizione data è una buona definizione dal momento che
$ P ( R _ P ) = 1 $ .
\end { remark}
\begin { proposition} [Proprietà della restrizione di $ P $ sul range]
Sia $ P $ una probabilità su $ \Omega $ discreto e sia $ p $ la
sua funzione di densità. Allora vale che $ P ( A ) = \restr { P } { R _ P } ( A \cap R _ P ) $ .
\end { proposition}
\subsection { Misure di probabilità discrete su spazi campionari non discreti e discretizzazione}
\label { sec:discretizzazione}
\begin { definition} [Probabilità discreta su spazio campionario non discreto]
Dato $ ( \Omega , \FF , P ) $ spazio di probabilità con $ \{ \omega \} \in \FF $ per
ogni $ \omega \in \Omega $ , la probabilità $ P $ si dice \textbf { discreta} su
$ \Omega $ se esiste $ \Omega _ 0 \in \FF $ discreto e quasi certo ($ P ( \Omega _ 0 ) = 1 $ ).
In tal caso si dice che $ P $ si \textit { concentra} su $ \Omega _ 0 $ .
\end { definition}
\begin { definition} [Discretizzazione di $ P $ discreta su $ \Omega $ ]
Se $ P $ è una probabilità discreta su $ \Omega $ concentrata su $ \Omega _ 0 $ ,
si definisce \textbf { discretizzazione di $ P $ } la misura di probabilità $ P _ 0 $
su $ ( \Omega _ 0 , \PP ( \Omega _ 0 ) ) $ la cui funzione di densità discreta
è la mappa $ p $ per la quale $ \Omega _ 0 \ni \omega _ 0 \mapsto P ( \{ \omega _ 0 \} ) $ . Equivalentemente
vale che:
\[
P_ 0(A) = \sum _ { a \in A} p(a) = P(A), \quad \forall A \in \PP (\Omega _ 0).
\]
\end { definition}
\begin { proposition} [Proprietà della discretizzazione di $ P $ ]
Se $ P $ è una probabilità discreta su $ \Omega $ concentrata su $ \Omega _ 0 $ , allora
vale che:
\[
P(A) = P(A \cap \Omega _ 0) = P_ 0(A \cap \Omega _ 0) = \sum _ { a \in A \cap \Omega _ 0} p(a),
\]
dove $ p $ è la funzione di densità di $ P _ 0 $ . Segue dall'identità $ P ( A \cup \Omega _ 0 ) = 1 $ e dalla definizione di discretizzazione.
\end { proposition}
\begin { remark}
In perfetta analogia al caso totalmente discreto, la discretizzazione
di $ P $ discreta su $ \Omega $ e concentrata su $ \Omega _ 0 $ è univocamente
determinata da $ p $ .
\end { remark}
\begin { remark}
Se $ \Omega $ è discreto, allora si può sempre discretizzare
$ P $ al suo range $ R _ P $ .
\end { remark}
\begin { remark}
\label { remark:identità_ discreta_ dirac}
Se $ P $ è una probabilità discreta e, per $ a \in \Omega $ , $ \delta _ a $ è il \textbf { delta di Dirac} , ovverosia
la probabilità per cui $ \delta _ a ( A ) = 1 $ se $ a \in A $ e $ \delta _ a ( A ) = 0 $ se $ a \notin A $ , allora vale
la seguente identità:
\[
P = \sum _ { \omega \in R_ P} p(\omega ) \, \delta _ { \omega } ,
\]
dove si osserva che $ R _ P $ è numerabile (dacché $ P $ è discreta).
\end { remark}
\section { Variabili aleatorie discrete}
\subsection { Definizione di v.a.~discreta e composizione}
\begin { definition} [Variabile aleatoria discreta]
Dato $ S \neq \emptyset $ , si definisce \textbf { variabile
aleatoria} (discreta) su $ \Omega $ discreto, abbreviata \va , una funzione
$ X : \Omega \to S $ . $ X $ si dice \textbf { variabile aleatoria reale}
(v.a.~reale) se $ S \subseteq \RR $ o \textbf { variabile aleatoria vettoriale}
(v.a.~vettoriale, o \textit { vettore aleatorio} ) se $ S \subseteq \RR ^ n $ per
qualche $ n \in \NN $ . \smallskip
Dato $ S \neq \emptyset $ , definiamo $ \VA ( \Omega , S ) $ come l'insieme
delle v.a.~discrete di $ \Omega $ che hanno $ S $ per codominio.
\end { definition}
\begin { remark}
Si può dotare $ \VA ( \Omega , \RR ) $ di una struttura di algebra, oltre che di
spazio vettoriale, dove le operazioni di somma vettoriale, di prodotto
esterno e di prodotto tra vettori sono completamente naturali. \medskip
Se $ \Omega $ è finito, allora $ \VA ( \Omega , \RR ) $ è naturalmente isomorfo
a $ \RR ^ { \# \Omega } $ come spazio vettoriale, mentre
nel caso di $ \Omega $ numerabile $ \VA ( \Omega , \RR ) $ ammette una base non numerabile.
\end { remark}
\begin { definition} [Composizione di v.a.~discrete]
Data $ X \in \VA ( \Omega , S ) $ e una funzione $ F : S \to S' $ ,
si definisce la \textbf { composizione di $ X $ tramite $ F $ }
come $ F ( X ) = F \circ X \in \VA ( \Omega , S' ) $ .
\end { definition}
\subsection { Legge di una v.a.~\texorpdfstring { $ X $ } { X} e costruzione canonica}
Nel caso di $ \Omega $ discreto, $ S _ X $ , ossia l'immagine della v.a.~$ X $ , è
ancora un insieme discreto. Questo ci porta alla:
\begin { proposition}
Sia $ X : \Omega \to S $ una v.a.~discreta di $ \Omega $ .
Sia $ P' $ la misura di probabilità sullo spazio misurabile
$ ( S, \PP ( S ) ) $ tale per cui:
\[
P'(A) = P(X \in A) = P(X\inv (A)).
\]
Allora $ P' $ si concentra su $ S _ X $ e dunque vale che:
\[
P'(A) = P'(A \cap S_ X).
\]
\end { proposition}
\begin { definition} [Legge di $ X $ ]
Data una v.a.~$ X : \Omega \to S $ , si definisce \textbf { legge di $ X $ } (o \textit { distribuzione
di $ X $ } ) la discretizzazione $ P ^ X = \restr { P' } { S _ X } $ che
agisce sullo spazio misurabile $ ( S _ X, \PP ( S _ X ) ) $ , dove
$ P' $ è tale per cui $ P' ( A ) = P ( X \in A ) = P ( X \inv ( A ) ) $ .
Equivalentemente vale che:
\[
P^ X : \PP (S_ X) \ni A \mapsto P(X \in A) = P(X\inv (A)).
\]
Si indica con $ p _ X $ la funzione di densità discreta di $ P ^ X $ .
Per $ P ^ X ( A ) $ con $ A \subseteq S $ si intenderà
$ P ^ X ( A \cap S _ X ) $ , e analogamente $ p _ X ( x ) $ si estende in modo
tale che valga $ 0 $ per $ x \notin S _ X $ .
\end { definition}
\begin { remark}
Dalla definizione della legge di $ X $ si ricava immediatamente che:
\[
P(X \in A) = P^ X(A) = \sum _ { x \in A} p_ X(x) = \sum _ { x \in A} P(X = x),
\]
dove si osserva che $ X \in A = \bigcupdot _ { x \in A } ( X = x ) $ .
\end { remark}
\begin { remark}
Il range di $ P ^ X $ è:
\[ R _ X \defeq R _ { P ^ X } = \{ x \in S \mid p _ X ( x ) = P ( X = x ) > 0 \} , \]
ovverosia $ R _ { P ^ X } $ è composto dagli elementi di $ S $ le cui
controimmagini non siano trascurabili rispetto a $ P $ .
\end { remark}
\begin { remark}
Dato uno spazio di probabilità $ ( S, \PP ( S ) , Q ) $ con
$ \Omega $ discreto è sempre possibile trovare uno
spazio di probabilità $ ( \Omega , \PP ( \Omega ) , P ) $ e una
v.a.~$ X : \Omega \to S $ tale per cui $ P ^ X = Q $ . \smallskip
È sufficiente porre $ \Omega = S $ , $ P = Q $ e $ X = \id _ { S } $
(\textbf { costruzione canonica} ). Infatti vale che:
\[
P^ X(A) = P(X \in A)) = P(A) = Q(A).
\]
\end { remark}
\begin { proposition}
Data una v.a.~$ X : \Omega \to S $ e una funzione $ f : S \to E $ ,
vale la seguente identità:
\[
p_ { f(X)} (e) = \sum _ { x \in f\inv (e)} p_ X(x).
\]
Equivalentemente vale che:
\[
P(f(X) = e) = \sum _ { x \in f\inv (e)} P(X = x).
\]
Segue dal fatto che $ ( f ( X ) = e ) = ( X \in f \inv ( e ) ) $ .
\end { proposition}
\subsection { Uguaglianza q.c., medesima legge e stabilità per composizione}
\label { sec:uguaglianza_ qc}
\begin { definition} [Uguaglianza quasi certa tra v.a.]
Date $ X $ , $ Y \in \VA ( \Omega , S ) $ , si dice che
\textbf { $ X $ è uguale a $ Y $ quasi certamente} ($ X = Y $ q.c.\footnote {
Nella definizione compare due volte la scrittura $ X = Y $ : la prima
volta si intende dire che la v.a.~$ X $ è uguale a quella $ Y $ q.c.,
mentre dove compare la seconda volta si intende l'insieme $ ( X = Y ) \subseteq \Omega $ .
} ) rispetto
alla probabilità $ P $ se
l'insieme $ ( X = Y ) = \{ \omega \in \Omega \mid X ( \omega ) = Y ( \omega ) \} $
è quasi certo rispetto a $ P $ .
\end { definition}
\begin { proposition} [Comportamento delle uguaglianze q.c.~sulla composizione]
Sia $ F : S \to S' $ . Siano $ X $ , $ Y \in \VA ( \Omega , S ) $ . Allora se
$ X = Y $ q.c., $ F ( X ) = F ( Y ) $ q.c. \smallskip
Segue considerando la seguente relazioni di insiemi: $ ( X = Y ) \subseteq ( F ( X ) = F ( Y ) ) $ .
\end { proposition}
\begin { definition} [Uguaglianza di leggi tra v.a.]
Data $ X \in \VA ( \Omega _ 1 , S ) $ e $ Y \in \VA ( \Omega _ 2 , S ) $ ,
si dice che \textbf { $ X $ e $ Y $ hanno la stessa legge} ,
e si scrive che $ X \deq Y $ o che $ X \sim Y $ , se
$ P _ { \Omega _ 1 } ^ X \equiv P _ { \Omega _ 2 } ^ Y $ .
\end { definition}
\begin { definition} [Variabili aleatorie i.d.]
Si dice che una famiglia di v.a.~sono \textbf { identicamente distribuite (i.d.)}
se condividono la stessa legge. \smallskip
Spesso sottintenderemo che tali v.a.~sono costruite sullo stesso $ \Omega $ .
\end { definition}
\begin { proposition}
Se $ X = Y $ q.c., allora $ X \deq Y $ . Segue considerando che
$ P $ è concentrata sull'insieme $ X = Y $ , e quindi ci si può sempre
restringere su questo insieme, interscambiando eventualmente
le v.a.
\end { proposition}
\begin { remark}
Per $ X $ , $ Y \in \VA ( \Omega , S ) $ v.a. non è generalmente vero che
$ X \deq Y $ implica $ X = Y $ q.c.
\end { remark}
\begin { proposition} [Comportamento delle uguaglianze di legge sulla composizione]
Sia $ F : S \to S' $ . Siano $ X $ , $ Y : \Omega _ 1 , \Omega _ 2 \groupto S $ v.a. Allora
se $ X \deq Y $ , $ F ( X ) \deq F ( Y ) $ .
\end { proposition}
\subsection { Variabile aleatoria multivariata, leggi congiunte e marginali}
\begin { definition} [Variabile aleatoria multivariata, o congiunta]
Data una famiglia $ ( X _ i : \Omega \to S _ i ) _ { i \in I } $ di
v.a.~discrete di $ \Omega $ con $ I $ ordinato, si definisce la \textbf { v.a.~congiunta} (o
\textit { blocco multivariato} ) la variabile discreta $ ( X _ i ) _ { i \in I } $ tale per cui:
\[
(X_ i)_ { i \in I} : \Omega \ni \omega \mapsto (X_ i(\omega ))_ { i \in I} \in \prod _ { i \in I} S_ i.
\]
Se $ I = [ n ] $ , scriviamo $ ( X _ 1 , \ldots , X _ n ) $ al posto di $ ( X _ i ) _ { i \in I } $ .
Sottintenderemo sempre che $ I $ è ordinato quando si nomina una famiglia
di v.a.~discrete.
\end { definition}
\begin { definition} [Legge e densità congiunta]
Data una famiglia $ ( X _ i : \Omega \to S _ i ) _ { i \in I } $ di
v.a.~discrete di $ \Omega $ e $ P $ probabilità su $ \Omega $ discreto,
si dice \textbf { legge congiunta} delle $ X _ i $
la legge relativa alla loro v.a.~congiunta, ovverosia
$ P ^ { ( X _ i ) _ { i \in I } } $ . Analogamente, con il
termine \textbf { densità congiunta} ci si riferirà
alla densità discreta della legge congiunta.
\end { definition}
\begin { definition} [Leggi e densità marginali]
Data una famiglia $ ( X _ i : \Omega \to S _ i ) _ { i \in I } $ di
v.a.~discrete di $ \Omega $ e $ P $ probabilità su $ \Omega $ discreto,
ci si riferisce con il termine di \textbf { legge marginale} a una qualsiasi
legge $ P ^ { X _ i } $ e con il termine di \textbf { densità marginale} alla relativa
funzione di densità discreta.
\end { definition}
\begin { remark}
La legge congiunta restituisce \textit { sempre} più informazioni rispetto
all'insieme delle leggi marginali. Infatti, si può sempre ricostruire una
legge marginale data la legge congiunta, ma non è sempre vero il
viceversa. \medskip
\end { remark}
\begin { remark}
Si osserva che vale la seguente identità:
\[
P^ { (X_ i)_ { i \in I} } \left (\prod _ { i \in I} A_ i\right ) = P\left (\bigcap _ { i \in I} (X_ i \in A_ i)\right ), \quad \forall A_ i \subseteq S_ i.
\]
Pertanto, nel caso finito vale che:
\[
P^ { (X_ 1, \ldots , X_ n)} \left (\prod _ { i \in I} A_ i\right ) = P\left (X_ 1 \in A_ 1, \ldots , X_ n \in A_ n\right ), \quad \forall A_ i \subseteq S_ i.
\]
\end { remark}
\begin { proposition}
Ogni densità marginale è univocamente determinata dalla densità
congiunta. In particolare nel caso finito vale che:
\[
p_ { X_ i} (x_ i) = \sum _ { \substack { x_ j \in S_ j \\ j \neq i} } p_ { (X_ 1, \ldots , X_ n)} (x_ 1, \ldots , x_ n).
\]
\end { proposition}
\subsection { Indipendenza di variabili aleatorie discrete e stabilità per congiunzione e composizione}
\begin { definition} [Indipendenza tra v.a.~discrete]
Sia $ ( X _ i : \Omega \to S _ i ) _ { i \in I } $ una famiglia di v.a.~discrete. Si dice che tale famiglia di v.a.~è \textbf { indipendente} se per ogni $ n $ e ogni famiglia finita di
indici distinti $ ( i _ j ) _ { j \in [ n ] } \subseteq I $ vale che:
\[
P(X_ { i_ 1} \in A_ { i_ 1} , \ldots , X_ { i_ n} \in A_ { i_ n} ) = \prod _ { j \in [n]} P(X_ { i_ j} \in A_ { i_ j} ), \quad \forall A_ { i_ j} \subseteq S_ { i_ j} .
\]
Equivalentemente tale famiglia è indipendente se:
\[
P^ { (X_ { i_ 1} , \ldots , X_ { i_ n} )} (A_ { i_ 1} \times \cdots \times A_ { i_ n} ) = \prod _ { j \in [n]} P^ { X_ { i_ j} } (A_ { i_ j} ), \quad \forall A_ { i_ j} \subseteq S_ { i_ j} .
\]
\end { definition}
\begin { definition} [Variabili aleatorie i.i.d.]
Data una famiglia di variabili aleatorie, si dice che
queste sono \textbf { indipendenti e identicamente distribuite (i.i.d.)}
se formano una famiglia di v.a.~indipendenti e se condividono
la stessa legge. \smallskip
Spesso sottintenderemo che tali v.a.~sono costruite sullo stesso $ \Omega $ .
\end { definition}
\begin { remark}
La definizione è equivalente a richiedere che per ogni scelta di $ A _ { i _ j } \subseteq S _ { i _ j } $ ,
$ X _ { i _ 1 } \in A _ { i _ 1 } $ , ..., $ X _ { i _ n } \in A _ { i _ n } $ formino una famiglia di eventi
collettivamente indipendenti. Pertanto è possibile sfruttare tutte
le proposizioni viste nella sottosezione \textit { \nameref { sec:indipendenza} } . \smallskip
Inoltre, se la famiglia $ ( X _ i ) _ { i \in I } $ è indipendente, lo è
chiaramente anche $ ( X _ { \sigma ( i ) } ) _ { i \in I } $ per ogni $ \sigma \in S ( I ) $
(in riferimento in particolare alla seconda identità presente nella definizione
di indipendenza tra v.a.).
\end { remark}
\begin { remark}
Una v.a.~costante è sempre indipendente con altre v.a., dal momento che
le sue uniche controimmagini sono $ \Omega $ e $ \emptyset $ , che sono indipendenti
da ogni evento.
\end { remark}
\begin { remark}
Si osserva che vale la seguente identità:
\[
P(X_ 1 \in A_ 1, \ldots , X_ n \in A_ n) = \sum _ { x_ i \in A_ i} P(X_ 1 = x_ 1, \ldots , X_ n = x_ n).
\]
\end { remark}
\begin { proposition}
Sia $ ( X _ i : \Omega \to S _ i ) _ { i \in I } $ una famiglia di v.a.~discrete. Allora
tale famiglia è indipendente se per ogni $ n $ e ogni famiglia finita di
indici distinti $ ( i _ j ) _ { j \in [ n ] } \subseteq I $ vale che:
\[
P(X_ { i_ 1} = x_ { i_ 1} , \ldots , X_ { i_ n} = x_ { i_ n} ) = \prod _ { j \in [n]} P(X_ { i_ j} = x_ { i_ j} ), \quad \forall x_ { i_ j} \in S_ { i_ j} .
\]
Equivalentemente, sono indipendenti se e solo se:
\[
p_ { (X_ { i_ 1} , \ldots , X_ { i_ n} )} (x_ { i_ 1} , \ldots , x_ { i_ n} ) = \prod _ { j \in [n]} p_ { X_ { i_ j} } (x_ { i_ j} ), \quad \forall x_ { i_ j} \in S_ { i_ j} .
\]
Segue dalla precedente osservazione.
\end { proposition}
\begin { proposition}
Sia $ ( A _ i ) _ { i \in I } $ una famiglia di eventi. Allora tale famiglia
è indipendente se e solo se la famiglia di v.a.~$ ( 1 _ { A _ i } ) _ { i \in I } $ è
indipendente. \smallskip
Segue dalla precedente proposizione; infatti $ ( 1 _ { A _ i } = 1 ) = A _ i $ e
$ ( 1 _ { A _ i } = 0 ) = A _ i ^ c $ .
\end { proposition}
\begin { proposition}
\label { prop:indipendenza_ composizione}
Sia $ ( X _ i : \Omega \to S _ i ) _ { i \in I } $ una famiglia di v.a.~discrete e
sia $ ( f _ i : S _ i \to S _ { i } ' ) _ { i \in I } $ una famiglia di funzioni. Allora
se $ ( X _ i ) _ { i \in I } $ è una famiglia di v.a.~indipendenti, anche
$ ( f _ i ( X _ i ) ) _ { i \in I } $ lo è. \smallskip
Segue dal fatto che $ ( f _ i ( X _ i ) \in A _ i ) = ( X _ i \in f \inv ( A _ i ) ) $ .
\end { proposition}
\begin { proposition}
\label { prop:indipendenza_ partizione}
Sia $ ( X _ i : \Omega \to S _ i ) _ { i \in I } $ una famiglia di v.a.~discrete e
sia $ I $ partizionato dagli $ I _ j $ , ovverosia $ I = \bigcupdot _ { j \in J } I _ j $ .
Allora se $ ( X _ i ) _ { i \in I } $ è una famiglia di v.a.~indipendenti, anche
$ ( ( X _ i ) _ { i \in I _ j } ) _ { j \in J } $ è una famiglia di v.a.~indipendenti. \smallskip
Segue applicando la definizione.
\end { proposition}
\begin { remark}
Le ultime due proposizioni permettono di ricavare molto velocemente l'indipendenza
di una certa famiglia di v.a.~discrete. Per esempio, se
$ X _ 1 $ , $ X _ 2 $ , $ X _ 3 $ , $ X _ 4 $ , $ X _ 5 \in \VA ( \Omega , \RR ) $ sono indipendenti,
si ricava immediatamente che $ X _ 1 $ , $ X _ 2 + X _ 3 $ e $ \max ( X _ 4 , X _ 5 ) $ sono
indipendenti a partire dal seguente albero, dove ogni colonna è una famiglia
di v.a.~indipendenti:
\[ \begin { tikzcd } [ cramped,column sep = scriptsize,row sep = tiny ]
{ X_ 1} & & { X_ 1} & & { X_ 1} \\
{ X_ 2} & & { (X_ 2, X_ 3)} & & { X_ 2+X_ 3} \\
{ X_ 3} & & { (X_ 4, X_ 5)} & & { \max (X_ 4, X_ 5)} \\
{ X_ 4} \\
{ X_ 5}
\arrow [squiggly, from=1-1, to=1-3]
\arrow [squiggly, from=2-1, to=2-3]
\arrow [curve={height=6pt}, squiggly, from=3-1, to=2-3]
\arrow [curve={height=6pt}, squiggly, from=5-1, to=3-3]
\arrow [squiggly, from=4-1, to=3-3]
\arrow ["{\operatorname{id}}", from=1-3, to=1-5]
\arrow ["{+}", from=2-3, to=2-5]
\arrow ["\max", from=3-3, to=3-5]
\end { tikzcd} \]
Infatti la prima operazione restituisce una famiglia indipendente
per la \textit { Proposizione \ref { prop:indipendenza_ partizione} } , e la seconda fa lo stesso
per la \textit { Proposizione \ref { prop:indipendenza_ composizione} } .
\end { remark}
\begin { remark}
Data una famiglia di probabilità $ ( P _ i ) _ { i \in [ n ] } $ su spazi misurabili discreti
$ ( S _ i, \PP ( S _ i ) ) $ è sempre possibile costruire uno
spazio discreto di probabilità $ ( \Omega , \PP ( \Omega ) , P ) $ equipaggiato di
una famiglia di v.a.~$ ( X _ i : \Omega \to S _ i ) _ { i \in [ n ] } $ tale per cui
\begin { enumerate}
\item la famiglia $ ( X _ i ) _ { i \in [ n ] } $ è una famiglia di v.a.~indipendenti,
\item $ P ^ { X _ i } \equiv P _ i $ .
\end { enumerate}
È infatti sufficiente porre $ \Omega = \prod _ { i \in [ n ] } S _ i $ (il prodotto finito di discreti è discreto), $ X _ i = \pi _ i $ (la
proiezione dal prodotto cartesiano all'insieme $ S _ i $ ) con $ P $ probabilità
univocamente determinata dalla relazione:
\[
p(x_ 1, \ldots , x_ n) = \prod _ { i \in [n]} p_ i(x_ i).
\]
Infatti in tal caso varrebbe che:
\[
P(X_ 1 = x_ 1, \ldots , X_ n = x_ n) =
p(x_ 1, \ldots , x_ n) = \prod _ { i \in [n]} P(X_ i = x_ i).
\]
Tale costruzione si indica come $ P \defeq \bigotimes _ { i \in [ n ] } P _ i =
P_ 1 \otimes \cdots \otimes P_ n$ .
\end { remark}
\section { Valore atteso e momenti}
\subsection { Valore atteso su v.a.~integrabili e/o non negative}
\begin { definition} [Variabile aleatoria integrabile]
Sia $ X $ v.a.~reale. Si dice che $ X $ è \textbf { integrabile} (in senso discreto)
se:
\[
\EE [\abs{X}] \defeq \sum _ { \omega \in \Omega } \abs { X(\omega )} p(\omega ) < \infty ,
\]
ovverosia se $ \EE [ \abs { X } ] $ , detto il \textbf { momento primo assoluto} ,
converge (l'unica altra possibilità è che diverga, dacché
è una serie a termini positivi).
\end { definition}
\begin { definition} [Valore atteso di una v.a.]
Sia $ X $ v.a.~reale. Se $ X $ è integrabile si definisce
il \textbf { valore atteso} di $ X $ (o \textit { momento primo} ) come:
\[
\EE [X] \defeq \sum _ { \omega \in \Omega } X(\omega ) p(\omega ) \in \RR ,
\]
dove l'ultima appartenenza è data proprio dal fatto che $ \EE [ \abs { X } ] < \infty $ (e
dunque vi è convergenza assoluta, dacché $ p ( \omega ) \geq 0 $ ). \smallskip
Se $ X \geq 0 $ q.c.~, si definisce allora stesso modo $ \EE [ X ] $ , che però può assumere come
valore anche $ \infty $ ; e così per $ X \leq 0 $ q.c.~si pone
$ \EE [ X ] \defeq - \EE [ X ^ - ] $ . In questo modo ammettiamo eventualmente i valori
di $ \infty $ o $ - \infty $ . \smallskip
Diciamo che $ X $ \textbf { ha valore atteso} , se esiste un $ \EE [ X ] $ associatogli.
\end { definition}
\begin { remark}
Il valore atteso è da associarsi a un ``baricentro'' della distribuzione di
$ X $ , ovverosia, su una popolazione $ \Omega $ , misura quanto vale in media
la caratteristica data da $ X $ .
\end { remark}
\begin { remark}
Per la v.a.~$ 1 _ A $ con $ A \subseteq \Omega $ vale che
$ \EE [ 1 _ A ] = 1 \cdot P ( 1 _ A = 1 ) + 0 \cdot P ( 1 _ A = 0 ) = P ( A ) $ .
\end { remark}
\begin { remark}
Per $ X $ tale per cui $ \EE [ X ^ + ] $ , $ \EE [ X ^ - ] < \infty $ vale che:
\[
\EE [X] = \EE [X^+] - \EE [X^-] .
\]
Come vedremo, questo è un caso particolare della linearità di $ \EE [ \cdot ] $
(infatti $ X = X ^ + - X ^ - $ ).
\end { remark}
\begin { lemma} [Valore atteso tramite la legge]
Per $ X $ con valore atteso vale la seguente identità:
\[
\EE [X] = \sum _ { x \in R_ X} x \cdot p_ X(x) = \sum _ { x \in R_ X} x \cdot P(X = x).
\]
Segue dal fatto che $ \EE [ X ] = \sum _ { x \in R _ X } \sum _ { s \in X \inv ( x ) } x \cdot p ( s ) $ .
\end { lemma}
Questa proposizione può estendersi facilmente alla:
\begin { proposition} [Valore atteso della composizione tramite la legge]
Sia $ X : \Omega \to S $ v.a.~discreta e sia $ \varphi : S \to \RR $ . Allora vale che:
\begin { enumerate} [(i.)]
\item $ \varphi ( X ) $ è integrabile se e solo se $ \sum _ { x \in R _ X } \abs { \varphi ( x ) } P ( X = x ) < \infty $ ,
\item se $ \varphi ( X ) $ ha valore atteso, allora:
\[
\EE [\varphi(X)] = \sum _ { x \in R_ X} \varphi (x) \cdot p_ X(x) = \sum _ { x \in R_ X} \varphi (x) \cdot P(X = x).
\]
\end { enumerate}
Segue dal fatto che $ \EE [ \varphi ( X ) ] = \sum _ { x \in R _ X } \sum _ { s \in X \inv ( x ) } \varphi ( x ) \cdot p ( s ) $ .
\end { proposition}
\begin { remark} [Uguaglianza di valori attesi per leggi uguali]
Dal momento che $ \EE [ \varphi ( X ) ] $ dipende soltanto dalla legge di $ p _ X $ ,
$ X \deq Y \implies \EE [ \varphi ( X ) ] = \EE [ \varphi ( Y ) ] $ .
\end { remark}
\subsection { Proprietà del valore atteso e moltiplicatività per v.a.~indipendenti}
\begin { proposition}
\label { prop:prop_ valore_ atteso}
Siano $ X $ e $ Y $ due v.a.~reali con valore atteso. Allora vale che:
\begin { enumerate} [(i.)]
\item Se $ X = c $ q.c., allora $ \EE [ X ] = c $ ,
\item Se $ X \geq 0 $ q.c./integrabile, allora per $ a \in \RR ^ + $ , $ aX \geq 0 $ q.c./integrabile,
\item Se $ X $ ha valore atteso, allora per $ a \in \RR $ pure $ aX $ lo ha e $ \EE [ aX ] = a \, \EE [ X ] $ \footnote {
Si assume la convenzione per cui $ 0 \cdot \infty = 0 $ , $ a \cdot \infty = \sgn ( a ) \infty $ per
$ a \neq 0 $ .
}
\item Se $ X \geq 0 $ q.c.~o $ X \leq 0 $ q.c.~e $ \EE [ X ] = 0 $ , allora $ X = 0 $ q.c.,
\item Se $ X \leq Y $ q.c.~, allora $ E [ X ] \leq E [ Y ] $ ,
\item Se $ X $ e $ Y $ hanno valore atteso e non sono uno $ \infty $ e l'altro
$ - \infty $ , allora $ \EE [ X + Y ] = \EE [ X ] + \EE [ Y ] $ .
\end { enumerate}
\end { proposition}
\begin { proposition}
Siano $ X $ , $ Y : \Omega \groupto S $ , $ S' $ , due v.a.~indipendenti. Se $ g $ , $ h : S $ , $ S' \groupto \RR $ sono funzioni e $ g ( X ) $ e $ h ( Y ) $ ammettono valore atteso\footnote {
Si ammette in questo caso la convenzione per cui $ \infty \cdot \infty = \infty $ e
che $ - \infty \cdot \infty = - \infty $ .
} , allora vale che:
\[
\EE [g(X)h(Y)] = \EE [g(X)] \cdot \EE [h(Y)] .
\]
Usando che $ \EE [ g ( X ) h ( Y ) ] = \sum _ { ( x, y ) \in R _ { ( X, Y ) } } g ( x ) h ( y ) P ( X = x, Y = y ) $ , segue, per
l'indipendenza di $ X $ e $ Y $ , dal fatto che $ R _ { ( X, Y ) } = R _ X \times R _ Y $ e che $ P ( X = x, Y = y ) = P ( X = x ) P ( Y = y ) $ .
\end { proposition}
\begin { remark}
\label { remark:indipendenza_ valore_ atteso}
In particolare, per v.a.~reali $ X $ , $ Y $ indipendenti che ammettono valore atteso
vale che:
\[
\EE [XY] = \EE [X] \cdot \EE [Y] .
\]
\end { remark}
\begin { remark}
Dalla \textit { Proposizione \ref { prop:prop_ valore_ atteso} } si deduce che
$ \EE [ \cdot ] $ è un funzionale di $ \VA ( \Omega , \RR ) $ (ovverosia
$ \EE [ \cdot ] \in \VA ( \Omega , \RR ) ^ * $ ).
\end { remark}
\begin { proposition}
Sia $ X $ una v.a.~reale che assume valori naturali quasi certamente.
Allora vale che:
\[
\EE [X] = \sum _ { n \in \NN } P(X > n).
\]
In generale se $ X $ è una v.a.~reale che assume valori positivi il cui
range ordinato è $ ( x _ i ) _ { i \in I } $ (con $ I = \NN ^ + $ o $ I = [ k ] $ ),
allora, posto $ x _ 0 = 0 $ , vale che:
\[
\EE [X] = \sum _ { n \in \NN } (x_ { n+1} - x_ n) P(X > x_ n).
\]
\end { proposition}
\subsection { Valore atteso condizionale}
\begin { definition} [Valore atteso condizionale]
Sia $ X $ una v.a.~reale. Dato allora un evento
$ A \in \PP ( \Omega ) $ , si definisce il \textbf { valore atteso
condizionale} $ \EE [ X \mid A ] $ in modo tale che:
\[
\EE [X \mid A] \defeq \frac { \EE [X \cdot 1_A] } { P(A)} = \sum _ { \omega \in A} X(\omega ) \cdot P(\{ \omega \} \mid A).
\]
Alternativamente vale che:
\[
\EE [X \mid A] = \sum _ { x \in R_ X} x \cdot \frac { P((X = x) \cap A)} { P(A)} = \sum _ { x \in R_ X} x \cdot P(X=x \mid A).
\]
\end { definition}
Il valore atteso condizionale rimodula il valore atteso in modo
tale da considerare solamente le immagini di $ X $ possibili sotto
l'ipotesi che sia accaduto l'evento $ A $ . Pertanto è naturale
aspettarsi il seguente:
\begin { lemma} [Formula dei valori attesi totali, o formula della partizione dei valori attesi]
Sia $ X $ una v.a.~reale e sia $ ( A _ i ) _ { i \in [ n ] } $ un sistema di alternative
finito per $ \Omega $ . Allora vale che:
\[
\EE [X] = \sum _ { i \in [n]} \EE [X \mid A_i] P(A_ i).
\]
Segue considerando che $ X = X \cdot ( \sum _ { i \in [ n ] } 1 _ { A _ i } ) $ .
\end { lemma}
\subsection { Momenti (assoluti) \texorpdfstring { $ n $ } { n} -esimi}
\label { sec:momenti_ assoluti}
\begin { definition} [Momento $ n $ -esimo assoluto]
Data $ X $ v.a.~reale e $ n \in \RR ^ + $ , definiamo il
\textbf { momento assoluto di ordine $ n $ } (\textit { momento
$ n $ -esimo assoluto} , se esiste, $ \EE [ \abs { X } ^ n ] $ . \smallskip
Generalmente si pone più attenzione ai momenti $ n $ -esimi assoluti
con $ n $ intero positivo.
\end { definition}
\begin { definition} [Momento $ n $ -esimo]
Data $ X $ v.a.~reale e $ n \in \RR ^ + $ , se $ X $ ammette
momento $ n $ -esimo assoluto, allora $ X ^ n $ ammette
$ \EE [ X ^ n ] $ , che viene detto \textbf { momento $ n $ -esimo di $ X ^ n $ } .
\end { definition}
\begin { lemma}
Data $ X $ v.a.~reale e $ 1 \leq p \leq q $ in $ \RR $ ,
se $ \EE [ \abs { X } ^ q ] < \infty $ allora
$ \EE [ \abs { X } ^ p ] < \infty $ . \smallskip
Segue dal fatto che $ \EE [ \abs { X } ^ p ] $ è uguale
a $ \EE [ \abs { X } ^ p \cdot 1 _ { { \abs { X } > 1 } } + \abs { X } ^ p \cdot 1 _ { { \abs { X } \leq 1 } } ] $ ;
applicando la linearità di $ \EE [ \cdot ] $ e che $ x ^ p \leq x ^ q $ per $ x \geq 1 $ , si
ricava così che $ \EE [ \abs { X } ^ p ] \leq \EE [ \abs { X } ^ q ] + 1 $ .
\end { lemma}
\begin { remark}
Se $ X $ è limitata quasi certamente ($ \abs { X } \leq M $ q.c.~con $ M > 0 $ ),
allora $ X $ ammette momento $ n $ -esimo assoluto per ogni $ n \in \RR ^ + $
(segue dal fatto che $ \EE [ \abs { X } ^ n ] \leq M ^ m $ ).
\end { remark}
\begin { remark}
La disuguaglianza impiegata nello scorso lemma ha una generalizzazione
più ampia, che non dimostriamo, ma che segue dalla \textit { Disuguaglianza di Hölder} :
\[
\EE [\abs{X}^p] ^ { \frac { 1} { p} } \leq \EE [\abs{X}^q] ^ { \frac { 1} { q} } , \quad 1 < p < q.
\]
\end { remark}
\begin { lemma}
Se $ \EE [ \abs { X } ^ p ] $ , $ \EE [ \abs { X } ^ p ] < \infty $ , allora
$ \EE [ \abs { aX + Y } ^ p ] < \infty $ per ogni $ a $ , $ b \in \RR $ . \smallskip
Segue dal fatto che $ \abs { aX + Y } ^ p \leq 2 ^ { p - 1 } ( \abs { a } ^ p \abs { X } ^ p + \abs { Y } ^ p ) $ .
\end { lemma}
\subsection { Disuguaglianza di Markov, di Hölder, di Cauchy-Schwarz e di Jensen}
\begin { proposition} [Disuguaglianza di Markov]
Sia $ X \geq 0 $ v.a.~reale. Allora $ \forall a > 0 $ vale che:
\[
P(X \geq a) \leq \frac { \EE [X] } { a} .
\]
Segue considerando che $ X \geq a \cdot 1 _ { X \geq a } $ ,
e dunque $ \EE [ X ] \geq a \cdot \EE [ 1 _ { X \geq a } ] = a \cdot P ( X \geq a ) $ .
\end { proposition}
\begin { corollary}
Sia $ X $ v.a.~reale. Allora $ \forall a \neq 0 $ , $ \forall p > 0 $ vale che:
\[
P(\abs { X} \geq \abs { a} ) \leq \frac { \EE [\abs{X}^p] } { \abs { a} ^ p} .
\]
Segue dalla disuguaglianza di Markov.
\end { corollary}
In generale la disuguaglianza di Markov si può esprimere per composizione
con funzioni crescenti:
\begin { corollary}
Sia $ X $ v.a.~reale. Allora, se $ f : \RR \to [ 0 , \infty ) $ è crescente, $ \forall a \in \supp f $ (i.e.~$ f ( a ) \neq 0 $ ) vale che:
\[
P(X \geq a) \leq \frac { \EE [f(X)] } { f(a)} .
\]
Segue dalla disuguaglianza di Markov. Si osserva in particolare che non si è richiesto
che $ X $ fosse t.c.~$ X \geq 0 $ .
\end { corollary}
\begin { proposition} [Disuguaglianza di Hölder]
Siano $ X $ , $ Y $ v.a.~reali. Siano $ p $ , $ q > 1 $ coniugati (ossia t.c.~$ \frac { 1 } { p } + \frac { 1 } { q } = 1 $ ). Allora, se $ X $ ammette momento $ p $ -esimo assoluto e $ Y $ ammette momento
$ q $ -esimo assoluto, entrambi finiti, vale che:
\[
\EE [\abs{XY}] \leq \EE [\abs{X}^p] ^ { \frac { 1} { p} } \cdot \EE [\abs{Y}^q] ^ { \frac { 1} { q} } .
\]
Segue dalla usuale disuguaglianza di Hölder in analisi.
\end { proposition}
\begin { proposition} [Disuguaglianza di Cauchy-Schwarz]
Siano $ X $ , $ Y $ v.a.~reali. Allora, se $ X $ e $ Y $ ammettono momento secondo assoluto
finito, vale che:
\[
\EE [\abs{XY}] \leq \EE [\abs{X}^2] ^ { \frac { 1} { 2} } \cdot \EE [\abs{Y}^2] ^ { \frac { 1} { 2} } .
\]
Segue dalla usuale disuguaglianza di Cauchy-Schwarz in analisi o dalla disuguaglianza
di Hölder per $ p = q = \frac { 1 } { 2 } $ .
\end { proposition}
\begin { proposition} [Disuguaglianza di Jensen]
Sia $ X $ una v.a.~reale che ammette valore atteso.
Allora, se $ g : \RR \to \RR $ è una funzione
convessa che ammette valore atteso vale che:
\[
g(\EE [X] ) \leq \EE [g(X)] .
\]
Equivalentemente, se $ g $ è concava vale la disuguaglianza con
$ \geq $ al posto di $ \leq $ . Segue dall'usuale disuguaglianza di Jensen.
\end { proposition}
\section { Altri indici di centralità: moda e mediana}
Il valore atteso $ \EE [ X ] $ è considerato un \textbf { indice di centralità} dacché
fornisce un'idea del baricentro della distribuzione di $ X $ . Di seguito
sono definiti altri due indici di centralità celebri.
\begin { definition} [Moda]
Data una v.a.~reale $ X $ , si dice che $ x \in S _ X $ è una \textbf { moda}
se $ x $ è un massimo per $ P _ X $ . Una distribuzione in generale può avere
più mode.
\end { definition}
\begin { definition} [Mediana]
Data una v.a.~reale $ X $ , si dice che $ x \in S _ X $ è una \textbf { mediana}
se $ P ( X \leq x ) \geq \frac { 1 } { 2 } $ e $ P ( X \geq x ) \geq \frac { 1 } { 2 } $ .
\end { definition}
\begin { proposition}
Esistono sempre almeno una moda e almeno una mediana
per $ X $ v.a.~reale.
\end { proposition}
\section { Indici di dispersione: covarianza, varianza, dev.~standard e coeff.~di correlazione}
\subsection { Definizioni e covarianza come forma bilineare simmetrica}
\begin { definition} [Covarianza e v.a.~scorrelate]
Date due v.a.~reali $ X $ , $ Y $ con momento secondo finito,
si definisce \textbf { covarianza di $ X $ e $ Y $ } il termine:
\[
\Cov (X, Y) \defeq \EE [(X - \EE[X] )(Y - \EE [Y] )].
\]
Si dice che $ X $ e $ Y $ sono \textbf { scorrelate} se $ \Cov ( X, Y ) = 0 $ .
\end { definition}
\begin { definition} [Varianza]
Data una v.a.~reale $ X $ con momento secondo finito, si
definisce \textbf { varianza di $ X $ } il termine:
\[
\Var (X) \defeq \Cov (X, X) = \EE [(X -\EE[X] )^ 2] \geq 0,
\]
dove la non negatività segue dal fatto che $ ( X - \EE [ X ] ) ^ 2 \geq 0 $ .
\end { definition}
\begin { proposition}
$ \EE [ X ] $ è il termine che sostituito a $ m $ minimizza il valore $ \EE [ ( X - m ) ^ 2 ] $ .
\end { proposition}
\begin { definition} [Deviazione standard]
Data una v.a.~reale $ X $ che ammette varianza, si definisce
\textbf { deviazione standard di $ X $ } il termine:
\[
\sigma (X) \defeq \sqrt { \Var (X)} .
\]
\end { definition}
\begin { remark}
La deviazione standard misura quanto $ X $ si discosta mediamente da
$ \EE [ X ] $ , se esiste.
\end { remark}
\begin { remark}
La varianza e la deviazione standard sono
detti \textbf { indici di dispersione} della distribuzione
di $ X $ , dacché misurano
quanto le immagini di $ X $ distano mediamente dal valore
atteso $ \EE [ X ] $ .
\end { remark}
\begin { proposition}
\label { prop:cono_ isotropo}
Sia $ X $ una v.a.~reale che ammette varianza. Allora
$ \Var ( X ) = 0 $ se e solo se $ X $ è costante q.c. \smallskip
Segue dal fatto che $ \EE [ ( X - \EE [ X ] ) ^ 2 ] = 0 $ se e solo se
$ \EE [ X ] = X $ q.c., ovverosia se e solo se $ X $ è una costante.
\end { proposition}
\subsection { Identità sulla (co)varianza e disuguaglianza di Chebyshev}
\begin { proposition}
\label { prop:indipendenza_ cov}
$ \Cov ( \cdot , \cdot ) $ è una funzione simmetrica e
lineare in ogni suo argomento. In particolare per
$ X $ e $ Y $ con momento secondo finito vale che:
\[
\Cov (X, Y) = \EE [XY] - \EE [X] \EE [Y] .
\]
Pertanto due v.a.~indipendenti hanno covarianza nulla (i.e.~sono scorrelate)
per l'\textit { Osservazione \ref { remark:indipendenza_ valore_ atteso} } .
In particolare, la covarianza tra una qualsiasi costante q.c.~e
un'altra v.a.~reale è nulla.
\end { proposition}
\begin { remark}
La precedente proposizione mette ancora in luce come sia determinante la
legge congiunta $ p _ { ( X, Y ) } $ , usata per calcolare $ \EE [ XY ] $ , che
in generale le leggi $ p _ X $ e $ p _ Y $ , che pure si usano per calcolare
$ \EE [ X ] $ e $ \EE [ Y ] $ , non riescono a ricostruire.
\end { remark}
\begin { remark}
A partire dalla precedente proposizione si ricava che per $ X $ v.a.~reale
con momento secondo finito vale che:
\[
\Var (X) = \EE [X^2] - \EE [X] ^ 2.
\]
\end { remark}
\begin { remark}
Viste le proprietà discusse nella precedente proposizione
si può concludere che la covarianza sul sottospazio di $ \VA ( \Omega , \RR ) $
delle v.a.~con momento secondo finito
corrisponde a una forma bilineare simmetrica semidefinita positivo,
ovverosia a un prodotto scalare. \smallskip
Due v.a.~indipendenti sono ortogonali tramite $ \Cov $ per la
\textit { Proposizione \ref { prop:indipendenza_ cov} } . \smallskip
Al cono isotropo e al radicale di questo prodotto appartengono solo le costanti per la
\textit { Proposizione \ref { prop:cono_ isotropo} } . \smallskip
Se $ \varphi \defeq \Cov $ , vale che $ q _ \varphi \equiv \Var $ e $ \norm { \cdot } _ \varphi \equiv \sigma $ ,
ovverosia la varianza $ \Var $ è la forma quadratica associata alla covarianza $ \Cov $ ,
mentre $ \sigma $ ne è la norma.
\end { remark}
\begin { lemma}
Siano $ X _ 1 $ , ..., $ X _ n $ v.a.~reali con momento secondo finito. Allora vale che:
\[
\Var (X_ 1 + \ldots + X_ n) = \sum _ { i \in [n]} \Var (X_ i) + 2 \sum _ { 1 \leq i < j \leq n} \Cov (X_ i, X_ j).
\]
In particolare, se $ ( X _ i ) _ { i \in [ n ] } $ è una famiglia di v.a.~scorrelate a due a due (e.g.~indipendenti) vale che:
\[
\Var (X_ 1 + \ldots + X_ n) = \sum _ { i \in [n]} \Var (X_ i).
\]
\end { lemma}
\begin { lemma}
Sia $ aX + b $ una v.a.~reale con $ X $ che ammette momento secondo finito. Allora
vale che:
\[
\Var (aX + b) = a^ 2 \Var (X).
\]
Segue dal fatto che $ aX $ e $ b $ sono indipendenti, che $ \Var ( b ) = 0 $ e che
$ \Var $ è la forma quadratica di $ \Cov $ .
\end { lemma}
\begin { proposition} [Disuguaglianza di Chebyshev]
Sia $ X $ v.a.~reale con momento secondo finito. Allora $ \forall a > 0 $ vale
che:
\[
P(\abs { X - \EE [X] } > a) \leq \frac { \Var (X)} { a^ 2} .
\]
Segue dall'immediata applicazione della disuguaglianza di Markov.
\end { proposition}
\subsection { Coeff.~di correlazione e retta di regressione lineare}
\begin { definition} [Coefficiente di correlazione di Pearson, PCC]
Date $ X $ , $ Y $ v.a.~reali non costanti q.c.\footnote {
Infatti il coseno è definito solo per coppie di vettori anisotropi
ed il cono isotropo di $ \Cov $ è costituito dalle sole costanti q.c.
} ~e con momento secondo finito si definisce il \textbf { coefficiente di correlazione
di Pearson} (PCC) $ \rho ( X, Y ) $ , o più brevemente \textit { coefficiente di correlazione} ,
come il coseno di $ X $ e $ Y $ rispetto a $ \Cov $ , ovverosia:
\[
\rho (X, Y) \defeq \cos _ { \Cov } (X, Y) = \frac { \Cov (X, Y)} { \sigma (X) \cdot \sigma (Y)} .
\]
\end { definition}
\begin { lemma}
Date $ X $ , $ Y $ v.a.~reali non costanti q.c.~e con momento secondo finito vale che:
\begin { enumerate} [(i.)]
\item $ \abs { \rho ( X, Y ) } \leq 1 $ (per la disuguaglianza di Cauchy-Schwarz),
\item $ \rho ( aX + b, cX + d ) = \rho ( X, Y ) $ (per verifica diretta).
\end { enumerate}
\end { lemma}
\begin { theorem}
Siano $ X $ , $ Y $ v.a.~reali con momento secondo finito e non costanti q.c. Allora
la funzione:
\[
\RR ^ 2 \ni (a, b) \mapsto \EE [(Y - (aX + b))^2] \in \RR
\]
è ben definita e ammette un unico punto di minimo $ ( a ^ * , b ^ * ) $ , dove:
\[
a^ * = C_ { \Cov } (X, Y) = \frac { \Cov (X, Y)} { \Var (X)} , \quad b^ * = \EE [Y] - a^ * \EE [X] .
\]
Inoltre il valore di tale minimo è:
\[
\EE [(Y - (a^* X + b^*))^2] = \Var (Y) \cdot (1 - \rho (X, Y)^ 2).
\]
\end { theorem}
\begin { definition} [Retta di regressione (lineare)]
Date $ X $ , $ Y $ v.a.~reali con momento secondo finito e non costanti q.c.
si definisce \textbf { retta di regressione} (lineare) la retta $ y = a ^ * x + b ^ * $ .
\end { definition}
\begin { remark}
Dal precedente teorema si può ottenere una caratterizzazione della
correlazione lineare tra due v.a.~reali $ X $ e $ Y $ non costanti q.c.~e con
momento secondo finito. Infatti vale che:
\begin { itemize}
\item la retta di regressione di $ X $ e $ Y $ rappresenta la migliore approssimazione
lineare di $ Y $ tramite $ X $ ,
\item $ \rho ( X, Y ) \approx 0 $ ($ X $ , $ Y $ quasi scorrelate) $ \implies $ poca correlazione lineare ($ \EE [ ( Y - ( a ^ * X + b ^ * ) ) ^ 2 ] $ assume approsimativamente il valore massimo possibile e dunque $ Y $
dista mediamente tanto da ogni retta di $ X $ ),
\item $ \rho ( X, Y ) \approx 1 \implies $ forte correlazione lineare (infatti se
$ \rho = 1 $ , $ \EE [ ( Y - ( a ^ * X + b ^ * ) ) ^ 2 ] = 0 $ , e dunque $ Y = a ^ * X + b ^ * $ q.c.).
\end { itemize}
Si osserva inoltre che $ \sgn ( a ^ * ) = \sgn ( \rho ( X, Y ) ) $ .
\end { remark}
\section { Legge dei grandi numeri (LGN), media campionaria e limite in senso probabilistico}
\subsection { Definizioni ed enunciato}
\label { sec:lgn}
\begin { definition} [Media campionaria $ n $ -esima]
Data una famiglia di v.a.~reali $ ( X _ i ) _ { i \in \NN } $ i.i.d.~dotate di momento secondo
finito\footnote {
Dal momento che le $ X _ i $ sono i.i.d.~è sufficiente che $ X _ 1 $ sia dotata di
momento secondo finito.
} si definisce \textbf { media campionaria $ n $ -esima} il termine:
\[
\overline { X_ n} \defeq \frac { 1} { n} \sum _ { i \in [n]} X_ i,
\]
ovverosia la media aritmetica delle prime $ n $ v.a.~della famiglia.
\end { definition}
\begin { definition} [Limite probabilistico]
Data una successione di v.a.~reali $ ( Y _ i : \Omega \to \RR ) _ { i \in \NN } $ e data
una v.a.~reale $ Y : \Omega \to \RR $ si
dice che $ Y _ n $ tende (probabilisticamente) a $ Y $ ($ Y _ n \toprob Y $ ) per $ n \to \infty $
se:
\[
\lim _ { n \to \infty } P(\abs { Y_ n - Y} > \eps ) = 0, \quad \forall \eps > 0.
\]
\end { definition}
\begin { lemma}
Sia $ ( Y _ i ) _ { i \in \NN } $ una famiglia di v.a.~reali. Sia $ \varphi : \RR \to \RR $
continua. Se $ Y _ i \toprob \ell $ , allora $ \varphi ( Y _ i ) \toprob \varphi ( \ell ) $ .
\end { lemma}
\begin { remark}
Una successione di v.a.~reali $ ( Y _ i ) _ { i \in \NN } $ tende a $ Y $ se si può
sempre scegliere un $ n $ arbitrariamente grande tale per cui la probabilità che $ Y _ i $
sia pari a $ Y $ (eccetto per un errore assoluto $ \eps $ fissato) è certa entro un
errore arbitrario.
\end { remark}
\begin { theorem} [Legge (debole) dei grandi numeri, LGN]
Sia $ ( X _ i ) _ { i \in \NN } $ una famiglia di v.a.~reali scorrelate e i.d.~(e.g.~i.i.d.) dotate di momento secondo
finito, ovverosia con $ \EE [ X _ 1 ^ 2 ] < \infty $ . Allora vale che:
\[
\overline { X_ n} \toprob \EE [X_1] , \quad \text { per } n \to \infty .
\]
\end { theorem}
\begin { proof}
Si osserva che $ \EE [ \overline { X _ n } ] = \EE [ X _ 1 ] $ e che
$ \Var ( \overline { X _ n } ) = \frac { 1 } { n } \Var ( X _ 1 ) $ . Allora, se $ \eps > 0 $ ,
per la disuguaglianza di Chebyshev vale che:
\[
P\left (\abs { \overline { X_ n} - \EE [X_1] } > \eps \right ) \leq \frac { \Var (\overline { X_ n} )} { \eps ^ 2} =
\frac { \Var (X_ 1)} { \eps ^ 2 n} .
\]
Dal momento che $ \frac { \Var ( X _ 1 ) } { \eps ^ 2 n } \to 0 $ per $ n \to \infty $ , si ottiene
la tesi.
\end { proof}
\begin { remark}
In alcune occasioni, ovverosia quando $ \Var ( \overline { X _ n } ) \to 0 $
per $ n \to \infty $ , è ancora possibile applicare la LGN seguendo la stessa
dimostrazione.
\end { remark}
\begin { remark}
La legge dei grandi numeri ci permette di ricondurre la definizione
assiomatica di Kolmogorov di probabilità a quella frequentista. Se
infatti fissiamo una probabilità $ P $ e costruiamo un modello di prove
ripetute (come definito successivamente) il cui successo è dipeso
da se accade l'evento $ A $ , considerando come famiglia di
v.a.~i.i.d.~la famiglia $ ( 1 _ { A _ i } ) _ { i \in \NN } $ , dove $ A _ i $ è l'evento di successo di $ A $ nella prova
$ i $ -esima, per la legge dei grandi numeri si ottiene che per $ n \to \infty $ vale che:
\[
\overline { 1_ { A_ n} } = \frac { \text { numero di volte che accade $ A $ } } { \text { numero di prove} } \toprob \EE [1_{A_1}] = P(A).
\]
\end { remark}
\subsection { Trasformata di Cramer per l'ottimizzazione della stima}
Cerchiamo in questa sezione di ottenere, utilizzando la funzione
esponenziale, una stima ottimale per
$ P ( \overline { X _ n } - m > \eps ) $ con $ \eps > 0 $ , $ ( X _ i ) _ { i \in \NN } $ famiglia
di v.a.~i.i.d.~e $ m = \EE [ X _ 1 ] $ finito. \smallskip
Dacché $ \exp : \RR \to ( 0 , \infty ) $ è crescente, vale che, per $ \lambda > 0 $ :
\begin { multline*}
P(\overline { X_ n} - m > \eps ) = P\left (\lambda \sum _ { i \in [n]} (X_ i - m) > \lambda n \eps \right ) = \\ = P\left (\exp \left (\lambda \sum _ { i \in [n]} (X_ i - m)\right ) > \exp (\lambda n \eps )\right ).
\end { multline*}
Applicando la disuguaglianza di Markov si ottiene che:
\begin { multline*}
P(\overline { X_ n} - m > \eps ) \leq \frac { 1} { e^ { \lambda n \eps } } \EE \left [\exp\left(\lambda \sum_{i \in [n] } (X_ i - m)\right )\right ] = \\
= \frac { 1} { e^ { \lambda n \eps } } \EE [\exp(\lambda(X_1 - m))] ^ n = \\
= \exp \left (-n\left (\lambda \eps - \log \, \EE \left [e^{\lambda(X_1-m)}\right] \right )\right ).
\end { multline*}
dove si è utilizzato che le v.a.~sono indipendenti e identicamente distribuite.
\begin { definition} [Trasformata di Cramer]
Dato $ \eps > 0 $ , $ ( X _ i ) _ { i \in \NN } $ famiglia
di v.a.~i.i.d.~e $ m = \EE [ X _ 1 ] $ finito, si definisce \textbf { trasformata di Cramer}
il valore:
\[
I(t) = \sup _ { \lambda > 0} \, \left (\lambda t - \log \, \EE \left [e^{\lambda(X_1-m)}\right] \right ).
\]
\end { definition}
Ottimizzando dunque in $ \lambda $ , la precedente disuguaglianza di scrive come:
\[
P(\overline { X_ n} - m > \eps ) \leq e^ { -n \cdot I(\eps )} .
\]
Se dunque esiste $ \lambda > 0 $ per cui $ \EE \left [ e ^ { \lambda ( X _ 1 - m ) } \right ] $ è finito, allora $ I ( \eps ) > 0 $ , e dunque $ P ( \overline { X _ n } - m > \eps ) $ tende esponenzialmente a $ 0 $
per $ n \to \infty $ .
\section { Teorema centrale del limite (TCL, o TLC)}
\subsection { Intuizione del TCL: \textit { zoom-in} e \textit { scaling} }
Per la legge dei grandi numeri sappiamo già che
$ \overline { X _ n } - m \toprob 0 $ per $ m = \EE [ X _ 1 ] $ , $ n \to \infty $ e
$ ( X _ i ) _ { i \in [ n ] } $ famiglia di v.a.~i.i.d. Ciò è dipeso, come illustrato dalla dimostrazione, dal fatto che è presente un fattore $ \frac { 1 } { n } $ in $ \Var ( \overline { X _ n } ) $ .
\smallskip
Se $ \alpha > 0 $ e consieriamo lo \textit { scaling} (o \textit { zoom-in} ) $ n ^ \alpha ( \overline { X _ n } - m ) $
vale che:
\[
\Var (n^ \alpha (\overline { X_ n} - m)) = n^ { 2\alpha } \Var (\overline { X_ n} ) = n^ { 2\alpha - 1} \Var (X_ 1).
\]
Pertanto, riapplicando la disuguaglianza di Chebyshev:
\[
P\left (n^ \alpha \abs { \overline { X_ n} - m} > \eps \right ) \leq \frac { 1} { \eps ^ 2} n^ { 2\alpha - 1} \Var (X_ 1).
\]
Per $ \alpha < \frac { 1 } { 2 } $ si riottiene una tesi analoga a quella della LGN. È
lecito dunque aspettarsi che per $ \alpha = \frac { 1 } { 2 } $ possa accadere qualcosa
di diverso, da cui l'intuizione del TCL.
\subsection { Enunciato del TCL e Teorema di De Moivre-Laplace per la distr.~binomiale}
\begin { theorem} [Teorema centrale del limite, TCL; oppure Teorema del limite centrale, TLC]
Sia $ ( X _ i ) _ { i \in \NN } $ una famiglia di v.a.~i.i.d dotate di momento secondo
finito ($ \EE [ X _ 1 ^ 2 ] < \infty $ ) e non costanti q.c.~($ \Var ( X _ 1 ) > 0 $ ). Sia
$ \sigma = \sigma ( X _ 1 ) $ e sia $ m = \EE [ X _ 1 ] $ . Allora per ogni scelta di $ a $ , $ b $
tali per cui $ - \infty \leq a \leq b \leq \infty $ \footnote {
Si ammettono dunque anche i casi $ \pm \infty $ .
} vale che per $ n \to \infty $ :
\[
P\left (a \leq \frac { \sqrt { n} } { \sigma } \left (\overline { X_ n} - m\right ) \leq b\right ) \to \frac { 1} { \sqrt { 2\pi } } \int _ a^ b e^ { -\frac { x^ 2} { 2} } \dx .
\]
Equivalentemente vale che:
\[
P\left (a \leq \frac { 1} { \sqrt { n} \sigma } \left [\left(\sum_{i \in [n] } X_ i\right ) - nm\right ] \leq b\right ) \to \frac { 1} { \sqrt { 2\pi } } \int _ a^ b e^ { -\frac { x^ 2} { 2} } \dx .
\]
\end { theorem}
\begin { warn}
Per il calcolo di $ \frac { 1 } { \sqrt { 2 \pi } } \int _ a ^ b e ^ { - \nicefrac { x ^ 2 } { 2 } } \dx $ mediante
la funzione $ \Phi ( x ) $ si rimanda
alla \textit { Tabella \ref { tab:phi} } allegata nelle ultime pagine di queste schede riassuntive.
\end { warn}
\begin { corollary} [Teorema di De Moivre-Laplace]
Sia $ Y _ n \sim B ( n, \pp ) $ . Allora per ogni scelta di $ a $ , $ b $ tali per cui
$ - \infty \leq a \leq b \leq \infty $ vale che per $ n \to \infty $ :
\begin { multline*}
P\left (n\pp + \sqrt { n \pp (1- \pp )} a \leq Y_ n \leq n\pp + \sqrt { n \pp (1 - \pp )} b\right ) \\
\to \frac { 1} { \sqrt { 2\pi } } \int _ a^ b e^ { -\frac { x^ 2} { 2} } \dx .
\end { multline*}
\end { corollary}
\begin { proof}
Segue dal TCL dal momento che $ Y _ n $ è somma di $ n $ v.a.~$ X _ i $ i.i.d. con $ X _ i \sim B ( \pp ) $ . In particolare $ m = \EE [ X _ 1 ] = \pp $ e $ \sigma = \sigma ( X _ 1 ) = \sqrt { \EE [ X _ 1 ^ 2 ] - \EE [ X _ 1 ] ^ 2 } = \sqrt { \pp ( 1 - \pp ) } $ .
\end { proof}
\section { Modelli probabilistici classici}
\subsection { Probabilità uniforme}
\begin { definition} [Probabilità uniforme]
Dato $ \Omega $ finito, si definisce
\textbf { probabilità uniforme} l'unica probabilità
$ P : \FF \to \RR $ la cui funzione di densità
è costante (\textit { equiprobabile} ). Equivalentemente è la probabilità
$ P $ tale per cui:
\[
P(A) = \frac { \# A} { \# \Omega } .
\]
\end { definition}
\begin { remark}
Non è possibile dotare $ \Omega $ numerabile di una probabilità
uniforme. Infatti, se l'unica immagine della funzione $ p : \Omega \to \RR $ è
$ c $ , $ \sum _ { \omega \in \Omega } p ( \omega ) = c \sum _ { \omega \in \Omega } 1 $ , che
può valere solo $ 0 $ o $ \infty $ , e dunque non $ 1 $ (e pertanto non può indurre
una probabilità).
\end { remark}
\subsection { Sequenze di esperimenti e modello delle prove ripetute di Bernoulli}
Cerchiamo di modellare una sequenza ordinata (e potenzialmente infinita,
ma al più numerabile)
di esperimenti. Data una famiglia $ ( \Omega _ i ) _ { i \in I } $ , con $ I = \NN $ o
$ I = [ n ] $ , dove ciascuno $ \Omega _ i $ indica l'$ i $ -esimo esperimento, definiamo
in tal caso:
\[
\Omega = \left \{ (\omega _ 1, \omega _ 2, \ldots ) \, \middle \vert \, \omega _ 1 \in \Omega _ 1, \omega _ 2 \in \Omega _ 2^ { (\omega _ 1)} , \omega _ 3 \in \Omega _ 3^ { (\omega _ 1, \omega _ 2)} , \ldots \right \} ,
\]
dove la notazione $ \Omega _ i ^ { ( \omega _ j ) _ { j \in [ i - 1 ] } } $ indica il sottoinsieme
di $ \Omega _ i $ degli esiti dell'esperimento possibili una volta che nei precedenti
esperimenti sono successi $ \omega _ 1 $ , \ldots , $ \omega _ { i - 1 } $ . Se i precedenti
esperimenti non condizionano gli esiti dei successivi, allora
$ \Omega = \prod _ { i \in I } \Omega _ i $ . \medskip
Riduciamoci al caso di una sequenza (finita o infinita) di esperimenti tra di
loro non condizionati, ciascuno
con esito successo ($ 1 $ ) o insuccesso ($ 0 $ ). Un tale esperimento è
detto \textbf { prova di Bernoulli} . In tal caso $ \Omega = \prod _ { i \in I } [ [ 1 ] ] $ . \medskip
Sia $ A _ i $ l'evento ``successo all''$ i $ -esima prova'', ossia:
\[
A_ i = \{ \omega \in \Omega \mid \omega _ i = 1 \} .
\]
Sia $ p _ i : [ [ 1 ] ] \to \RR $ la funzione di densità associata alla misura
di probabilità dell'esperimento $ \Omega _ i $ . Associamo allora ad $ \Omega $ la $ \sigma $ -algebra $ \FF = \sigma ( A _ i ) _ { i \in I } $ generata
dagli $ A _ i $ (che è al più numerabile). Se $ I $ è finito, $ \FF = \PP ( \Omega ) $ .
\begin { definition} [Modello della sequenza di prove]
Si definisce \textbf { probabilità del modello della sequenza di prove}
l'unica probabilità $ P $ sullo spazio misurabile $ ( \Omega , \FF ) $ tale
per cui $ ( A _ i ) _ { i \in I } $ è una famiglia di eventi indipendenti e
per la quale $ P ( A _ i ) = p _ i ( 1 ) $ .
\end { definition}
\begin { remark}
Tale probabilità è univocamente determinata dal momento che
gli $ A _ i $ generano $ \FF $ e che sono indipendenti.
\end { remark}
\begin { definition} [Modello delle prove ripetute]
Se $ P $ è una probabilità del modello della sequenza di prove e
$ p _ i ( 1 ) = p _ j ( 1 ) $ per ogni coppia $ i $ , $ j $ , allora il modello
prende il nome di \textbf { modello delle prove ripetute} e si dice
che $ \pbern \defeq p _ 1 ( 1 ) $ è il \textbf { parametro di Bernoulli} .
\end { definition}
A partire dal modello delle prove ripetute si possono formalizzare
numerose distribuzioni, come quelle della sezione delle
\textit { \hyperref [tab:distr_discrete] { Distribuzioni discrete} } .
\end { multicols*}