notes/Secondo anno/Elementi di probabilità e s.../sections/2-probabilità-discreta.tex

%--------------------------------------------------------------------
\chapter{Probabilità discreta}
\setlength{\parindent}{2pt}

\begin{multicols*}{2}

Consideriamo in questa sezione soltanto i casi in cui $\Omega$ è
un insieme discreto, cioè finito o numerabile. Gli associamo
in modo naturale la $\sigma$-algebra $\PP(\Omega)$.

\section{Funzione di densità discreta}

\subsection{Definizione per il caso discreto}

\begin{definition}[Funzione di densità discreta]
    Per una probabilità $P$ su $\Omega$ si definisce
    \textbf{funzione di densità discreta} (o di massa, o
    più brevemenete di densità)
    la funzione $p : \Omega \to \RR$ tale per cui:
    \[ p(\omega) = P(\{\omega\}), \quad \forall \omega \in \Omega. \]
\end{definition}

\begin{proposition}[$P$ è univocamente determinata da $p$]
    Sia $p : \Omega \to \RR$ una funzione tale per cui:
    \begin{enumerate}[(i.)]
        \item $\sum_{\omega \in \Omega} p(\omega) = 1$,
        \item $p(\omega) \geq 0$ per ogni $\omega \in \Omega$.
    \end{enumerate}
    Allora esiste un'unica probabilità $P$ la cui funzione di densità
    è $p$, e vale che:
    \[
        P(A) = \sum_{a \in A} p(a).
    \]
\end{proposition}

\subsection{Range di una probabilità discreta e restrizione}

\begin{definition}[Range di $P$]
    Sia $P$ una probabilità su $\Omega$ discreto e
    sia $p$ la sua funzione di densità. Si
    definisce allora \textbf{range} $R_P$ di $P$ il
    supporto di $p$, ovverosia:
    \[ R_P \defeq \supp p = \{ \omega \in \Omega \mid p(\omega) > 0\} \subseteq \Omega. \]
\end{definition}

\begin{definition}[Restrizione di $P$ sul range]
    Data $P$ probabilità su $\Omega$ discreto, si
    definisce \textbf{probabilità ristretta sul range $R_P$}
    la misura di probabilità $\restr{P}{R_P} : \PP(R_P)$ tale
    per cui:
    \[
        \restr{P}{R_P}(A) = P(A).
    \]
\end{definition}

\begin{remark}
    La definizione data è una buona definizione dal momento che
    $P(R_P) = 1$.
\end{remark}

\begin{proposition}[Proprietà della restrizione di $P$ sul range]
    Sia $P$ una probabilità su $\Omega$ discreto e sia $p$ la
    sua funzione di densità. Allora vale che $P(A) = \restr{P}{R_P}(A \cap R_P)$.
\end{proposition}

\subsection{Misure di probabilità discrete su spazi campionari non discreti e discretizzazione}
\label{sec:discretizzazione}

\begin{definition}[Probabilità discreta su spazio campionario non discreto]
    Dato $(\Omega, \FF, P)$ spazio di probabilità con $\{\omega\} \in \FF$ per
    ogni $\omega \in \Omega$, la probabilità $P$ si dice \textbf{discreta} su
    $\Omega$ se esiste $\Omega_0 \in \FF$ discreto e quasi certo ($P(\Omega_0) = 1$).
    In tal caso si dice che $P$ si \textit{concentra} su $\Omega_0$.
\end{definition}

\begin{definition}[Discretizzazione di $P$ discreta su $\Omega$]
    Se $P$ è una probabilità discreta su $\Omega$ concentrata su $\Omega_0$,
    si definisce \textbf{discretizzazione di $P$} la misura di probabilità $P_0$
    su $(\Omega_0, \PP(\Omega_0))$ la cui funzione di densità discreta
    è la mappa $p$ per la quale $\Omega_0 \ni \omega_0 \mapsto P(\{\omega_0\})$. Equivalentemente
    vale che:
    \[
        P_0(A) = \sum_{a \in A} p(a) = P(A), \quad \forall A \in \PP(\Omega_0).
    \]
\end{definition}

\begin{proposition}[Proprietà della discretizzazione di $P$]
    Se $P$ è una probabilità discreta su $\Omega$ concentrata su $\Omega_0$, allora
    vale che:
    \[ 
        P(A) = P(A \cap \Omega_0) = P_0(A \cap \Omega_0) = \sum_{a \in A \cap \Omega_0} p(a),
    \]
    dove $p$ è la funzione di densità di $P_0$. Segue dall'identità $P(A \cup \Omega_0) = 1$ e dalla definizione di discretizzazione.
\end{proposition}

\begin{remark}
    In perfetta analogia al caso totalmente discreto, la discretizzazione
    di $P$ discreta su $\Omega$ e concentrata su $\Omega_0$ è univocamente
    determinata da $p$.
\end{remark}

\begin{remark}
    Se $\Omega$ è discreto, allora si può sempre discretizzare
    $P$ al suo range $R_P$.
\end{remark}

\begin{remark}
    \label{remark:identità_discreta_dirac}
    Se $P$ è una probabilità discreta e, per $a \in \Omega$, $\delta_a$ è il \textbf{delta di Dirac}, ovverosia
    la probabilità per cui $\delta_a(A) = 1$ se $a \in A$ e $\delta_a(A) = 0$ se $a \notin A$, allora vale
    la seguente identità:
    \[
        P = \sum_{\omega \in R_P} p(\omega) \, \delta_{\omega},
    \]
    dove si osserva che $R_P$ è numerabile (dacché $P$ è discreta).
\end{remark}

\section{Variabili aleatorie discrete}

\subsection{Definizione di v.a.~discreta e composizione}

\begin{definition}[Variabile aleatoria discreta]
    Dato $S \neq \emptyset$, si definisce \textbf{variabile
    aleatoria} (discreta) su $\Omega$ discreto, abbreviata \va, una funzione
    $X : \Omega \to S$. $X$ si dice \textbf{variabile aleatoria reale}
    (v.a.~reale) se $S \subseteq \RR$ o \textbf{variabile aleatoria vettoriale}
    (v.a.~vettoriale, o \textit{vettore aleatorio}) se $S \subseteq \RR^n$ per
    qualche $n \in \NN$. \smallskip


    Dato $S \neq \emptyset$, definiamo $\VA(\Omega, S)$ come l'insieme
    delle v.a.~discrete di $\Omega$ che hanno $S$ per codominio.
\end{definition}

\begin{remark}
    Si può dotare $\VA(\Omega, \RR)$ di una struttura di algebra, oltre che di
    spazio vettoriale, dove le operazioni di somma vettoriale, di prodotto
    esterno e di prodotto tra vettori sono completamente naturali. \medskip


    Se $\Omega$ è finito, allora $\VA(\Omega, \RR)$ è naturalmente isomorfo
    a $\RR^{\# \Omega}$ come spazio vettoriale, mentre
    nel caso di $\Omega$ numerabile $\VA(\Omega, \RR)$ ammette una base non numerabile.
\end{remark}

\begin{definition}[Composizione di v.a.~discrete]
    Data $X \in \VA(\Omega, S)$ e una funzione $F : S \to S'$,
    si definisce la \textbf{composizione di $X$ tramite $F$}
    come $F(X) = F \circ X \in \VA(\Omega, S')$.
\end{definition}

\subsection{Legge di una v.a.~\texorpdfstring{$X$}{X} e costruzione canonica}

Nel caso di $\Omega$ discreto, $S_X$, ossia l'immagine della v.a.~$X$, è
ancora un insieme discreto. Questo ci porta alla:

\begin{proposition}
    Sia $X : \Omega \to S$ una v.a.~discreta di $\Omega$.
    Sia $P'$ la misura di probabilità sullo spazio misurabile
    $(S, \PP(S))$ tale per cui:
    \[
        P'(A) = P(X \in A) = P(X\inv(A)).
    \]
    Allora $P'$ si concentra su $S_X$ e dunque vale che:
    \[
        P'(A) = P'(A \cap S_X).
    \]
\end{proposition}
    
\begin{definition}[Legge di $X$]
    Data una v.a.~$X : \Omega \to S$, si definisce \textbf{legge di $X$} (o \textit{distribuzione
    di $X$}) la discretizzazione $P^X = \restr{P'}{S_X}$ che
    agisce sullo spazio misurabile $(S_X, \PP(S_X))$, dove
    $P'$ è tale per cui $P'(A) = P(X \in A) = P(X\inv(A))$.
    Equivalentemente vale che:
    \[
        P^X : \PP(S_X) \ni A \mapsto P(X \in A) = P(X\inv(A)).
    \]


    Si indica con $p_X$ la funzione di densità discreta di $P^X$.
    Per $P^X(A)$ con $A \subseteq S$ si intenderà
    $P^X(A \cap S_X)$, e analogamente $p_X(x)$ si estende in modo
    tale che valga $0$ per $x \notin S_X$.
\end{definition}

\begin{remark}
    Dalla definizione della legge di $X$ si ricava immediatamente che:
    \[
        P(X \in A) = P^X(A) = \sum_{x \in A} p_X(x) = \sum_{x \in A} P(X = x),
    \]
    dove si osserva che $X \in A = \bigcupdot_{x \in A} (X = x)$.
\end{remark}

\begin{remark}
    Il range di $P^X$ è:
    \[ R_X \defeq R_{P^X} = \{x \in S \mid p_X(x) = P(X = x) > 0\}, \]
    ovverosia $R_{P^X}$ è composto dagli elementi di $S$ le cui
    controimmagini non siano trascurabili rispetto a $P$.
\end{remark}

\begin{remark}
    Dato uno spazio di probabilità $(S, \PP(S), Q)$ con
    $\Omega$ discreto è sempre possibile trovare uno
    spazio di probabilità $(\Omega, \PP(\Omega), P)$ e una
    v.a.~$X : \Omega \to S$ tale per cui $P^X = Q$. \smallskip

    È sufficiente porre $\Omega = S$, $P = Q$ e $X = \id_{S}$
    (\textbf{costruzione canonica}). Infatti vale che:
    \[
        P^X(A) = P(X \in A)) = P(A) = Q(A).
    \]
\end{remark}

\begin{proposition}
    Data una v.a.~$X : \Omega \to S$ e una funzione $f : S \to E$,
    vale la seguente identità:
    \[
        p_{f(X)}(e) = \sum_{x \in f\inv(e)} p_X(x).
    \]
    Equivalentemente vale che:
    \[
        P(f(X) = e) = \sum_{x \in f\inv(e)} P(X = x).
    \]
    Segue dal fatto che $(f(X) = e) = (X \in f\inv(e))$.
\end{proposition}

\subsection{Uguaglianza q.c., medesima legge e stabilità per composizione}
\label{sec:uguaglianza_qc}

\begin{definition}[Uguaglianza quasi certa tra v.a.]
    Date $X$, $Y \in \VA(\Omega, S)$, si dice che
    \textbf{$X$ è uguale a $Y$ quasi certamente} ($X = Y$ q.c.\footnote{
        Nella definizione compare due volte la scrittura $X = Y$: la prima
        volta si intende dire che la v.a.~$X$ è uguale a quella $Y$ q.c.,
        mentre dove compare la seconda volta si intende l'insieme $(X=Y) \subseteq \Omega$.
    }) rispetto
    alla probabilità $P$ se
    l'insieme $(X = Y) = \{\omega \in \Omega \mid X(\omega) = Y(\omega)\}$
    è quasi certo rispetto a $P$.
\end{definition}

\begin{proposition}[Comportamento delle uguaglianze q.c.~sulla composizione]
    Sia $F : S \to S'$. Siano $X$, $Y \in \VA(\Omega, S)$. Allora se
    $X = Y$ q.c., $F(X) = F(Y)$ q.c. \smallskip

    Segue considerando la seguente relazioni di insiemi: $(X = Y) \subseteq (F(X) = F(Y))$.
\end{proposition}

\begin{definition}[Uguaglianza di leggi tra v.a.]
    Data $X \in \VA(\Omega_1, S)$ e $Y \in \VA(\Omega_2, S)$,
    si dice che \textbf{$X$ e $Y$ hanno la stessa legge},
    e si scrive che $X \deq Y$ o che $X \sim Y$, se
    $P_{\Omega_1}^X \equiv P_{\Omega_2}^Y$.
\end{definition}

\begin{definition}[Variabili aleatorie i.d.]
    Si dice che una famiglia di v.a.~sono \textbf{identicamente distribuite (i.d.)}
    se condividono la stessa legge. \smallskip


    Spesso sottintenderemo che tali v.a.~sono costruite sullo stesso $\Omega$.
\end{definition}

\begin{proposition}
    Se $X = Y$ q.c., allora $X \deq Y$. Segue considerando che
    $P$ è concentrata sull'insieme $X=Y$, e quindi ci si può sempre
    restringere su questo insieme, interscambiando eventualmente
    le v.a.
\end{proposition}

\begin{remark}
    Per $X$, $Y \in \VA(\Omega, S)$ v.a. non è generalmente vero che
    $X \deq Y$ implica $X = Y$ q.c. 
\end{remark}

\begin{proposition}[Comportamento delle uguaglianze di legge sulla composizione]
    Sia $F : S \to S'$. Siano $X$, $Y : \Omega_1, \Omega_2 \groupto S$ v.a. Allora
    se $X \deq Y$, $F(X) \deq F(Y)$.
\end{proposition}

\subsection{Variabile aleatoria multivariata, leggi congiunte e marginali}

\begin{definition}[Variabile aleatoria multivariata, o congiunta]
    Data una famiglia $(X_i : \Omega \to S_i)_{i \in I}$ di
    v.a.~discrete di $\Omega$ con $I$ ordinato, si definisce la \textbf{v.a.~congiunta} (o
    \textit{blocco multivariato}) la variabile discreta $(X_i)_{i \in I}$ tale per cui:
    \[
        (X_i)_{i \in I} : \Omega \ni \omega \mapsto (X_i(\omega))_{i \in I} \in \prod_{i \in I} S_i.
    \]
    Se $I = [n]$, scriviamo $(X_1, \ldots, X_n)$ al posto di $(X_i)_{i \in I}$.
    Sottintenderemo sempre che $I$ è ordinato quando si nomina una famiglia
    di v.a.~discrete.
\end{definition}

\begin{definition}[Legge e densità congiunta]
    Data una famiglia $(X_i : \Omega \to S_i)_{i \in I}$ di
    v.a.~discrete di $\Omega$ e $P$ probabilità su $\Omega$ discreto,
    si dice \textbf{legge congiunta} delle $X_i$
    la legge relativa alla loro v.a.~congiunta, ovverosia
    $P^{(X_i)_{i \in I}}$. Analogamente, con il
    termine \textbf{densità congiunta} ci si riferirà
    alla densità discreta della legge congiunta.
\end{definition}

\begin{definition}[Leggi e densità marginali]
    Data una famiglia $(X_i : \Omega \to S_i)_{i \in I}$ di
    v.a.~discrete di $\Omega$ e $P$ probabilità su $\Omega$ discreto,
    ci si riferisce con il termine di \textbf{legge marginale} a una qualsiasi
    legge $P^{X_i}$ e con il termine di \textbf{densità marginale} alla relativa
    funzione di densità discreta.
\end{definition}

\begin{remark}
    La legge congiunta restituisce \textit{sempre} più informazioni rispetto
    all'insieme delle leggi marginali. Infatti, si può sempre ricostruire una
    legge marginale data la legge congiunta, ma non è sempre vero il
    viceversa. \medskip
\end{remark}

\begin{remark}
    Si osserva che vale la seguente identità:
    \[
        P^{(X_i)_{i \in I}}\left(\prod_{i \in I} A_i\right) = P\left(\bigcap_{i \in I} (X_i \in A_i)\right), \quad \forall A_i \subseteq S_i.
    \]
    Pertanto, nel caso finito vale che:
    \[
        P^{(X_1, \ldots, X_n)}\left(\prod_{i \in I} A_i\right) = P\left(X_1 \in A_1, \ldots, X_n \in A_n\right), \quad \forall A_i \subseteq S_i.
    \]
\end{remark}

\begin{proposition}
    Ogni densità marginale è univocamente determinata dalla densità
    congiunta. In particolare nel caso finito vale che:
    \[
        p_{X_i}(x_i) = \sum_{\substack{x_j \in S_j \\ j \neq i}} p_{(X_1, \ldots, X_n)}(x_1, \ldots, x_n).
    \]
\end{proposition}

\subsection{Indipendenza di variabili aleatorie discrete e stabilità per congiunzione e composizione}

\begin{definition}[Indipendenza tra v.a.~discrete]
    Sia $(X_i : \Omega \to S_i)_{i \in I}$ una famiglia di v.a.~discrete. Si dice che tale famiglia di v.a.~è \textbf{indipendente} se per ogni $n$ e ogni famiglia finita di
    indici distinti $(i_j)_{j \in [n]} \subseteq I$ vale che:
    \[
        P(X_{i_1} \in A_{i_1}, \ldots, X_{i_n} \in A_{i_n}) = \prod_{j \in [n]} P(X_{i_j} \in A_{i_j}), \quad \forall A_{i_j} \subseteq S_{i_j}.
    \]
    Equivalentemente tale famiglia è indipendente se:
    \[
        P^{(X_{i_1}, \ldots, X_{i_n})}(A_{i_1} \times \cdots \times A_{i_n}) = \prod_{j \in [n]} P^{X_{i_j}}(A_{i_j}), \quad \forall A_{i_j} \subseteq S_{i_j}.
    \]
\end{definition}

\begin{definition}[Variabili aleatorie i.i.d.]
    Data una famiglia di variabili aleatorie, si dice che
    queste sono \textbf{indipendenti e identicamente distribuite (i.i.d.)}
    se formano una famiglia di v.a.~indipendenti e se condividono
    la stessa legge. \smallskip

    Spesso sottintenderemo che tali v.a.~sono costruite sullo stesso $\Omega$.
\end{definition}

\begin{remark}
    La definizione è equivalente a richiedere che per ogni scelta di $A_{i_j} \subseteq S_{i_j}$,
    $X_{i_1} \in A_{i_1}$, ..., $X_{i_n} \in A_{i_n}$ formino una famiglia di eventi
    collettivamente indipendenti. Pertanto è possibile sfruttare tutte
    le proposizioni viste nella sottosezione \textit{\nameref{sec:indipendenza}}. \smallskip

    Inoltre, se la famiglia $(X_i)_{i \in I}$ è indipendente, lo è
    chiaramente anche $(X_{\sigma(i)})_{i \in I}$ per ogni $\sigma \in S(I)$
    (in riferimento in particolare alla seconda identità presente nella definizione
    di indipendenza tra v.a.).
\end{remark}

\begin{remark}
    Una v.a.~costante è sempre indipendente con altre v.a., dal momento che
    le sue uniche controimmagini sono $\Omega$ e $\emptyset$, che sono indipendenti
    da ogni evento.
\end{remark}

\begin{remark}
    Si osserva che vale la seguente identità:
    \[
        P(X_1 \in A_1, \ldots, X_n \in A_n) = \sum_{x_i \in A_i} P(X_1 = x_1, \ldots, X_n = x_n).
    \]
\end{remark}

\begin{proposition}
    Sia $(X_i : \Omega \to S_i)_{i \in I}$ una famiglia di v.a.~discrete. Allora
    tale famiglia è indipendente se per ogni $n$ e ogni famiglia finita di
    indici distinti $(i_j)_{j \in [n]} \subseteq I$ vale che:
    \[
        P(X_{i_1} = x_{i_1}, \ldots, X_{i_n} = x_{i_n}) = \prod_{j \in [n]} P(X_{i_j} = x_{i_j}), \quad \forall x_{i_j} \in S_{i_j}.
    \]
    Equivalentemente, sono indipendenti se e solo se:
    \[
        p_{(X_{i_1}, \ldots, X_{i_n})}(x_{i_1}, \ldots, x_{i_n}) = \prod_{j \in [n]} p_{X_{i_j}}(x_{i_j}), \quad \forall x_{i_j} \in S_{i_j}.
    \]
    Segue dalla precedente osservazione.
\end{proposition}

\begin{proposition}
    Sia $(A_i)_{i \in I}$ una famiglia di eventi. Allora tale famiglia
    è indipendente se e solo se la famiglia di v.a.~$(1_{A_i})_{i \in I}$ è
    indipendente. \smallskip


    Segue dalla precedente proposizione; infatti $(1_{A_i} = 1) = A_i$ e
    $(1_{A_i} = 0) = A_i^c$.
\end{proposition}

\begin{proposition}
    \label{prop:indipendenza_composizione}
    Sia $(X_i : \Omega \to S_i)_{i \in I}$ una famiglia di v.a.~discrete e
    sia $(f_i : S_i \to S_{i}')_{i \in I}$ una famiglia di funzioni. Allora
    se $(X_i)_{i \in I}$ è una famiglia di v.a.~indipendenti, anche
    $(f_i(X_i))_{i \in I}$ lo è. \smallskip


    Segue dal fatto che $(f_i(X_i) \in A_i) = (X_i \in f\inv(A_i))$.
\end{proposition}

\begin{proposition}
    \label{prop:indipendenza_partizione}
    Sia $(X_i : \Omega \to S_i)_{i \in I}$ una famiglia di v.a.~discrete e
    sia $I$ partizionato dagli $I_j$, ovverosia $I = \bigcupdot_{j \in J} I_j$.
    Allora se $(X_i)_{i \in I}$ è una famiglia di v.a.~indipendenti, anche
    $((X_i)_{i \in I_j})_{j \in J}$ è una famiglia di v.a.~indipendenti. \smallskip


    Segue applicando la definizione.
\end{proposition}

\begin{remark}
    Le ultime due proposizioni permettono di ricavare molto velocemente l'indipendenza
    di una certa famiglia di v.a.~discrete. Per esempio, se
    $X_1$, $X_2$, $X_3$, $X_4$, $X_5 \in \VA(\Omega, \RR)$ sono indipendenti,
    si ricava immediatamente che $X_1$, $X_2 + X_3$ e $\max(X_4, X_5)$ sono
    indipendenti a partire dal seguente albero, dove ogni colonna è una famiglia
    di v.a.~indipendenti:

    \[\begin{tikzcd}[cramped,column sep=scriptsize,row sep=tiny]
    	{X_1} && {X_1} && {X_1} \\
    	{X_2} && {(X_2, X_3)} && {X_2+X_3} \\
    	{X_3} && {(X_4, X_5)} && {\max(X_4, X_5)} \\
    	{X_4} \\
    	{X_5}
    	\arrow[squiggly, from=1-1, to=1-3]
    	\arrow[squiggly, from=2-1, to=2-3]
    	\arrow[curve={height=6pt}, squiggly, from=3-1, to=2-3]
    	\arrow[curve={height=6pt}, squiggly, from=5-1, to=3-3]
    	\arrow[squiggly, from=4-1, to=3-3]
    	\arrow["{\operatorname{id}}", from=1-3, to=1-5]
    	\arrow["{+}", from=2-3, to=2-5]
    	\arrow["\max", from=3-3, to=3-5]
    \end{tikzcd}\]

    Infatti la prima operazione restituisce una famiglia indipendente
    per la \textit{Proposizione \ref{prop:indipendenza_partizione}}, e la seconda fa lo stesso
    per la \textit{Proposizione \ref{prop:indipendenza_composizione}}.
\end{remark}

\begin{remark}
    Data una famiglia di probabilità $(P_i)_{i \in [n]}$ su spazi misurabili discreti
    $(S_i, \PP(S_i))$ è sempre possibile costruire uno
    spazio discreto di probabilità $(\Omega, \PP(\Omega), P)$ equipaggiato di
    una famiglia di v.a.~$(X_i : \Omega \to S_i)_{i \in [n]}$ tale per cui
    \begin{enumerate}
        \item la famiglia $(X_i)_{i \in [n]}$ è una famiglia di v.a.~indipendenti,
        \item $P^{X_i} \equiv P_i$.
    \end{enumerate}
    È infatti sufficiente porre $\Omega = \prod_{i \in [n]} S_i$ (il prodotto finito di discreti è discreto), $X_i = \pi_i$ (la
    proiezione dal prodotto cartesiano all'insieme $S_i$) con $P$ probabilità
    univocamente determinata dalla relazione:
    \[
        p(x_1, \ldots, x_n) = \prod_{i \in [n]} p_i(x_i).
    \]
    Infatti in tal caso varrebbe che:
    \[
        P(X_1 = x_1, \ldots, X_n = x_n) =
        p(x_1, \ldots, x_n) = \prod_{i \in [n]} P(X_i = x_i).
    \]
    Tale costruzione si indica come $P \defeq \bigotimes_{i \in [n]} P_i =
    P_1 \otimes \cdots \otimes P_n$.
\end{remark}

\section{Valore atteso e momenti}

\subsection{Valore atteso su v.a.~integrabili e/o non negative}

\begin{definition}[Variabile aleatoria integrabile]
    Sia $X$ v.a.~reale. Si dice che $X$ è \textbf{integrabile} (in senso discreto)
    se:
    \[
        \EE[\abs{X}] \defeq \sum_{\omega \in \Omega} \abs{X(\omega)} p(\omega) < \infty,
    \]
    ovverosia se $\EE[\abs{X}]$, detto il \textbf{momento primo assoluto},
    converge (l'unica altra possibilità è che diverga, dacché
    è una serie a termini positivi).    
\end{definition}

\begin{definition}[Valore atteso di una v.a.]
    Sia $X$ v.a.~reale. Se $X$ è integrabile si definisce
    il \textbf{valore atteso} di $X$ (o \textit{momento primo}) come:
    \[
        \EE[X] \defeq \sum_{\omega \in \Omega} X(\omega) p(\omega) \in \RR,
    \]
    dove l'ultima appartenenza è data proprio dal fatto che $\EE[\abs{X}] < \infty$ (e
    dunque vi è convergenza assoluta, dacché $p(\omega) \geq 0$). \smallskip

    Se $X \geq 0$ q.c.~, si definisce allora stesso modo $\EE[X]$, che però può assumere come
    valore anche $\infty$; e così per $X \leq 0$ q.c.~si pone
    $\EE[X] \defeq -\EE[X^-]$. In questo modo ammettiamo eventualmente i valori
    di $\infty$ o $-\infty$. \smallskip

    Diciamo che $X$ \textbf{ha valore atteso}, se esiste un $\EE[X]$ associatogli.
\end{definition}

\begin{remark}
    Il valore atteso è da associarsi a un ``baricentro'' della distribuzione di
    $X$, ovverosia, su una popolazione $\Omega$, misura quanto vale in media
    la caratteristica data da $X$.
\end{remark}

\begin{remark}
    Per la v.a.~$1_A$ con $A \subseteq \Omega$ vale che
    $\EE[1_A] = 1 \cdot P(1_A = 1) + 0 \cdot P (1_A = 0) = P(A)$.
\end{remark}

\begin{remark}
    Per $X$ tale per cui $\EE[X^+]$, $\EE[X^-] < \infty$ vale che:
    \[
        \EE[X] = \EE[X^+] - \EE[X^-].
    \]
    Come vedremo, questo è un caso particolare della linearità di $\EE[\cdot]$
    (infatti $X = X^+ - X^-$).
\end{remark}

\begin{lemma}[Valore atteso tramite la legge]
    Per $X$ con valore atteso vale la seguente identità:
    \[
        \EE[X] = \sum_{x \in R_X} x \cdot p_X(x) = \sum_{x \in R_X} x \cdot P(X = x).
    \]
    Segue dal fatto che $\EE[X] = \sum_{x \in R_X} \sum_{s \in X\inv(x)} x \cdot p(s)$.
\end{lemma}

Questa proposizione può estendersi facilmente alla:

\begin{proposition}[Valore atteso della composizione tramite la legge]
    Sia $X : \Omega \to S$ v.a.~discreta e sia $\varphi : S \to \RR$. Allora vale che:
    \begin{enumerate}[(i.)]
        \item $\varphi(X)$ è integrabile se e solo se $\sum_{x \in R_X} \abs{\varphi(x)} P(X = x) < \infty$,
        \item se $\varphi(X)$ ha valore atteso, allora:
        \[
            \EE[\varphi(X)] = \sum_{x \in R_X} \varphi(x) \cdot p_X(x) = \sum_{x \in R_X} \varphi(x) \cdot P(X = x).
        \]
    \end{enumerate}
    Segue dal fatto che $\EE[\varphi(X)] = \sum_{x \in R_X} \sum_{s \in X\inv(x)} \varphi(x) \cdot p(s)$.
\end{proposition}

\begin{remark}[Uguaglianza di valori attesi per leggi uguali]
    Dal momento che $\EE[\varphi(X)]$ dipende soltanto dalla legge di $p_X$,
    $X \deq Y \implies \EE[\varphi(X)] = \EE[\varphi(Y)]$.
\end{remark}

\subsection{Proprietà del valore atteso e moltiplicatività per v.a.~indipendenti}

\begin{proposition}
    \label{prop:prop_valore_atteso}
    Siano $X$ e $Y$ due v.a.~reali con valore atteso. Allora vale che:
    \begin{enumerate}[(i.)]
        \item Se $X=c$ q.c., allora $\EE[X] = c$,
        \item Se $X \geq 0$ q.c./integrabile, allora per $a \in \RR^+$, $aX \geq 0$ q.c./integrabile,
        \item Se $X$ ha valore atteso, allora per $a \in \RR$ pure $aX$ lo ha e $\EE[aX] = a \, \EE[X]$\footnote{
            Si assume la convenzione per cui $0 \cdot \infty = 0$, $a \cdot \infty = \sgn(a) \infty$ per
            $a \neq 0$.
        }
        \item Se $X \geq 0$ q.c.~o $X \leq 0$ q.c.~e $\EE[X] = 0$, allora $X = 0$ q.c.,
        \item Se $X \leq Y$ q.c.~, allora $E[X] \leq E[Y]$,
        \item Se $X$ e $Y$ hanno valore atteso e non sono uno $\infty$ e l'altro
        $-\infty$, allora $\EE[X + Y] = \EE[X] + \EE[Y]$.
    \end{enumerate}
\end{proposition}

\begin{proposition}
    Siano $X$, $Y : \Omega \groupto S$, $S'$, due v.a.~indipendenti. Se $g$, $h : S$, $S' \groupto \RR$ sono funzioni e $g(X)$ e $h(Y)$ ammettono valore atteso\footnote{
        Si ammette in questo caso la convenzione per cui $\infty \cdot \infty = \infty$ e
        che $-\infty \cdot \infty = -\infty$.
    }, allora vale che:
    \[
        \EE[g(X)h(Y)] = \EE[g(X)] \cdot \EE[h(Y)].
    \]
    Usando che $\EE[g(X)h(Y)] = \sum_{(x, y) \in R_{(X, Y)}} g(x) h(y) P(X = x, Y = y)$, segue, per
    l'indipendenza di $X$ e $Y$, dal fatto che $R_{(X, Y)} = R_X \times R_Y$ e che $P(X = x, Y = y) = P(X = x) P(Y = y)$.
\end{proposition}

\begin{remark}
    \label{remark:indipendenza_valore_atteso}
    In particolare, per v.a.~reali $X$, $Y$ indipendenti che ammettono valore atteso
    vale che:
    \[
        \EE[XY] = \EE[X] \cdot \EE[Y].
    \]
\end{remark}

\begin{remark}
    Dalla \textit{Proposizione \ref{prop:prop_valore_atteso}} si deduce che
    $\EE[\cdot]$ è un funzionale di $\VA(\Omega, \RR)$ (ovverosia
    $\EE[\cdot] \in \VA(\Omega, \RR)^*$).
\end{remark}

\begin{proposition}
    Sia $X$ una v.a.~reale che assume valori naturali quasi certamente.
    Allora vale che:
    \[
        \EE[X] = \sum_{n \in \NN} P(X > n).
    \]
    In generale se $X$ è una v.a.~reale che assume valori positivi il cui
    range ordinato è $(x_i)_{i \in I}$ (con $I = \NN^+$ o $I = [k]$),
    allora, posto $x_0 = 0$, vale che:
    \[
        \EE[X] = \sum_{n \in \NN} (x_{n+1} - x_n) P(X > x_n).
    \]
\end{proposition}

\subsection{Valore atteso condizionale}

\begin{definition}[Valore atteso condizionale]
    Sia $X$ una v.a.~reale. Dato allora un evento
    $A \in \PP(\Omega)$, si definisce il \textbf{valore atteso
    condizionale} $\EE[X \mid A]$ in modo tale che:
    \[
        \EE[X \mid A] \defeq \frac{\EE[X \cdot 1_A]}{P(A)} = \sum_{\omega \in A} X(\omega) \cdot P(\{\omega\} \mid A).
    \]
    Alternativamente vale che:
    \[
        \EE[X \mid A] = \sum_{x \in R_X} x \cdot \frac{P((X = x) \cap A)}{P(A)} = \sum_{x \in R_X} x \cdot P(X=x \mid A).
    \]
\end{definition}

Il valore atteso condizionale rimodula il valore atteso in modo
tale da considerare solamente le immagini di $X$ possibili sotto
l'ipotesi che sia accaduto l'evento $A$. Pertanto è naturale
aspettarsi il seguente:

\begin{lemma}[Formula dei valori attesi totali, o formula della partizione dei valori attesi]
    Sia $X$ una v.a.~reale e sia $(A_i)_{i \in [n]}$ un sistema di alternative
    finito per $\Omega$. Allora vale che:
    \[
        \EE[X] = \sum_{i \in [n]} \EE[X \mid A_i] P(A_i).
    \]
    Segue considerando che $X = X \cdot (\sum_{i \in [n]} 1_{A_i})$.
\end{lemma}

\subsection{Momenti (assoluti) \texorpdfstring{$n$}{n}-esimi}

\begin{definition}[Momento $n$-esimo assoluto]
    Data $X$ v.a.~reale e $n \in \RR^+$, definiamo il
    \textbf{momento assoluto di ordine $n$} (\textit{momento
    $n$-esimo assoluto}, se esiste, $\EE[\abs{X}^n]$. \smallskip

    Generalmente si pone più attenzione ai momenti $n$-esimi assoluti
    con $n$ intero positivo.
\end{definition}

\begin{definition}[Momento $n$-esimo]
    Data $X$ v.a.~reale e $n \in \RR^+$, se $X$ ammette
    momento $n$-esimo assoluto, allora $X^n$ ammette
    $\EE[X^n]$, che viene detto \textbf{momento $n$-esimo di $X^n$}.
\end{definition}

\begin{lemma}
    Data $X$ v.a.~reale e $1 \leq p \leq q$ in $\RR$,
    se $\EE[\abs{X}^q] < \infty$ allora
    $\EE[\abs{X}^p] < \infty$. \smallskip

    Segue dal fatto che $\EE[\abs{X}^p]$ è uguale
    a $\EE[\abs{X}^p \cdot 1_{{\abs{X}> 1}} + \abs{X}^p \cdot 1_{{\abs{X} \leq 1}}]$;
    applicando la linearità di $\EE[\cdot]$ e che $x^p \leq x^q$ per $x \geq 1$, si
    ricava così che $\EE[\abs{X}^p] \leq \EE[\abs{X}^q] + 1$.
\end{lemma}

\begin{remark}
    Se $X$ è limitata quasi certamente ($\abs{X} \leq M$ q.c.~con $M > 0$),
    allora $X$ ammette momento $n$-esimo assoluto per ogni $n \in \RR^+$
    (segue dal fatto che $\EE[\abs{X}^n] \leq M^m$).
\end{remark}

\begin{remark}
    La disuguaglianza impiegata nello scorso lemma ha una generalizzazione
    più ampia, che non dimostriamo, ma che segue dalla \textit{Disuguaglianza di Hölder}:
    \[
        \EE[\abs{X}^p]^{\frac{1}{p}} \leq \EE[\abs{X}^q]^{\frac{1}{q}}, \quad 1 < p < q.
    \]
\end{remark}

\begin{lemma}
    Se $\EE[\abs{X}^p]$, $\EE[\abs{X}^p] < \infty$, allora
    $\EE[\abs{aX+Y}^p] < \infty$ per ogni $a$, $b \in \RR$. \smallskip

    Segue dal fatto che $\abs{aX+Y}^p \leq 2^{p-1} (\abs{a}^p \abs{X}^p + \abs{Y}^p)$.
\end{lemma}

\subsection{Disuguaglianza di Markov, di Hölder, di Cauchy-Schwarz e di Jensen}

\begin{proposition}[Disuguaglianza di Markov]
    Sia $X \geq 0$ v.a.~reale. Allora $\forall a > 0$ vale che:
    \[
        P(X \geq a) \leq \frac{\EE[X]}{a}.
    \]
    Segue considerando che $X \geq a \cdot 1_{X \geq a}$,
    e dunque $\EE[X] \geq a \cdot \EE[1_{X \geq a}] = a \cdot P(X \geq a)$.
\end{proposition}

\begin{corollary}
    Sia $X$ v.a.~reale. Allora $\forall a \neq 0$, $\forall p > 0$ vale che:
    \[
        P(\abs{X} \geq \abs{a}) \leq \frac{\EE[\abs{X}^p]}{\abs{a}^p}.
    \]
    Segue dalla disuguaglianza di Markov.
\end{corollary}

In generale la disuguaglianza di Markov si può esprimere per composizione
con funzioni crescenti:

\begin{corollary}
    Sia $X$ v.a.~reale. Allora, se $f : \RR \to [0, \infty)$ è crescente, $\forall a \in \supp f$ (i.e.~$f(a) \neq 0$) vale che:
    \[
        P(X \geq a) \leq \frac{\EE[f(X)]}{f(a)}.
    \]
    Segue dalla disuguaglianza di Markov. Si osserva in particolare che non si è richiesto
    che $X$ fosse t.c.~$X \geq 0$.
\end{corollary}

\begin{proposition}[Disuguaglianza di Hölder]
    Siano $X$, $Y$ v.a.~reali. Siano $p$, $q > 1$ coniugati (ossia t.c.~$\frac{1}{p} + \frac{1}{q} = 1$). Allora, se $X$ ammette momento $p$-esimo assoluto e $Y$ ammette momento
    $q$-esimo assoluto, entrambi finiti, vale che:
    \[
        \EE[\abs{XY}] \leq \EE[\abs{X}^p]^{\frac{1}{p}} \cdot \EE[\abs{Y}^q]^{\frac{1}{q}}.
    \]
    Segue dalla usuale disuguaglianza di Hölder in analisi.
\end{proposition}

\begin{proposition}[Disuguaglianza di Cauchy-Schwarz]
    Siano $X$, $Y$ v.a.~reali. Allora, se $X$ e $Y$ ammettono momento secondo assoluto
    finito, vale che:
    \[
        \EE[\abs{XY}] \leq \EE[\abs{X}^2]^{\frac{1}{2}} \cdot \EE[\abs{Y}^2]^{\frac{1}{2}}.
    \]
    Segue dalla usuale disuguaglianza di Cauchy-Schwarz in analisi o dalla disuguaglianza
    di Hölder per $p = q = \frac{1}{2}$.
\end{proposition}

\begin{proposition}[Disuguaglianza di Jensen]
    Sia $X$ una v.a.~reale che ammette valore atteso.
    Allora, se $g : \RR \to \RR$ è una funzione
    convessa che ammette valore atteso vale che:
    \[
        g(\EE[X]) \leq \EE[g(X)].
    \]
    Equivalentemente, se $g$ è concava vale la disuguaglianza con
    $\geq$ al posto di $\leq$. Segue dall'usuale disuguaglianza di Jensen.
\end{proposition}

\section{Altri indici di centralità: moda e mediana}

Il valore atteso $\EE[X]$ è considerato un \textbf{indice di centralità} dacché
fornisce un'idea del baricentro della distribuzione di $X$. Di seguito
sono definiti altri due indici di centralità celebri.

\begin{definition}[Moda]
    Data una v.a.~reale $X$, si dice che $x \in S_X$ è una \textbf{moda}
    se $x$ è un massimo per $P_X$. Una distribuzione in generale può avere
    più mode.
\end{definition}

\begin{definition}[Mediana]
    Data una v.a.~reale $X$, si dice che $x \in S_X$ è una \textbf{mediana}
    se $P(X \leq x) \geq \frac{1}{2}$ e $P(X \geq x) \geq \frac{1}{2}$.
\end{definition}

\begin{proposition}
    Esistono sempre almeno una moda e almeno una mediana
    per $X$ v.a.~reale.
\end{proposition}

\section{Indici di dispersione: covarianza, varianza, dev.~standard e coeff.~di correlazione}

\subsection{Definizioni e covarianza come forma bilineare simmetrica}

\begin{definition}[Covarianza e v.a.~scorrelate]
    Date due v.a.~reali $X$, $Y$ con momento secondo finito,
    si definisce \textbf{covarianza di $X$ e $Y$} il termine:
    \[
        \Cov(X, Y) \defeq \EE[(X - \EE[X])(Y - \EE[Y])].
    \]
    Si dice che $X$ e $Y$ sono \textbf{scorrelate} se $\Cov(X, Y) = 0$.
\end{definition}

\begin{definition}[Varianza]
    Data una v.a.~reale $X$ con momento secondo finito, si
    definisce \textbf{varianza di $X$} il termine:
    \[
        \Var(X) \defeq \Cov(X, X) = \EE[(X -\EE[X])^2] \geq 0,
    \]
    dove la non negatività segue dal fatto che $(X - \EE[X])^2 \geq 0$.
\end{definition}

\begin{proposition}
    $\EE[X]$ è il termine che sostituito a $m$ minimizza il valore $\EE[(X - m)^2]$.
\end{proposition}

\begin{definition}[Deviazione standard]
    Data una v.a.~reale $X$ che ammette varianza, si definisce
    \textbf{deviazione standard di $X$} il termine:
    \[
        \sigma(X) \defeq \sqrt{\Var(X)}.
    \]
\end{definition}

\begin{remark}
    La deviazione standard misura quanto $X$ si discosta mediamente da
    $\EE[X]$, se esiste.
\end{remark}

\begin{remark}
    La varianza e la deviazione standard sono
    detti \textbf{indici di dispersione} della distribuzione
    di $X$, dacché misurano
    quanto le immagini di $X$ distano mediamente dal valore
    atteso $\EE[X]$.
\end{remark}

\begin{proposition}
    \label{prop:cono_isotropo}
    Sia $X$ una v.a.~reale che ammette varianza. Allora
    $\Var(X) = 0$ se e solo se $X$ è costante q.c. \smallskip


    Segue dal fatto che $\EE[(X -\EE[X])^2] = 0$ se e solo se
    $\EE[X] = X$ q.c., ovverosia se e solo se $X$ è una costante.
\end{proposition}

\subsection{Identità sulla (co)varianza e disuguaglianza di Chebyshev}

\begin{proposition}
    \label{prop:indipendenza_cov}
    $\Cov(\cdot, \cdot)$ è una funzione simmetrica e
    lineare in ogni suo argomento. In particolare per
    $X$ e $Y$ con momento secondo finito vale che:
    \[
        \Cov(X, Y) = \EE[XY] - \EE[X] \EE[Y].
    \]
    Pertanto due v.a.~indipendenti hanno covarianza nulla (i.e.~sono scorrelate)
    per l'\textit{Osservazione \ref{remark:indipendenza_valore_atteso}}.
    In particolare, la covarianza tra una qualsiasi costante q.c.~e
    un'altra v.a.~reale è nulla.
\end{proposition}

\begin{remark}
    La precedente proposizione mette ancora in luce come sia determinante la
    legge congiunta $p_{(X, Y)}$, usata per calcolare $\EE[XY]$, che
    in generale le leggi $p_X$ e $p_Y$, che pure si usano per calcolare
    $\EE[X]$ e $\EE[Y]$, non riescono a ricostruire.
\end{remark}

\begin{remark}
    A partire dalla precedente proposizione si ricava che per $X$ v.a.~reale
    con momento secondo finito vale che:
    \[
        \Var(X) = \EE[X^2] - \EE[X]^2.
    \]
\end{remark}

\begin{remark}
    Viste le proprietà discusse nella precedente proposizione
    si può concludere che la covarianza sul sottospazio di $\VA(\Omega, \RR)$
    delle v.a.~con momento secondo finito
    corrisponde a una forma bilineare simmetrica semidefinita positivo,
    ovverosia a un prodotto scalare. \smallskip


    Due v.a.~indipendenti sono ortogonali tramite $\Cov$ per la
    \textit{Proposizione \ref{prop:indipendenza_cov}}. \smallskip

    Al cono isotropo e al radicale di questo prodotto appartengono solo le costanti per la
    \textit{Proposizione \ref{prop:cono_isotropo}}. \smallskip


    Se $\varphi \defeq \Cov$, vale che $q_\varphi \equiv \Var$ e $\norm{\cdot}_\varphi \equiv \sigma$,
    ovverosia la varianza $\Var$ è la forma quadratica associata alla covarianza $\Cov$,
    mentre $\sigma$ ne è la norma.
\end{remark}

\begin{lemma}
    Siano $X_1$, ..., $X_n$ v.a.~reali con momento secondo finito. Allora vale che:
    \[
        \Var(X_1 + \ldots + X_n) = \sum_{i \in [n]} \Var(X_i) + 2 \sum_{1 \leq i < j \leq n} \Cov(X_i, X_j).
    \]
    In particolare, se $(X_i)_{i \in [n]}$ è una famiglia di v.a.~scorrelate a due a due (e.g.~indipendenti) vale che:
    \[
        \Var(X_1 + \ldots + X_n) = \sum_{i \in [n]} \Var(X_i).
    \]
\end{lemma}

\begin{lemma}
    Sia $aX + b$ una v.a.~reale con $X$ che ammette momento secondo finito. Allora
    vale che:
    \[
        \Var(aX + b) = a^2 \Var(X).
    \]
    Segue dal fatto che $aX$ e $b$ sono indipendenti, che $\Var(b) = 0$ e che
    $\Var$ è la forma quadratica di $\Cov$.
\end{lemma}

\begin{proposition}[Disuguaglianza di Chebyshev]
    Sia $X$ v.a.~reale con momento secondo finito. Allora $\forall a > 0$ vale
    che:
    \[
        P(\abs{X - \EE[X]} > a) \leq \frac{\Var(X)}{a^2}.
    \]
    Segue dall'immediata applicazione della disuguaglianza di Markov.
\end{proposition}

\subsection{Coeff.~di correlazione e retta di regressione lineare}

\begin{definition}[Coefficiente di correlazione di Pearson, PCC]
    Date $X$, $Y$ v.a.~reali non costanti q.c.\footnote{
        Infatti il coseno è definito solo per coppie di vettori anisotropi
        ed il cono isotropo di $\Cov$ è costituito dalle sole costanti q.c.
    }~e con momento secondo finito si definisce il \textbf{coefficiente di correlazione
    di Pearson} (PCC) $\rho(X, Y)$, o più brevemente \textit{coefficiente di correlazione}, 
     come il coseno di $X$ e $Y$ rispetto a $\Cov$, ovverosia:
    \[
        \rho(X, Y) \defeq \cos_{\Cov}(X, Y) = \frac{\Cov(X, Y)}{\sigma(X) \cdot \sigma(Y)}.
    \]
\end{definition}

\begin{lemma}
    Date $X$, $Y$ v.a.~reali non costanti q.c.~e con momento secondo finito vale che:
    \begin{enumerate}[(i.)]
        \item $\abs{\rho(X, Y)} \leq 1$ (per la disuguaglianza di Cauchy-Schwarz),
        \item $\rho(aX + b, cX + d) = \rho(X, Y)$ (per verifica diretta).
    \end{enumerate}
\end{lemma}

\begin{theorem}
    Siano $X$, $Y$ v.a.~reali con momento secondo finito e non costanti q.c. Allora
    la funzione:
    \[
        \RR^2 \ni (a, b) \mapsto \EE[(Y - (aX + b))^2] \in \RR
    \]
    è ben definita e ammette un unico punto di minimo $(a^*, b^*)$, dove:
    \[
        a^* = C_{\Cov}(X, Y) = \frac{\Cov(X, Y)}{\Var(X)}, \quad b^* = \EE[Y] - a^* \EE[X].
    \]
    Inoltre il valore di tale minimo è:
    \[
        \EE[(Y - (a^* X + b^*))^2] = \Var(Y) \cdot (1 - \rho(X, Y)^2).
    \]
\end{theorem}

\begin{definition}[Retta di regressione (lineare)]
    Date $X$, $Y$ v.a.~reali con momento secondo finito e non costanti q.c.
    si definisce \textbf{retta di regressione} (lineare) la retta $y = a^*x + b^*$.
\end{definition}

\begin{remark}
    Dal precedente teorema si può ottenere una caratterizzazione della
    correlazione lineare tra due v.a.~reali $X$ e $Y$ non costanti q.c.~e con
    momento secondo finito. Infatti vale che:
    \begin{itemize}
        \item la retta di regressione di $X$ e $Y$ rappresenta la migliore approssimazione
        lineare di $Y$ tramite $X$,
        
        \item $\rho(X, Y) \approx 0$ ($X$, $Y$ quasi scorrelate) $\implies$ poca correlazione lineare ($\EE[(Y - (a^* X + b^*))^2]$ assume approsimativamente il valore massimo possibile e dunque $Y$
        dista mediamente tanto da ogni retta di $X$),
        \item $\rho(X, Y) \approx 1 \implies$ forte correlazione lineare (infatti se
        $\rho = 1$, $\EE[(Y - (a^* X + b^*))^2] = 0$, e dunque $Y = a^* X + b^*$ q.c.).
    \end{itemize}
    Si osserva inoltre che $\sgn(a^*) = \sgn(\rho(X, Y))$.
\end{remark}

\section{Legge dei grandi numeri (LGN), media campionaria e limite in senso probabilistico}

\subsection{Definizioni ed enunciato}

\begin{definition}[Media campionaria $n$-esima]
    Data una famiglia di v.a.~reali $(X_i)_{i \in \NN}$ i.i.d.~dotate di momento secondo
    finito\footnote{
        Dal momento che le $X_i$ sono i.i.d.~è sufficiente che $X_1$ sia dotata di
        momento secondo finito.
    } si definisce \textbf{media campionaria $n$-esima} il termine:
    \[
        \overline{X_n} \defeq \frac{1}{n} \sum_{i \in [n]} X_i, 
    \]
    ovverosia la media aritmetica delle prime $n$ v.a.~della famiglia.
\end{definition}

\begin{definition}[Limite probabilistico]
    Data una successione di v.a.~reali $(Y_i : \Omega \to \RR)_{i \in \NN}$ e data
    una v.a.~reale $Y : \Omega \to \RR$ si
    dice che $Y_n$ tende (probabilisticamente) a $Y$ ($Y_n \toprob Y$) per $n \to \infty$
    se:
    \[
        \lim_{n \to \infty} P(\abs{Y_n - Y} > \eps) = 0, \quad \forall \eps > 0.
    \]
\end{definition}

\begin{remark}
    Una successione di v.a.~reali $(Y_i)_{i \in \NN}$ tende a $Y$ se si può
    sempre scegliere un $n$ arbitrariamente grande tale per cui la probabilità che $Y_i$
    sia pari a $Y$ (eccetto per un errore assoluto $\eps$ fissato) è certa entro un
    errore arbitrario.
\end{remark}

\begin{theorem}[Legge (debole) dei grandi numeri, LGN]
    Sia $(X_i)_{i \in \NN}$ una famiglia di v.a.~reali scorrelate e i.d.~(e.g.~i.i.d.) dotate di momento secondo
    finito, ovverosia con $\EE[X_1^2] < \infty$. Allora vale che:
    \[
        \overline{X_n} \toprob \EE[X_1], \quad \text{per } n \to \infty.
    \]
\end{theorem}

\begin{proof}
    Si osserva che $\EE[\overline{X_n}] = \EE[X_1]$ e che
    $\Var(\overline{X_n}) = \frac{1}{n} \Var(X_1)$. Allora, se $\eps > 0$,
    per la disuguaglianza di Chebyshev vale che:
    \[
        P\left(\abs{\overline{X_n} - \EE[X_1]} > \eps\right) \leq \frac{\Var(\overline{X_n})}{\eps^2} =
        \frac{\Var(X_1)}{\eps^2 n}.
    \]
    Dal momento che $\frac{\Var(X_1)}{\eps^2 n} \to 0$ per $n \to \infty$, si ottiene
    la tesi.
\end{proof}

\begin{remark}
    In alcune occasioni, ovverosia quando $\Var(\overline{X_n}) \to 0$
    per $n \to \infty$, è ancora possibile applicare la LGN seguendo la stessa
    dimostrazione.
\end{remark}

\begin{remark}
    La legge dei grandi numeri ci permette di ricondurre la definizione
    assiomatica di Kolmogorov di probabilità a quella frequentista. Se
    infatti fissiamo una probabilità $P$ e costruiamo un modello di prove
    ripetute (come definito successivamente) il cui successo è dipeso
    da se accade l'evento $A$, considerando come famiglia di
    v.a.~i.i.d.~la famiglia $(1_{A_i})_{i \in \NN}$, dove $A_i$ è l'evento di successo di $A$ nella prova
    $i$-esima, per la legge dei grandi numeri si ottiene che per $n \to \infty$ vale che:
    \[
        \overline{1_{A_n}} = \frac{\text{numero di volte che accade $A$}}{\text{numero di prove}} \toprob \EE[1_{A_1}] = P(A).
    \]
\end{remark}

\subsection{Trasformata di Cramer per l'ottimizzazione della stima}

Cerchiamo in questa sezione di ottenere, utilizzando la funzione
esponenziale, una stima ottimale per
$P(\overline{X_n} - m > \eps)$ con $\eps > 0$, $(X_i)_{i \in \NN}$ famiglia
di v.a.~i.i.d.~e $m = \EE[X_1]$ finito. \smallskip

Dacché $\exp : \RR \to (0, \infty)$ è crescente, vale che, per $\lambda > 0$:
\begin{multline*}
    P(\overline{X_n} - m > \eps) = P\left(\lambda \sum_{i \in [n]} (X_i - m) > \lambda n \eps\right) = \\ = P\left(\exp\left(\lambda \sum_{i \in [n]} (X_i - m)\right) > \exp(\lambda n \eps)\right).
\end{multline*}

Applicando la disuguaglianza di Markov si ottiene che:
\begin{multline*}
    P(\overline{X_n} - m > \eps) \leq \frac{1}{e^{\lambda n \eps}} \EE\left[\exp\left(\lambda \sum_{i \in [n]} (X_i - m)\right)\right] = \\
    = \frac{1}{e^{\lambda n \eps}} \EE[\exp(\lambda(X_1 - m))]^n = \\
    = \exp\left(-n\left(\lambda \eps - \log \, \EE\left[e^{\lambda(X_1-m)}\right]\right)\right).
\end{multline*}
dove si è utilizzato che le v.a.~sono indipendenti e identicamente distribuite.

\begin{definition}[Trasformata di Cramer]
    Dato $\eps > 0$, $(X_i)_{i \in \NN}$ famiglia
di v.a.~i.i.d.~e $m = \EE[X_1]$ finito, si definisce \textbf{trasformata di Cramer}
    il valore:
    \[
        I(t) = \sup_{\lambda > 0} \, \left(\lambda t - \log \, \EE\left[e^{\lambda(X_1-m)}\right]\right).
    \]
\end{definition}

Ottimizzando dunque in $\lambda$, la precedente disuguaglianza di scrive come:
\[
    P(\overline{X_n} - m > \eps) \leq e^{-n \cdot I(\eps)}.
\]
Se dunque esiste $\lambda > 0$ per cui $\EE\left[e^{\lambda(X_1-m)}\right]$ è finito, allora $I(\eps) > 0$, e dunque $P(\overline{X_n} - m > \eps)$ tende esponenzialmente a $0$
per $n \to \infty$.

\section{Teorema centrale del limite (TCL, o TLC)}

\subsection{Intuizione del TCL: \textit{zoom-in} e \textit{scaling}}
Per la legge dei grandi numeri sappiamo già che
$\overline{X_n} - m \toprob 0$ per $m = \EE[X_1]$, $n \to \infty$ e
$(X_i)_{i \in [n]}$ famiglia di v.a.~i.i.d. Ciò è dipeso, come illustrato dalla dimostrazione, dal fatto che è presente un fattore $\frac{1}{n}$ in $\Var(\overline{X_n})$.
\smallskip


Se $\alpha > 0$ e consieriamo lo \textit{scaling} (o \textit{zoom-in}) $n^\alpha (\overline{X_n} - m)$
vale che:
\[
    \Var(n^\alpha (\overline{X_n} - m)) = n^{2\alpha} \Var(\overline{X_n}) = n^{2\alpha - 1} \Var(X_1). 
\]
Pertanto, riapplicando la disuguaglianza di Chebyshev:
\[
    P\left(n^\alpha \abs{\overline{X_n} - m} > \eps\right) \leq \frac{1}{\eps^2} n^{2\alpha - 1} \Var(X_1).
\]
Per $\alpha < \frac{1}{2}$ si riottiene una tesi analoga a quella della LGN. È
lecito dunque aspettarsi che per $\alpha = \frac{1}{2}$ possa accadere qualcosa
di diverso, da cui l'intuizione del TCL.

\subsection{Enunciato del TCL e Teorema di De Moivre-Laplace per la distr.~binomiale}
\begin{theorem}[Teorema centrale del limite, TCL; oppure Teorema del limite centrale, TLC]
    Sia $(X_i)_{i \in \NN}$ una famiglia di v.a.~i.i.d dotate di momento secondo
    finito ($\EE[X_1^2] < \infty$) e non costanti q.c.~($\Var(X_1) > 0$). Sia
    $\sigma = \sigma(X_1)$ e sia $m = \EE[X_1]$. Allora per ogni scelta di $a$, $b$
    tali per cui $-\infty \leq a \leq b \leq \infty$\footnote{
        Si ammettono dunque anche i casi $\pm \infty$.
    } vale che per $n \to \infty$:
    \[
        P\left(a \leq \frac{\sqrt{n}}{\sigma} \left(\overline{X_n} - m\right) \leq b\right) \to \frac{1}{\sqrt{2\pi}}\int_a^b e^{-\frac{x^2}{2}} \dx. 
    \]
    Equivalentemente vale che:
    \[
        P\left(a \leq \frac{1}{\sqrt{n}\sigma} \left[\left(\sum_{i \in [n]} X_i\right) - nm\right] \leq b\right) \to \frac{1}{\sqrt{2\pi}}\int_a^b e^{-\frac{x^2}{2}} \dx. 
    \]
\end{theorem}

\begin{warn}
    Per il calcolo di $\frac{1}{\sqrt{2\pi}}\int_a^b e^{-\nicefrac{x^2}{2}} \dx$ mediante
    la funzione $\Phi(x)$ si rimanda
    alla \textit{Tabella \ref{tab:phi}} allegata nelle ultime pagine di queste schede riassuntive.
\end{warn}

\begin{corollary}[Teorema di De Moivre-Laplace]
    Sia $Y_n \sim B(n, \pp)$. Allora per ogni scelta di $a$, $b$ tali per cui
    $-\infty \leq a \leq b \leq \infty$ vale che per $n \to \infty$:
    \begin{multline*}
        P\left(n\pp + \sqrt{n \pp (1- \pp)} a  \leq Y_n \leq n\pp + \sqrt{n \pp (1 - \pp)} b\right) \\
        \to \frac{1}{\sqrt{2\pi}}\int_a^b e^{-\frac{x^2}{2}} \dx.
    \end{multline*}
\end{corollary}

\begin{proof}
    Segue dal TCL dal momento che $Y_n$ è somma di $n$ v.a.~$X_i$ i.i.d. con $X_i \sim B(\pp)$. In particolare $m = \EE[X_1] = \pp$ e $\sigma = \sigma(X_1) = \sqrt{\EE[X_1^2] - \EE[X_1]^2} = \sqrt{\pp (1-\pp)}$.
\end{proof}

\section{Modelli probabilistici classici}

\subsection{Probabilità uniforme}

\begin{definition}[Probabilità uniforme]
    Dato $\Omega$ finito, si definisce
    \textbf{probabilità uniforme} l'unica probabilità
    $P : \FF \to \RR$ la cui funzione di densità
    è costante (\textit{equiprobabile}). Equivalentemente è la probabilità
    $P$ tale per cui:
    \[
        P(A) = \frac{\#A}{\#\Omega}.
    \]
\end{definition}

\begin{remark}
    Non è possibile dotare $\Omega$ numerabile di una probabilità
    uniforme. Infatti, se l'unica immagine della funzione $p : \Omega \to \RR$ è
    $c$, $\sum_{\omega \in \Omega} p(\omega) = c \sum_{\omega \in \Omega} 1$, che
    può valere solo $0$ o $\infty$, e dunque non $1$ (e pertanto non può indurre
    una probabilità).
\end{remark}

\subsection{Sequenze di esperimenti e modello delle prove ripetute di Bernoulli}

    Cerchiamo di modellare una sequenza ordinata (e potenzialmente infinita,
    ma al più numerabile)
    di esperimenti. Data una famiglia $(\Omega_i)_{i \in I}$, con $I = \NN$ o
    $I = [n]$, dove ciascuno $\Omega_i$ indica l'$i$-esimo esperimento, definiamo
    in tal caso:
    \[ 
        \Omega = \left\{ (\omega_1, \omega_2, \ldots) \,\middle\vert\, \omega_1 \in \Omega_1, \omega_2 \in \Omega_2^{(\omega_1)}, \omega_3 \in \Omega_3^{(\omega_1, \omega_2)}, \ldots\right\},
    \]

    dove la notazione $\Omega_i^{(\omega_j)_{j \in [i-1]}}$ indica il sottoinsieme
    di $\Omega_i$ degli esiti dell'esperimento possibili una volta che nei precedenti
    esperimenti sono successi $\omega_1$, \ldots, $\omega_{i-1}$. Se i precedenti
    esperimenti non condizionano gli esiti dei successivi, allora
    $\Omega = \prod_{i \in I} \Omega_i$. \medskip


    Riduciamoci al caso di una sequenza (finita o infinita) di esperimenti tra di
    loro non condizionati, ciascuno
    con esito successo ($1$) o insuccesso ($0$). Un tale esperimento è
    detto \textbf{prova di Bernoulli}. In tal caso $\Omega = \prod_{i \in I} [[1]]$. \medskip
    
    
    Sia $A_i$ l'evento ``successo all''$i$-esima prova'', ossia:
    \[
        A_i = \{ \omega \in \Omega \mid \omega_i = 1 \}.
    \]

    Sia $p_i : [[1]] \to \RR$ la funzione di densità associata alla misura
    di probabilità dell'esperimento $\Omega_i$. Associamo allora ad $\Omega$ la $\sigma$-algebra $\FF = \sigma(A_i)_{i \in I}$ generata
    dagli $A_i$ (che è al più numerabile). Se $I$ è finito, $\FF = \PP(\Omega)$.

    \begin{definition}[Modello della sequenza di prove]
        Si definisce \textbf{probabilità del modello della sequenza di prove}
        l'unica probabilità $P$ sullo spazio misurabile $(\Omega, \FF)$ tale
        per cui $(A_i)_{i \in I}$ è una famiglia di eventi indipendenti e
        per la quale $P(A_i) = p_i(1)$.
    \end{definition}

    \begin{remark}
        Tale probabilità è univocamente determinata dal momento che
        gli $A_i$ generano $\FF$ e che sono indipendenti.
    \end{remark}

    \begin{definition}[Modello delle prove ripetute]
        Se $P$ è una probabilità del modello della sequenza di prove e
        $p_i(1) = p_j(1)$ per ogni coppia $i$, $j$, allora il modello
        prende il nome di \textbf{modello delle prove ripetute} e si dice
        che $\pbern \defeq p_1(1)$ è il \textbf{parametro di Bernoulli}.
    \end{definition}

    A partire dal modello delle prove ripetute si possono formalizzare
    numerose distribuzioni, come quelle della sezione delle
    \textit{\hyperref[tab:distr_discrete]{Distribuzioni discrete}}.
\end{multicols*}