You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

426 lines
18 KiB
TeX

%--------------------------------------------------------------------
\chapter{Spazi di probabilità in generale}
\setlength{\parindent}{2pt}
\begin{multicols*}{2}
\section{Definizioni preliminari}
\subsection{Esperimento aleatorio, spazi campionari}
\begin{definition}[Esperimento aleatorio]
Si dice \textbf{esperimento aleatorio} un fenomeno il cui esito
non è determinabile a priori.
\end{definition}
\begin{definition}[Spazio campionario]
Si definisce \textbf{spazio campionario}, spesso indicato con
$\Omega$, un insieme non vuoto che contiene gli
esiti di un esperimento aleatorio.
\end{definition}
\subsection{\texorpdfstring{$\sigma$}{σ}-algebre e spazi misurabili}
\begin{definition}[$\sigma$-algebra]
Una $\sigma$-algebra $\FF$ di $\Omega$ è un sottoinsieme $\FF \subseteq \PP(\Omega)$ tale per cui:
\begin{enumerate}[(i.)]
\item $\Omega \in \FF$,
\item $A \in \FF \implies A^c \in \FF$,
\item per $(A_i)_{i \in \NN}$ famiglia numerabile di insiemi
in $\FF$, $\bigcup_{i \in \NN} A_i \in \FF$ ($\FF$ è chiuso per unioni numerabili).
\end{enumerate}
\end{definition}
Una $\sigma$-algebra $\FF$ di uno spazio campionario $\Omega$ rappresenta l'insieme degli
\textbf{eventi accettabili}. In particolare:
\begin{definition}[Spazio misurabile]
Si definisce \textbf{spazio misurabile} una coppia
$(\Omega, \FF)$, dove $\FF$ è una $\sigma$-algebra
di $\Omega$.
\end{definition}
\subsection{Insiemi discreti e \texorpdfstring{$\sigma$}{σ}-algebra naturale}
In alcuni casi la scelta della $\sigma$-algebra $\FF$ è
naturale, come nel caso in cui si considera uno spazio
campionario discreto:
\begin{definition}[Insieme discreto]
Diciamo che un insieme $\Omega$ è discreto se è finito o numerabile.
Se non viene esplicitato altrimenti, per $\Omega$ si considererà
sempre la $\sigma$-algebra naturale $\PP(\Omega)$.
\end{definition}
\subsection{Proprietà di una \texorpdfstring{$\sigma$}{σ}-algebra e \texorpdfstring{$\sigma$}{σ}-algebra generata}
In casi non discreti, è invece più naturale considerare
$\sigma$-algebre molto meno grandi dell'insieme delle
parti; in particolare, come vedremo nella \textit{Parte 3},
sarà naturale chiedersi qual è la $\sigma$-algebra più
piccola che contiene una certa famiglia di insiemi:
\begin{definition}[$\sigma$-algebra generata da una famiglia di insiemi]
Sia $\tau$ una famiglia di sottoinsiemi di $\PP(\Omega)$. Allora
si definisce la $\sigma$-algebra
generata da $\tau$, detta $\sigma(\tau)$, come la più
piccola $\sigma$-algebra contenente $\tau$. Equivalentemente:
\[
\sigma(\tau) = \bigcap_{\substack{\FF \subseteq \PP(\Omega) \\ \tau \subseteq \FF \\ \FF \; \sigma\text{-alg.}}} \FF.
\]
\end{definition}
\begin{remark}
La definizione data è una buona definizione dal momento che si
verifica facilmente che l'intersezione di $\sigma$-algebre è ancora
una $\sigma$-algebra.
\end{remark}
\begin{proposition}[Proprietà di $\FF$] Se $\FF$ è una $\sigma$-algebra
di $\Omega$, allora:
\begin{enumerate}[(i.)]
\item $\emptyset \in \FF$,
\item per $(A_i)_{i \in \NN}$ famiglia numerabile di insiemi
in $\FF$, $\bigcap_{i \in \NN} A_i \in \FF$ ($\FF$ è chiuso per intersezioni numerabili),
\item $A \setminus B = A \cap B^c \in \FF \impliedby A$, $B \in \FF$.
\end{enumerate}
\end{proposition}
\section{Corrispondenze logiche e relazionali tra eventi}
\begin{remark}[Corrispondenze affermazioni ed eventi]
Ad alcune affermazioni logiche su $A$ e $B$ eventi di $\FF$ corrispondono degli eventi ben precisi o delle
relazioni:
\begin{itemize}
\item ``Si verificano $A$ e $B$'' corrisponde a $A \cap B$,
\item ``Si verifica $A$ o $B$'' corrisponde a $A \cup B$,
\item ``Si verifica esattamente uno tra $A$ e $B$'' corrisponde a $A \setminus B \cupdot B \setminus A = A \Delta B$ (differenza simmetrica),
\item ``Non si verifica $A$'' corrisponde a $A^c$,
\item ``Si verifica qualcosa'' corrisponde a $\Omega$,
\item ``Non si verifica niente'' corrisponde a $\emptyset$,
\item ``Se succede $A$, allora succede $B$'' corrisponde a $A \subseteq B$,
\item ``Non succedono $A$ e $B$ contemporaneamente'' corrisponde a
$A \cap B = \emptyset$.
\end{itemize}
\end{remark}
\section{Misure di probabilità}
\subsection{La probabilità \texorpdfstring{$P$}{P} su \texorpdfstring{$\Omega$}{Ω} e spazi di probabilità}
\begin{definition}[Probabilità \texorpdfstring{$P$}{P} su $(\Omega, \FF)$ secondo Kolmogorov]
Dato $(\Omega, \FF)$ spazio misurabile, una \textbf{misura
di probabilità} $P$, detta semplicemente \textit{probabilità},
è una funzione $P : \FF \to \RR$ tale per cui:
\begin{enumerate}[(i.)]
\item $P(\Omega) = 1$,
\item $0 \leq P(A) \leq 1$ per ogni $A \in \FF$ (ossia $P$ può restringersi su $[0, 1]$ al codominio),
\item $P(\bigcupdot_{i \in \NN} A_i) = \sum_{i \in \NN} P(A_i)$ ($\sigma$-additività).
\end{enumerate}
In particolare $P$ è una misura per cui $P(\Omega) = 1$.
\end{definition}
\begin{definition}[Spazio di probabilità]
Si dice \textbf{spazio di probabilità} una tripla
($\Omega$, $\FF$, $P$) dove ($\Omega$, $\FF$) è
uno spazio misurabile e $P$ è una
probabilità su ($\Omega$, $\FF$).
\end{definition}
\subsection{Proprietà della probabilità \texorpdfstring{$P$}{P}}
\begin{proposition}[Proprietà di $P$]
Se $P$ è una probabilità su ($\Omega$, $\FF$), allora:
\begin{enumerate}[(i.)]
\item $P(\emptyset) = 0$,
\item $P(\bigcupdot_{i \in [n]} A_i) = \sum_{i \in [n]} P(A_i)$ ($\sigma$-additività finita),
\item $P(A) + P(A^c) = 1$,
\item $A \subseteq B \implies P(A) \leq P(B)$ e $P(B \setminus A) = P(B) - P(A)$ (segue da (iii)),
\item $P(B \setminus A) = P(B) - P(A \cap B)$ (segue da (iv) considerando che $B \setminus A = B \setminus (A \cap B)$),
\item $P(A \cup B) = P(A \Delta B \cupdot A \cap B) = P(A) + P(B) - P(A \cap B)$ (segue da (v)),
\item $P(\bigcup_{i \in [n]} A_i) = \sum_{j \in [n]} (-1)^{j+1} \sum_{1 \leq i_1 < \cdots < i_j \leq n} P(\bigcap_{k \in [j]} A_{i_{k}})$ (segue da (vi) per induzione, Principio di inclusione-esclusione ``probabilistico''),
\item $P(\bigcup_{i \in \NN} A_i) \leq \sum_{i \in \NN} P(A_i)$ ($\sigma$-subadditività).
\end{enumerate}
\end{proposition}
\begin{remark}
Per $\Omega$ finito, la $\sigma$-additività finita implica la $\sigma$-additività per il Principio della piccionaia.
\end{remark}
\begin{proposition}[Comportamento di $P$ al limite]
Sia $(A_i)_{i \in \NN}$ una famiglia numerabile di
eventi in $\FF$ sullo spazio di probabilità
$(\Omega, \FF, P)$. Allora:
\begin{enumerate}[(i.)]
\item $A_i \goesup A \implies P(A_i) \goesup P(A)$,
\item $A_i \goesdown A \implies P(A_i) \goesdown P(A)$.
\end{enumerate}
\end{proposition}
\subsection{Eventi incompatibili, quasi certi e trascurabili, proprietà che accadono q.c.}
\begin{definition}[Eventi trascurabili e quasi certi]
Sia $A \in \FF$. Allora $A$ si dice \textbf{trascurabile} se
$P(A) = 0$; si dice \textbf{quasi certo} se $P(A) = 1$.
\end{definition}
\begin{definition}[Eventi incompatibili]
Due eventi $A$, $B \in \FF$ si dicono \textbf{incompatibili} se
$A \cap B = \emptyset$.
\end{definition}
\begin{definition}[$q$ accade \qc]
Si dice che una proprietà $q$ \textbf{accade quasi certamente (\qc)}
se esiste $A \in \FF$ quasi certo che soddisfa
$q$.
\end{definition}
\begin{remark}
Si osserva che la nozione di proprietà che accade \qc è perfettamente
coerente con la nozione di proprietà che accade \qc riferita a
$P$ come misura (e non specificatamente come misura di probabilità) su $\RR$, ovverosia $q$ accade \qc se esiste
$A \in \FF$ trascurabile tale per cui $A^c$ soddisfi $q$.
\end{remark}
\section{Probabilità condizionata}
\subsection{Definizione di \texorpdfstring{$P(\cdot \mid B)$}{P(•|B)}}
\begin{definition}[Probabilità condizionata su $B$]
Dato $B \in \FF$ evento non trascurabile (i.e.~$P(B) \neq 0$),
la \textbf{probabilità condizionata} su $B$ è la misura
di probabilità $P(\cdot \mid B)$ sullo stesso spazio misurabile
tale per cui:
\[
P(A \mid B) = \frac{P(A \cap B)}{P(B)}, \quad \forall A \in \FF.
\]
\end{definition}
\begin{proposition}
$P(\cdot \mid B)$ è una misura di probabilità su $(\Omega, \FF)$.
\end{proposition}
\begin{remark}
La probabilità condizionata su $\Omega$ coincide con $P$.
\end{remark}
\begin{remark}
In generale $P(A \mid \cdot)$ non è una probabilità, dacché
per $\Omega$ si ricava che $P(A \mid \Omega) = P(A)$, che
potrebbe non essere $1$.
\end{remark}
\subsection{Regola della catena, formula delle probabilità totali e Teorema di Bayes}
\begin{lemma}[Regola della catena, o della torre]
Dati $(A_i)_{i \in [n]}$ con $P(\bigcap_{i \in [n]} A_i) > 0$, allora vale che
$P(\bigcap_{i \in [j]} A_i) > 0$ per ogni $j \leq n$. Inoltre vale che:
\[ P\left(\bigcap_{i \in [n]} A_i\right) = \left(\prod_{j \in [n-1]} P\left(A_j \,\middle\vert\, \bigcap_{i=j+1}^{n} A_i\right)\right) P(A_n), \]
che segue per induzione applicando $P(A \cap B) = P(A \mid B) P(B)$.
\end{lemma}
\begin{remark}
Per esempio, la regola della catena per $A$, $B$ e $C$ si riduce
a:
\[
P(A \cap B \cap C) = P(A \mid B \cap C) P(B \mid C) P(C).
\]
\end{remark}
\begin{definition}[Sistema di alternative]
Una famiglia $(B_i)_{i \in I}$ con $I = \NN$ o
$I = [n]$ si dice \textbf{sistema di alternative}
per $\Omega$ se $\Omega = \bigcupdot_{i \in I} B_i$
e $P(B_i) > 0$ per ogni $i \in I$ (ovverosia
$B_i$ non è mai trascurabile).
\end{definition}
Un sistema di alternative permette di calcolare più agevolmente
la probabilità di un evento riducendosi alle probabilità
condizionate, come mostra il:
\begin{lemma}[Formula delle probabilità totali, o formula della partizione]
Sia $(B_i)_{i \in I}$ un sistema di alternative per $\Omega$. Allora vale
che:
\[
P(A) = \sum_{i \in I} P(A \cap B_i) = \sum_{i \in I} P(A \mid B_i) P(B_i).
\]
\end{lemma}
Nella maggior parte dei casi è possibile ``invertire'' una probabilità
condizionata, ovverosia ricavare una probabilità tra $P(A \mid B)$,
$P(B \mid A)$, $P(A)$ e $P(B)$ conoscendone tre, a patto che
$A$ e $B$ non siano trascurabili, come mostra il:
\begin{theorem}[di Bayes]
Siano $A$ e $B$ due eventi non trascurabili. Allora vale che:
\[
P(A \mid B) = \frac{P(B \mid A) P(A)}{P(B)}.
\]
Segue considerando le due scritture possibili di $P(A \cap B)$.
\end{theorem}
\begin{remark}
Applicando il Teorema di Bayes e la formula delle probabilità totali,
si ricava che per un sistema di alternative $(B_i)_{i \in I}$ e
$A$ non trascurabile vale che:
\[
P(B_i \mid A) = \frac{P(A \mid B_i) P(B_i)}{\sum_{j \in I} P(A \mid B_j) P(B_j)}, \quad \forall i \in I.
\]
\end{remark}
\begin{remark}
Applicando la regola della catena, la formula delle probabilità totali
e il Teorema di Bayes è possibile calcolare agevolmente la probabilità
di un'intersezione di eventi cononoscendone l'albero di sviluppo probabilistico.
In particolare, per calcolare la probabilità di un nodo è sufficiente
moltiplicare le probabilità dei rami facenti parte del percorso dal nodo
alla radice.
\end{remark}
\subsection{Rapporto di influenza, correlazione positiva e negativa}
\begin{definition}[Rapporto di influenza]
Siano $A$ e $B$ due eventi non trascurabili. Allora
il \textbf{rapporto di influenza} di $A$ e $B$
(o più brevemente, la loro \textit{influenza}) è
il parametro:
\[
L(A, B) \defeq \frac{P(A\mid B)}{P(A)},
\]
ed è tale per cui:
\[
P(A \mid B) = L(A, B) P(A).
\]
\end{definition}
\begin{proposition}
$L(\cdot, \cdot)$ è simmetrica, ovverosia $L(A, B) = L(B, A)$ per
ogni evento $A$ e $B$. Segue dal Teorema di Bayes.
\end{proposition}
\begin{definition}[Correlazione positiva e negativa tra $A$ e $B$]
Se $A$ e $B$ sono due eventi non trascurabili, si dice
che $A$ è \textbf{positivamente correlato} a $B$ (o che
si \textit{dilata probabilisticamente} rispetto a $B$) se
$P(A \mid B) \geq P(A)$ (ovverosia se $L(A, B) > 1$). \smallskip
Analogamente
si dice che $A$ è \textbf{negativamente correlato} a $B$
(o che si \textit{contrae probabilisticamente} rispetto a $B$) se
$P(A \mid B) \leq P(A)$ (ovverosia se $L(A, B) < 1$).
\end{definition}
\begin{remark}
Il caso in cui $L(A, B) = 1$ è discusso nella sezione \textit{\nameref{sec:indipendenza}} e corrisponde all'indipendenza
tra $A$ e $B$.
\end{remark}
\begin{remark}
Si può parlare più generalmente di correlazione tra $A$ e $B$
senza scegliere un evento ``rispetto'' a cui analizzarla, dacché
$L(\cdot, \cdot)$ è simmetrica per il Teorema di Bayes. Infatti,
se $P(A \mid B) \leq P(A)$, anche $P(B \mid A) \leq P(B)$, cioè
$A$ è correlato positivamente a $B$ se e solo se $B$ è correlato
positivamente ad $A$. \smallskip
Una correlazione positiva tra $A$ e $B$ indica che, accadendo $B$,
si amplifica la probabilità che accada $A$; viceversa, una correlazione
negativa inficia ridimensionando in contrazione la probabilità che accada $A$
se accade $B$.
\end{remark}
\section{Indipendenza stocastica tra eventi}
\label{sec:indipendenza}
\begin{definition}[Famiglia di eventi indipendenti]
Una famiglia $(A_i)_{i \in I}$ di eventi si dice \textbf{stocasticamente
indipendente}, o più semplicemente indipendente, se
per ogni $J \subseteq I$ finito vale che:
\[
P(\cap_{j \in J} A_j) = \prod_{j \in J} P(A_j).
\]
Nel caso di due eventi questo si riduce a verificare
che $P(A \cap B) = P(A) P(B)$. Si dice che gli $A_i$ sono
\textbf{collettivamente indipendenti}.
\end{definition}
\begin{remark}
Generalmente non è sufficiente verificare che ogni coppia di eventi distinti è
indipendente per verificare che la famiglia è globalmente indipendente.
Infatti, il significato dell'indipendenza in termini puramente probabilistici
è che una famiglia $\FF$ è indipendente se e solo se il ``verificarsi'' di
alcuni eventi della famiglia non influenza il ``verificarsi'' degli altri.
\end{remark}
\begin{remark}
Se $(A_i)_{i \in I}$ è una famiglia di eventi indipendenti, allora
per $J \subseteq I$, $(A_j)_{j \in J}$ è ancora una famiglia di
eventi indipendenti (l'indipendenza si tramanda per restrizione).
\end{remark}
\begin{proposition}
Se $P(B) > 0$, allora $A$ e $B$ sono indipendenti se
e solo se $P(A \mid B) = P(A)$. Inoltre, se
$(A_j)_{j \in J} \cup \{A\}$ è una famiglia finita di eventi
non trascurabili (eccetto eventualmente per $A$)
indipendenti tra loro, allora
$P(\bigcap_{j \in J} A_j) \neq 0$ e
$P(A \mid \bigcap_{j \in J} A_j) = P(A)$.
\end{proposition}
\begin{proposition}
Se $A$ e $B$ sono indipendenti, allora anche
$A^c$ e $B$ sono indipendenti. Analogamente
lo sono $A$ e $B^c$, così come
$A^c$ e $B^c$.
Da ciò segue che se $(A_i)_{i \in I}$ è una famiglia di eventi
indipendenti, allora $(A_i^{\alpha_i})_{i \in I}$ è una famiglia
di eventi indipendenti per qualsiasi scelta di $\alpha_i$ in
$\{1, c\}$.
\end{proposition}
\begin{proposition}
Sia $(A_i)_{i \in I}$ una famiglia di eventi indipendenti. Allora,
se $I$ è partizionato dagli $I_j$, ovverosia $I = \bigcupdot_{j \in J} I_j$,
allora $(\bigcap_{i \in I_j} A_{i})_{j \in J})$ è ancora una famiglia
di eventi indipendenti (ossia intersecando alcuni elementi della famiglia
e lasciandone invariati altri, la famiglia ottenuta è ancora indipendente).
\end{proposition}
\begin{theorem}
Sia $(A_i)_{i \in I}$ una famiglia di eventi indipendenti. Allora,
ogni operazione di unione, intersecazione o complementare di alcuni elementi della famiglia restituisce una famiglia ancora indipendente. \smallskip
Segue dalle due proposizioni precedenti (infatti $A \cup B = (A^c \cap B^c)^c$).
\end{theorem}
\begin{example}
Per esempio, se $A$, $B$ e $C$ sono indipendenti, anche $A \cup B$, $C^c$
è indipendente. Se $A$, $B$, $C$ e $D$ sono indipendenti, anche
$(A \cap B) \cup C^c$ e $D^c$ lo sono.
\end{example}
\begin{remark}
Un'evento $A$ è indipendente da ogni evento $B \in \FF$, incluso
sé stesso, se e solo se $P(A) \in \{0, 1\}$, ovvero se e solo
se $A$ è trascurabile o quasi certo (infatti si avrebbe che
$P(A) = P(A \cap A) = P(A)^2$).
\end{remark}
\begin{remark}
Due eventi incompatibili $A$ e $B$ sono indipendenti se e solo se
uno dei due è trascurabile.
\end{remark}
\end{multicols*}