%-------------------------------------------------------------------- \chapter{Statistica inferenziale} \setlength{\parindent}{2pt} \begin{multicols*}{2} Lo scopo della statistica inferenziale è quello di ottenere informazioni riguardanti la distribuzione di probabilità di un esperimento a partire dagli esiti di $n$ ripetizioni di quest'ultimo. \smallskip Nel caso di questo corso, studieremo situazioni di statistica inferenziale \textit{parametrica}, ovverosia situazioni in cui è conosciuto il modello di probabilità del singolo esperimento a meno di un singolo parametro (e.g.~l'esperimento $X$ è in legge uguale a $B(p)$, ma $p$ non è noto). \section{Definizioni preliminari} Si considerino dei dati statistici $x_1$, ..., $x_n \in \RR$. Si consideri come spazio di probabilità lo spazio discreto relativo a $[n]$ con distribuzione uniforme. \smallskip Si definisca su tale spazio la v.a.~$X : [n] \to \RR$ tale per cui $i \mapsto x_i$. Si osserva facilmente che $X$ ha range $r_x = \{x_1, ..., x_n\}$, e dunque il calcolo di tutti i suoi indici può essere ristretto a $r_x$. \smallskip Analogamente definiamo per dei dati $y_1$, ..., $y_n \in \RR$ la v.a.~$Y$. \subsection{Indici di centralità e di dispersione sui singoli dati} \begin{definition}[Media campionaria] Si definisce \textbf{media campionaria} il seguente indice di centralità: \[ \overline{x} \defeq \frac{1}{n} \sum_{i=1}^n x_i. \] Tale media coincide con il valore atteso di $X$. \end{definition} \begin{definition}[Mediana campionaria] Si definisce \textbf{mediana campionaria} il seguente indice di centralità: \[ m_x \defeq \begin{cases} x_{\nicefrac{(n+1)}{2}} & \mbox{se $n$ dispari}, \\ \nicefrac{\left(x_{\nicefrac{n}{2}} + x_{\nicefrac{(n+2)}{2}}\right)}{2} & \mbox{se $n$ pari}. \end{cases} \] Tale indice è una mediana per $X$. \end{definition} \begin{definition}[Varianza campionaria \textit{corretta}] Si definisce \textbf{varianza campionaria (corretta)} il seguente indice di dispersione: \[ s^2 = s_x^2 = \sigma_x^2 \defeq \frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2. \] \end{definition} \begin{warn} A differenza della media e della mediana, la varianza campionaria appena descritta \underline{non} coincide con la varianza che si calcolerebbe sulla v.a.~$X$. Infatti vale che: \[ \Var(X) = \EE\left[(X - \EE[X])^2\right] = \frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2, \] e dunque: \[ s^2 = \frac{n}{n-1} \Var(X). \] \end{warn} \subsection{Indici su coppie di dati} \begin{definition}[Coeff.~di correlazione campionario] Date delle coppie di dati $(x_i, y_i)_{i \in [n]}$, si definisce il \textbf{coefficiente di correlazione campionario} come: \[ r \defeq \frac{\sum_{i=1}^n \left(x_i - \overline{x}\right)\left(y_i - \overline{y}\right)}{\sqrt{\sum_{i=1}^n \left(x_i - \overline{x}\right)^2 \cdot \sum_{i=1}^n \left(y_i - \overline{y}\right)^2}}. \] Tale valore coincide con l'usuale coefficiente di correlazione lineare di Bearson su $X$ e $Y$, ovverosia: \[ r = \cos_{\Cov}(X, Y) = \frac{\Cov(X, Y)}{\sqrt{\Var(X) \Var(Y)}}, \] che, per la disuguaglianza di Cauchy-Schwarz, appartiene all'intervallo $[-1, 1]$. \end{definition} \section{Modello statistico} Come già osservato, la statistica inferenziale parametrica studia situazioni in cui è necessario ricavare o stimare un singolo parametro su un dato modello di probabilità al fine di ricavare la distribuzione di probabilità dei dati $x_1$, ..., $x_n$. \begin{notation}[Parametri $\theta$ e probabilità $Q_\theta$] Denotiamo con $\Theta$ l'insieme dei possibili parametri $\theta$ per la distribuzione di probabilità sui dati $x_1$, ..., $x_n$. \smallskip Denotiamo con $Q_\theta$ la probabilità che si otterrebbe utilizzando il parametro $\sigma$ nel modello di probabilità noto a meno di parametro. \end{notation} \begin{definition} Si definisce \textbf{modello statistico parametrico} una terna $(S, \cS, (Q_\theta)_{\theta \in \Theta})$, dove $(S, \cS)$ è uno spazio misurabile e $(Q_\theta)_{\theta \in \Theta}$ è una famiglia di misure di probabilità. \end{definition} \begin{example} Supponiamo di star cercando di ricavare la probabilità $p$ con cui esce testa per una data moneta. Allora un modello statistico che possiamo associare a questo problema è dato da $S = [1]$, $\cS = \PP([1])$ e $Q_\theta \sim B(\theta)$, con $\Theta = [0, 1]$, dove $1$ identifica la testa e $0$ la croce. \end{example} \section{Teoria degli stimatori su campioni di taglia \texorpdfstring{$n$}{n}} \subsection{Campione, statistica e stimatore} D'ora in avanti, sottintenderemo di star lavorando sul modello statistico $(S, \cS, (Q_\theta)_{\theta \in \Theta})$. \begin{definition}[Campione i.i.d.~di taglia $n$] Dato un modello statistico, si dice che una famiglia di v.a.~$(X_i : \Omega \to S)_{i \in [n]}$ i.i.d.~è un \textbf{campione i.i.d.~di taglia $n$} se per ogni $\sigma \in \Sigma$ esiste uno spazio di probabilità $(\Omega, \FF, P_\sigma)$ tale per cui $(P_\sigma)^{X_i}$ è uguale in legge a $Q_\theta$. \end{definition} Dato un campione di taglia $n$, useremo $P_\sigma$ per riferirci alla misura di probabilità su $(\Omega, \FF)$ appena descritta. Scriveremo come apice $\sigma$ per indicare di star lavorando nello spazio di probabilità $(\Omega, \FF, P_\theta)$ (e.g.~$\EE^\sigma$ è riferito a $P_\theta$). \begin{definition}[Statistica e stimatore] Dato un campione i.i.d.~$(X_i)_{i \in [n]}$, si dice \textbf{statistica} una v.a.~dipendente dalle v.a.~$X_i$ ed eventualmente dal parametro $\sigma$. Si dice \textbf{stimatore} una statistica non dipendente direttamente da $\sigma$. \end{definition} \subsection{Correttezza di uno stimatore} \begin{definition}[Stimatore corretto] Si dice che uno stimatore $U$ è \textbf{corretto} (o \textit{non distorto}) rispetto a $h : \Sigma \to \RR$ se per ogni $\sigma \in \Sigma$ vale che: \begin{enumerate}[(i.)] \item $U$ è $P_\sigma$-integrabile (i.e.~ammette valore atteso), \item $\EE^\sigma[U] = h(\sigma)$. \end{enumerate} \end{definition} \begin{remark} La media campionaria è uno stimatore corretto del valore atteso ($h : \sigma \mapsto \EE^\sigma[X_1]$). Infatti: \[ \EE^\sigma\!\left[\overline{X}\right] = \EE^\sigma[X_1]. \] \end{remark} \begin{remark} La varianza campionaria è uno stimatore corretto della varianza ($h : \sigma \mapsto \Var^\sigma(X_1)$). Infatti: \[ \EE^\sigma[S^2] = \frac{1}{n-1} \left( n \EE^\sigma[X_1^2] - \EE^\sigma[X_1^2] - (n-1) \EE^\sigma[X_1]^2 \right) = \Var^\sigma(X_1). \] Si verifica analogamente che il coeff.~di correlazione campionario è uno stimatore corretto del coeff.~di correlazione tra $X_i$ e $X_j$. \end{remark} \subsection{Consistenza e non distorsione di una successione di stimatori} \begin{definition}[Successione non distorta di stimatori] Una successione di stimatori $(U_k)_{k \in \NN^+}$ di $h(\sigma)$ si dice \textbf{asintoticamente non distorta} se $U_k$ è $P_\sigma$-integrabile (i.e.~ammette valore atteso) e: \[ \lim_{k \to \infty} \EE^\sigma[U_k] = h(\sigma). \] \end{definition} \begin{definition}[Successione consistente di stimatori] Una successione di stimatori $(U_k)_{k \in \NN^+}$ di $h(\sigma)$ si dice \textbf{consistente} se: \[ \lim_{k \to \infty} P_\sigma(\abs{U_k - h(\sigma)} > \eps) = 0, \quad \forall \eps > 0, \] ovverosia se $U_k$ converge in $P_\sigma$-probabilità a $h(\sigma)$. \end{definition} \begin{remark} La successione di stimatori $(\overline{X_n})_{n \in \NN^+}$, corretti per il valore atteso, è sia consistente che asintoticamente non distorta, per la LGN. \end{remark} \begin{remark} La successione di stimatori $(S^2_n)_{n \in \NN^+}$, corretti per la varianza, consistente, sempre per la LGN. \end{remark} \subsection{Stimatore di massima verosomiglianza} D'ora in avanti sottintenderemo di star lavorando sullo spazio misurabile $(\RR, \BB(\RR))$. \begin{notation} Data la famiglia di probabilità $(Q_\sigma)_{\sigma \in \Sigma})$, usiamo scrivere $m_\sigma$ per riferirci alla densità discreta $q_\sigma$ (o $p_\sigma$) di $Q_\sigma$, qualora sia discreta, oppure alla sua funzione di densità $f_\sigma$, qualora $Q_\sigma$ sia assolutamente continua. \end{notation} \begin{definition}[Funzione di verosomiglianza] Dato un campione $(X_i)_{i \in [n]}$ i.i.d.~, si definisce \textbf{funzione di verosomiglianza} la funzione $L : \Sigma \times \RR^n$ tale per cui: \[ (\sigma, (x_i)_{i \in [n]}) \xmapsto{L} L_\sigma(x_1, \ldots, x_n) \defeq m_\sigma(x_1) \cdots m_\sigma(x_n). \] Equivalentemente, $L_\sigma(x_1, \ldots, x_n)$ rappresenta la densità congiunta su $Q_\sigma$ di $x_1$, ..., $x_n$. \end{definition} \begin{notation} Scriveremo $L_U(X_1, \ldots, X_n)$ con $U$ v.a. e $(X_i)_{i \in [n]}$ famiglia di v.a.~reali sottintendendo l'insieme $L_{U(\omega)}(X_1(\omega), \ldots, X_n(\omega))$, assumendo $U(\omega) \in \Sigma$. \end{notation} \begin{definition}[Stimatore di massima verosomiglianza di $\sigma$] Si dice che uno stimatore $U$ è di \textbf{massima verosomiglianza di $\sigma$} su un campione i.i.d.~$(X_i)_{i \in [n]}$ se: \[ L_U(X_1, \ldots, X_n) = \sup_{\theta \in \Theta} L_\theta(X_1, \ldots, X_n), \quad \forall \omega \in S. \] In altre parole, uno stimatore $U$ è di massima verosomiglianza su un campione se per dei dati $x_1$, ..., $x_n$ restituisce il parametro $\theta$ che massimizza $L_\theta(x_1, \ldots, x_n)$, ovverosia la densità consiunta dei dati $x_1$, ..., $x_n$ (i.e.~la probabilità che si ottenga $x_1$, ..., $x_n$). \end{definition} \begin{example}[Prova di Bernoulli] Sia $Q_\theta \sim B(\theta)$. Dati gli esiti $x_1$, ..., $x_n$ di $n$ prove, ricaviamo che: \[ L_\theta(x_1, \ldots, x_n) = \theta^{\sum_i x_i} (1 - \theta)^{n - \theta^{\sum_i x_i}}, \] da cui: \[ \log L_\theta(x_1, \ldots, x_n) = n \overline{x} \log(\theta) + n (1 - \overline{x}) \log(1 - \theta). \] Tale funzione ha massimo per $\theta = \overline{x}$, e dunque $\overline{X}$ è uno stimatore di massima verosomiglianza di $\theta$. \smallskip In altre parole, la migliore stima di $\sigma$ data una sequenza di $n$ prove di Bernoulli è la frequenza relativa di successi. \end{example} \begin{example} Sia $Q_\theta \sim U([0, \theta])$ con $\theta > 0$. Dati gli esiti $x_1$, ..., $x_n$ ricaviamo che: \[ L_\theta(x_1, \ldots, x_n) = \frac{1}{\theta^n} \prod_i 1_{[0, \theta]}(x_i) = \frac{1}{\theta^n} 1_{0 \leq \min_i x_i \leq \max_i x_i \leq \theta}, \] che ha massimo per $\theta = \max_i x_i$. Pertanto $\max\{X_1, \ldots, X_n\}$ è uno stimatore di massima somiglianza di $\theta$. \smallskip In altre parole, dati degli esiti $x_1$, ..., $x_n$, una delle migliori stime che possiamo fare su $\theta$ è $\max_i x_i$. \end{example} \end{multicols*}