fix(eps): campioni iid di taglia n

main
parent 162850bac2
commit aaeb015ffa

@ -3,9 +3,9 @@
- [Programma del corso 📘](https://esami.unipi.it/programma.php?c=57989) - [Programma del corso 📘](https://esami.unipi.it/programma.php?c=57989)
- [Registro del corso 📑](https://unimap.unipi.it/registri/dettregistriNEW.php?re=10338931::::&ri=015863) - [Registro del corso 📑](https://unimap.unipi.it/registri/dettregistriNEW.php?re=10338931::::&ri=015863)
Il corso di Elementi di probabilità e statistica (EPS) è ancora in corso, dunque questa cartella vedrà ancora aggiornamenti per il momento. Il corso di Elementi di probabilità e statistica (EPS) è terminato, dunque questa cartella riceverà aggiornamenti senza alcuna costanza.
Questa cartella contiene in particolar modo una *Scheda riassuntiva*, che, come suggerisce il nome, è un recap completo di tutta la Questa cartella contiene in particolar modo una *Scheda riassuntiva*, che, come suggerisce il nome, vorrebbe essere un recap completo di tutta la
teoria del corso. Tale scheda include inoltre le tabelle numeriche più utili per lo svolgimento degli esercizi. teoria del corso; è coperta tutta la teoria di probabilità (Parte I, Parte II, Parte III), e metà della teoria di statistica (Parte IV, fino tutta la teoria degli stimatori). Tale scheda include inoltre le tabelle numeriche più utili per lo svolgimento degli esercizi.
Questo progetto non sarebbe mai stato realizzabile senza il meraviglioso Questo progetto non sarebbe mai stato realizzabile senza il meraviglioso
aiuto di alcuni miei amici e colleghi, che ora elenco: aiuto di alcuni miei amici e colleghi, che ora elenco:

File diff suppressed because it is too large Load Diff

@ -1010,6 +1010,11 @@ sono definiti altri due indici di centralità celebri.
\] \]
\end{definition} \end{definition}
\begin{lemma}
Sia $(Y_i)_{i \in \NN}$ una famiglia di v.a.~reali. Sia $\varphi : \RR \to \RR$
continua. Se $Y_i \toprob \ell$, allora $\varphi(Y_i) \toprob \varphi(\ell)$.
\end{lemma}
\begin{remark} \begin{remark}
Una successione di v.a.~reali $(Y_i)_{i \in \NN}$ tende a $Y$ se si può Una successione di v.a.~reali $(Y_i)_{i \in \NN}$ tende a $Y$ se si può
sempre scegliere un $n$ arbitrariamente grande tale per cui la probabilità che $Y_i$ sempre scegliere un $n$ arbitrariamente grande tale per cui la probabilità che $Y_i$

@ -123,8 +123,10 @@ statistico $(S, \cS, (Q_\theta)_{\theta \in \Theta})$.
\begin{definition}[Campione i.i.d.~di taglia $n$] \begin{definition}[Campione i.i.d.~di taglia $n$]
Dato un modello statistico, si dice Dato un modello statistico, si dice
che una famiglia di v.a.~$(X_i : \Omega \to S)_{i \in [n]}$ i.i.d.~è un \textbf{campione i.i.d.~di taglia $n$} che una famiglia di v.a.~$(X_i : \Omega \to S)_{i \in [n]}$ i.i.d.~è un \textbf{campione i.i.d.~di taglia $n$}
se per ogni $\theta \in \Theta$ esiste uno spazio di probabilità $(\Omega, \FF, P_\theta)$ tale per cui se esiste uno spazio misurabile $(\Omega, \FF)$ tale per cui,
$(P_\theta)^{X_i}$ è uguale in legge a $Q_\theta$. per ogni $\theta \in \Theta$, esiste una probabilità $P_\theta$ su $(\Omega, \FF)$ tale per cui
$(P_\theta)^{X_i}$ è uguale in legge a $Q_\theta$. Un campione rappresenta generalmente il risultato di
$n$ esiti di un esperimento aleatorio.
\end{definition} \end{definition}
Dato un campione di taglia $n$, useremo $P_\theta$ per riferirci alla misura di probabilità Dato un campione di taglia $n$, useremo $P_\theta$ per riferirci alla misura di probabilità
@ -218,7 +220,7 @@ a $P_\theta$).
$R_\theta(U) \leq R_\theta(V)$ per ogni $\theta \in \Theta$. $R_\theta(U) \leq R_\theta(V)$ per ogni $\theta \in \Theta$.
\end{definition} \end{definition}
\subsection{Stimatore di massima verosomiglianza} \subsection{Stimatore di massima verosomiglianza (MLE)}
D'ora in avanti sottintenderemo di star lavorando sullo D'ora in avanti sottintenderemo di star lavorando sullo
spazio misurabile $(\RR, \BB(\RR))$. spazio misurabile $(\RR, \BB(\RR))$.
@ -249,7 +251,8 @@ spazio misurabile $(\RR, \BB(\RR))$.
\end{notation} \end{notation}
\begin{definition}[Stimatore di massima verosomiglianza di $\theta$] \begin{definition}[Stimatore di massima verosomiglianza di $\theta$]
Si dice che uno stimatore $U$ è di \textbf{massima verosomiglianza di $\theta$} Si dice che uno stimatore $U$ è di \textbf{massima verosomiglianza di $\theta$} (MLE, da
\textit{maximum likelihood estimator})
su un campione i.i.d.~$(X_i)_{i \in [n]}$ se: su un campione i.i.d.~$(X_i)_{i \in [n]}$ se:
\[ \[
L_U(X_1, \ldots, X_n) = \sup_{\theta \in \Theta} L_\theta(X_1, \ldots, X_n), \quad \forall \omega \in S. L_U(X_1, \ldots, X_n) = \sup_{\theta \in \Theta} L_\theta(X_1, \ldots, X_n), \quad \forall \omega \in S.
@ -290,4 +293,138 @@ spazio misurabile $(\RR, \BB(\RR))$.
su $\theta$ è $\max_i x_i$. su $\theta$ è $\max_i x_i$.
\end{example} \end{example}
\section{Modello esponenziale, unicità e consistenza dello stimatore MLE}
\begin{definition}[Modello statistico esponenziale]
Dato un modello statistico $(S, \cS, (Q_\theta)_{\theta \in \Theta})$, si dice che
tale modello è \textbf{esponenziale} nei seguenti due casi:
\begin{enumerate}[(i.)]
\item[\scriptsize (caso discreto)] data $Q_\theta$ discreta, allora esistono
$g$, $T : \NN \to \RR$ e $c_\theta : \Theta \to \RR$ per cui
$p_\theta(k) = c_\theta g(k) e^{\theta T(k)}$ e tali che
$g$, $T$ dipendano solo da $k$ e $c_\theta$ solo da $\theta$.
\item[\scriptsize (caso ass.~cont.)] data $Q_\theta$ AC, allora esistono
$g$, $T : \RR \to \RR$ boreliane e $c_\theta : \Theta \to \RR$ per cui
$f_\theta(x) = c_\theta g(x) e^{\theta T(x)}$ e tali che
$g$, $T$ dipendano solo da $x$ e $c_\theta$ solo da $\theta$.
\end{enumerate}
\end{definition}
Per i modelli esponenziali valgono i seguenti fondamentali teoremi:
\begin{theorem}[Unicità e consistenza dello stimatore MLE per densità discrete]
Si consideri il modello $(\RR, \BB(\RR), (Q_\theta)_{\theta \in \Theta})$ tale per cui:
\begin{itemize}
\item $\theta_1 \neq \theta_2 \implies Q_{\theta_1} \neq Q_{\theta_2}$,
\item $\Theta \subseteq \RR$ è un intervallo aperto,
\item $Q_\theta$ è esponenziale discreta di densità
$p_\theta(k) = c_\theta g(k) e^{\theta T(k)}$,
\item $\sum_{i \in \NN} g(k) T^2(k) e^{\theta T(k)^+} < \infty$ per ogni $\theta \in \Theta$.
\end{itemize}
Premesso ciò, se $(X_i)_{i \in [n]}$ è un campione i.i.d.~di taglia $n$ ed esiste uno stimatore
$U$ di massima verosomiglianza di $\theta$ rispetto a tale campione, allora, sempre rispetto
a $(X_i)_{i \in [n]}$,
$U$ è l'unico stimatore di massima verosomiglianza di $\theta$ ed è consistente rispetto a $\theta$. \smallskip
In particolare, fissati i dati $x_1$, ..., $x_n$, lo stimatore di massima verosomiglianza $\hat\theta$ risolve la seguente equazione:
\[
\frac{d \left[- \log(c_\theta)\right]}{d\theta} \left(\hat\theta\right) = \sum_{i \in [n]} T(x_i).
\]
\end{theorem}
\begin{theorem}[Unicità e consistenza dello stimatore MLE per densità AC]
Si consideri il modello $(\RR, \BB(\RR), (Q_\theta)_{\theta \in \Theta})$ tale per cui:
\begin{itemize}
\item $\theta_1 \neq \theta_2 \implies Q_{\theta_1} \neq Q_{\theta_2}$,
\item $\Theta \subseteq \RR$ è un intervallo aperto,
\item $Q_\theta$ è esponenziale assolutamente continua di densità
$f_\theta(x) = c_\theta g(x) e^{\theta T(x)}$,
\item $h : x \mapsto g(x) T^2(x) e^{\theta T(x)^+}$ è integrabile per ogni $\theta \in \Theta$.
\end{itemize}
Premesso ciò, se $(X_i)_{i \in [n]}$ è un campione i.i.d.~di taglia $n$ ed esiste uno stimatore
$U$ di massima verosomiglianza di $\theta$ rispetto a tale campione, allora, sempre rispetto
a $(X_i)_{i \in [n]}$,
$U$ è l'unico stimatore di massima verosomiglianza di $\theta$ ed è consistente rispetto a $\theta$.
\end{theorem}
\begin{remark}
L'enunciato precedente può essere generalizzato ad aperti $\Theta$ convessi in $\RR^d$
con funzione $T : \RR \to \RR^d$ boreliana, ponendo:
\[
f_\theta(x) = c_\theta g(x) \exp\left(\theta^\top T(x)\right).
\]
\end{remark}
\begin{remark}
A partire al precedente teorema si può dunque dimostrare che:
\begin{itemize}
\item $(\overline{X}, \frac{n-1}{n} S^2)$ è l'unico stimatore di massima verosomiglianza per $(m, \sigma^2)$ sul
modello $N(m, \sigma^2)$,
\item se $\sigma^2$ è nota, $\overline{X}$ è l'unico stimatore di massima verosomiglianza per
$m$ sul modello $N(m, \sigma^2)$,
\item se $m$ è nota, $\frac{n-1}{n} S^2$ è l'unico stimatore di massima verosomiglianza per
$\sigma^2$ sul modello $N(m, \sigma^2)$.
\end{itemize}
\end{remark}
\section{Intervalli di fiducia}
\subsection{Regione di fiducia}
\begin{definition}
Dato il modello statistico $(S, \cS, (Q_\theta)_{\theta \in \Theta})$ con campione
i.i.d.~$(X_i)_{i \in \NN}$, si definisce \textbf{regione di fiducia a livello $1-\alpha$}
per il parametro $\theta$ una mappa $D : \Theta \to \PP(\Omega)$, detta \textit{insieme aleatorio}, tale per cui:
\[
P_\theta(\theta \in D) \geq 1 - \alpha, \quad \forall \theta \in \Theta,
\]
dove $P_\theta$ è la probabilità relativa allo spazio misurabile del campione i.i.d.~e
$\{\theta \in D\} = \{\omega \in \Omega \mid \theta \in D(\omega)\} \in \FF$.
\end{definition}
\subsection{Quantili e distribuzione gaussiana}
\begin{definition}
Data una probabilità $P$ su $(\RR, \BB(\RR))$, con funzione di ripartizione $F$ si
definisce \textbf{quantile di ordine $\beta$} con $\beta \in (0, 1)$ il valore:
\[
r_\beta = \inf \{ x \in \RR \mid F(x) \geq \beta \}.
\]
In altre parole, $r_\beta$ è l'estremo inferiore dell'insieme degli $x$ tali per cui
$P((-\infty, x)) \geq \beta$, ossia ``il primo valore'' per cui si supera la probabilità
$\beta$. \smallskip
Se $P$ si distribuisce come $N(0, 1)$, si denota $r_\beta$ come $q_\beta$.
\end{definition}
\begin{remark}
Per simmetria della f.d.r.~$\Phi$, vale che $q_{1-\beta} = -q_\beta$. Inoltre vale che:
\[
P(-q_{1-\alpha/2} \leq Z \leq q_{1-\alpha/2}) = 1-\alpha,
\]
dove $Z \sim N(0, 1)$ e $\alpha \in (0, 1)$. \smallskip
Queste due proprietà valgono in generale se la legge considerata ha densità pari, o ancora
più generalmente se ha la stessa legge al suo opposto.
\end{remark}
\subsection{Intervalli di fiducia per la media in una popolazione normale}
Consideriamo il modello $(\RR, \BB(\RR), (Q_\theta)_{\theta \in \Theta})$ con $Q_\theta \sim N(m, \sigma^2)$, dove il
parametro da ricercare è la media $m$. Sia $(X_i)_{i \in [n]}$ un campione i.i.d.~con $X_i \sim N(m, \sigma^2)$.
Dal momento che $\overline{X}$ è uno stimatore
di $m$, un intervallo di fiducia per il livello $1-\alpha$ è intuitivamente della forma $D = [\overline{X} \pm d]$ con $d \in \RR$.
Dacché $\EE[\overline{X}] = m$ e $\Var(\overline{X}) = \sigma^2/n$, per riproducibilità delle variabili gaussiane si
ricava che $\overline{X} \sim N(m, \sigma^2/n)$, ovverosia $\frac{\sqrt{n}}{\sigma}(\overline{X} - m) \sim N(0, 1)$ per
standardizzazione. \smallskip
Pertanto vale che:
\[ P_m(m \in D) = P_m\left(\abs{\overline{X} - m} \leq d\right) = 2 \Phi\left(\frac{\sqrt{n}}{\sigma} d\right) - 1, \]
e dunque, ponendo $P_m(m \in D) = 1-\alpha$, si ottiene che:
\[
d = \frac{\sigma}{\sqrt{n}} q_{1-\alpha/2}.
\]
\end{multicols*} \end{multicols*}

Loading…
Cancel
Save