mirror of https://github.com/hearot/notes
You cannot select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
431 lines
18 KiB
TeX
431 lines
18 KiB
TeX
%--------------------------------------------------------------------
|
|
\chapter{Statistica inferenziale}
|
|
\setlength{\parindent}{2pt}
|
|
|
|
\begin{multicols*}{2}
|
|
|
|
Lo scopo della statistica inferenziale è quello di ottenere informazioni
|
|
riguardanti la distribuzione di probabilità di un esperimento a partire
|
|
dagli esiti di $n$ ripetizioni di quest'ultimo. \smallskip
|
|
|
|
Nel caso di questo corso, studieremo situazioni di statistica inferenziale
|
|
\textit{parametrica}, ovverosia situazioni in cui è conosciuto il modello
|
|
di probabilità del singolo esperimento a meno di un singolo parametro
|
|
(e.g.~l'esperimento $X$ è in legge uguale a $B(p)$, ma $p$ non è noto).
|
|
|
|
\section{Definizioni preliminari}
|
|
|
|
Si considerino dei dati statistici $x_1$, ...,
|
|
$x_n \in \RR$. Si consideri come spazio di probabilità
|
|
lo spazio discreto relativo a $[n]$ con distribuzione
|
|
uniforme. \smallskip
|
|
|
|
Si definisca su tale spazio la v.a.~$X : [n] \to \RR$ tale per cui
|
|
$i \mapsto x_i$. Si osserva facilmente che $X$ ha
|
|
range $r_x = \{x_1, ..., x_n\}$, e dunque il calcolo di tutti
|
|
i suoi indici può essere ristretto a $r_x$. \smallskip
|
|
|
|
Analogamente definiamo per dei dati $y_1$, ..., $y_n \in \RR$ la v.a.~$Y$.
|
|
|
|
\subsection{Indici di centralità e di dispersione sui singoli dati}
|
|
|
|
\begin{definition}[Media campionaria]
|
|
Si definisce \textbf{media campionaria} il seguente
|
|
indice di centralità:
|
|
\[
|
|
\overline{x} \defeq \frac{1}{n} \sum_{i=1}^n x_i.
|
|
\]
|
|
Tale media coincide con il valore atteso di $X$.
|
|
\end{definition}
|
|
|
|
\begin{definition}[Mediana campionaria]
|
|
Si definisce \textbf{mediana campionaria} il seguente
|
|
indice di centralità:
|
|
\[
|
|
m_x \defeq \begin{cases}
|
|
x_{\nicefrac{(n+1)}{2}} & \mbox{se $n$ dispari}, \\
|
|
\nicefrac{\left(x_{\nicefrac{n}{2}} + x_{\nicefrac{(n+2)}{2}}\right)}{2} & \mbox{se $n$ pari}.
|
|
\end{cases}
|
|
\]
|
|
Tale indice è una mediana per $X$.
|
|
\end{definition}
|
|
|
|
\begin{definition}[Varianza campionaria \textit{corretta}]
|
|
Si definisce \textbf{varianza campionaria (corretta)} il seguente
|
|
indice di dispersione:
|
|
\[
|
|
s^2 = s_x^2 = \sigma_x^2 \defeq \frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2.
|
|
\]
|
|
\end{definition}
|
|
|
|
\begin{warn}
|
|
A differenza della media e della mediana, la varianza campionaria appena
|
|
descritta \underline{non} coincide con la varianza che si calcolerebbe
|
|
sulla v.a.~$X$. Infatti vale che:
|
|
\[
|
|
\Var(X) = \EE\left[(X - \EE[X])^2\right] = \frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2,
|
|
\]
|
|
e dunque:
|
|
\[
|
|
s^2 = \frac{n}{n-1} \Var(X).
|
|
\]
|
|
\end{warn}
|
|
|
|
\subsection{Indici su coppie di dati}
|
|
|
|
\begin{definition}[Coeff.~di correlazione campionario]
|
|
Date delle coppie di dati $(x_i, y_i)_{i \in [n]}$, si definisce
|
|
il \textbf{coefficiente di correlazione campionario} come:
|
|
\[
|
|
r \defeq \frac{\sum_{i=1}^n \left(x_i - \overline{x}\right)\left(y_i - \overline{y}\right)}{\sqrt{\sum_{i=1}^n \left(x_i - \overline{x}\right)^2 \cdot \sum_{i=1}^n \left(y_i - \overline{y}\right)^2}}.
|
|
\]
|
|
Tale valore coincide con l'usuale coefficiente di correlazione lineare di Bearson su
|
|
$X$ e $Y$, ovverosia:
|
|
\[
|
|
r = \cos_{\Cov}(X, Y) = \frac{\Cov(X, Y)}{\sqrt{\Var(X) \Var(Y)}},
|
|
\]
|
|
che, per la disuguaglianza di Cauchy-Schwarz, appartiene all'intervallo $[-1, 1]$.
|
|
\end{definition}
|
|
|
|
\section{Modello statistico}
|
|
|
|
Come già osservato, la statistica inferenziale parametrica studia situazioni in cui
|
|
è necessario ricavare o stimare un singolo parametro su un dato modello di probabilità al fine
|
|
di ricavare la distribuzione di probabilità dei dati $x_1$, ..., $x_n$.
|
|
|
|
\begin{notation}[Parametri $\theta$ e probabilità $Q_\theta$]
|
|
Denotiamo con $\Theta$ l'insieme dei possibili parametri $\theta$ per la distribuzione
|
|
di probabilità sui dati $x_1$, ..., $x_n$. \smallskip
|
|
|
|
Denotiamo con $Q_\theta$ la probabilità che si otterrebbe utilizzando il parametro $\theta$
|
|
nel modello di probabilità noto a meno di parametro.
|
|
\end{notation}
|
|
|
|
\begin{definition}
|
|
Si definisce \textbf{modello statistico parametrico} una terna $(S, \cS, (Q_\theta)_{\theta \in \Theta})$,
|
|
dove $(S, \cS)$ è uno spazio misurabile e $(Q_\theta)_{\theta \in \Theta}$ è una famiglia di
|
|
misure di probabilità.
|
|
\end{definition}
|
|
|
|
\begin{example}
|
|
Supponiamo di star cercando di ricavare la probabilità $p$ con cui esce testa per una data moneta. Allora
|
|
un modello statistico che possiamo associare a questo problema è dato da $S = [1]$, $\cS = \PP([1])$ e
|
|
$Q_\theta \sim B(\theta)$, con $\Theta = [0, 1]$, dove $1$ identifica la testa e $0$ la croce.
|
|
\end{example}
|
|
|
|
\section{Teoria degli stimatori su campioni di taglia \texorpdfstring{$n$}{n}}
|
|
|
|
\subsection{Campione, statistica e stimatore}
|
|
|
|
D'ora in avanti, sottintenderemo di star lavorando sul modello
|
|
statistico $(S, \cS, (Q_\theta)_{\theta \in \Theta})$.
|
|
|
|
\begin{definition}[Campione i.i.d.~di taglia $n$]
|
|
Dato un modello statistico, si dice
|
|
che una famiglia di v.a.~$(X_i : \Omega \to S)_{i \in [n]}$ i.i.d.~è un \textbf{campione i.i.d.~di taglia $n$}
|
|
se esiste uno spazio misurabile $(\Omega, \FF)$ tale per cui,
|
|
per ogni $\theta \in \Theta$, esiste una probabilità $P_\theta$ su $(\Omega, \FF)$ tale per cui
|
|
$(P_\theta)^{X_i}$ è uguale in legge a $Q_\theta$. Un campione rappresenta generalmente il risultato di
|
|
$n$ esiti di un esperimento aleatorio.
|
|
\end{definition}
|
|
|
|
Dato un campione di taglia $n$, useremo $P_\theta$ per riferirci alla misura di probabilità
|
|
su $(\Omega, \FF)$ appena descritta. Scriveremo
|
|
come apice $\theta$ per indicare di star lavorando nello spazio
|
|
di probabilità $(\Omega, \FF, P_\theta)$ (e.g.~$\EE^\theta$ è riferito
|
|
a $P_\theta$).
|
|
|
|
\begin{definition}[Statistica e stimatore]
|
|
Dato un campione i.i.d.~$(X_i)_{i \in [n]}$, si dice \textbf{statistica}
|
|
una v.a.~dipendente dalle v.a.~$X_i$ ed eventualmente dal parametro $\theta$.
|
|
Si dice \textbf{stimatore} una statistica non dipendente direttamente da $\theta$.
|
|
\end{definition}
|
|
|
|
\subsection{Correttezza di uno stimatore}
|
|
|
|
\begin{definition}[Stimatore corretto]
|
|
Si dice che uno stimatore $U$ è \textbf{corretto} (o \textit{non distorto}) rispetto
|
|
a $h : \Theta \to \RR$ se per ogni $\theta \in \Theta$ vale che:
|
|
\begin{enumerate}[(i.)]
|
|
\item $U$ è $P_\theta$-integrabile (i.e.~ammette valore atteso),
|
|
\item $\EE^\theta[U] = h(\theta)$.
|
|
\end{enumerate}
|
|
\end{definition}
|
|
|
|
\begin{remark}
|
|
La media campionaria è uno stimatore corretto del valore atteso ($h : \theta \mapsto \EE^\theta[X_1]$). Infatti:
|
|
\[
|
|
\EE^\theta\!\left[\overline{X}\right] = \EE^\theta[X_1].
|
|
\]
|
|
\end{remark}
|
|
|
|
\begin{remark}
|
|
La varianza campionaria è uno stimatore corretto della varianza ($h : \theta \mapsto \Var^\theta(X_1)$). Infatti:
|
|
\[
|
|
\EE^\theta[S^2] = \frac{1}{n-1} \left( n \EE^\theta[X_1^2] - \EE^\theta[X_1^2] - (n-1) \EE^\theta[X_1]^2 \right) = \Var^\theta(X_1).
|
|
\]
|
|
Si verifica analogamente che il coeff.~di correlazione campionario è uno stimatore corretto del
|
|
coeff.~di correlazione tra $X_i$ e $X_j$.
|
|
\end{remark}
|
|
|
|
\subsection{Consistenza e non distorsione di una successione di stimatori}
|
|
|
|
\begin{definition}[Successione non distorta di stimatori]
|
|
Una successione di stimatori $(U_k)_{k \in \NN^+}$ di $h(\theta)$ si dice
|
|
\textbf{asintoticamente non distorta} se $U_k$ è $P_\theta$-integrabile
|
|
(i.e.~ammette valore atteso) e:
|
|
\[
|
|
\lim_{k \to \infty} \EE^\theta[U_k] = h(\theta).
|
|
\]
|
|
\end{definition}
|
|
|
|
\begin{definition}[Successione consistente di stimatori]
|
|
Una successione di stimatori $(U_k)_{k \in \NN^+}$ di $h(\theta)$ si dice
|
|
\textbf{consistente} se:
|
|
\[
|
|
\lim_{k \to \infty} P_\theta(\abs{U_k - h(\theta)} > \eps) = 0, \quad \forall \eps > 0,
|
|
\]
|
|
ovverosia se $U_k$ converge in $P_\theta$-probabilità a $h(\theta)$.
|
|
\end{definition}
|
|
|
|
\begin{remark}
|
|
La successione di stimatori $(\overline{X_n})_{n \in \NN^+}$, corretti per
|
|
il valore atteso, è sia consistente che
|
|
asintoticamente non distorta, per la LGN.
|
|
\end{remark}
|
|
|
|
\begin{remark}
|
|
La successione di stimatori $(S^2_n)_{n \in \NN^+}$, corretti per la
|
|
varianza, consistente, sempre per la LGN.
|
|
\end{remark}
|
|
|
|
\subsection{Rischio quadratico e preferibilità}
|
|
|
|
\begin{definition}[Rischio quadratico di uno stimatore]
|
|
Dato uno stimatore $U$ di $h : \Theta \to \RR$, si definisce
|
|
\textbf{rischio quadratico} di $U$ per $\theta$ il seguente valore:
|
|
\[
|
|
R_\theta(U) = \EE[(U - h(\theta))^2].
|
|
\]
|
|
\end{definition}
|
|
|
|
\begin{remark}
|
|
Se $U$ è uno stimatore corretto di $h$, allora
|
|
$R_\theta(U) = \Var^\theta(U)$.
|
|
\end{remark}
|
|
|
|
\begin{definition}[Preferibilità]
|
|
Dati due stimatori $U$, $V$ di $h : \Theta \to \RR$, si dice
|
|
che $U$ è \textbf{preferibile} rispetto a $V$ se
|
|
$R_\theta(U) \leq R_\theta(V)$ per ogni $\theta \in \Theta$.
|
|
\end{definition}
|
|
|
|
\subsection{Stimatore di massima verosomiglianza (MLE)}
|
|
|
|
D'ora in avanti sottintenderemo di star lavorando sullo
|
|
spazio misurabile $(\RR, \BB(\RR))$.
|
|
|
|
\begin{notation}
|
|
Data la famiglia di probabilità $(Q_\theta)_{\theta \in \Theta})$, usiamo
|
|
scrivere $m_\theta$ per riferirci alla densità discreta $q_\theta$ (o $p_\theta$)
|
|
di $Q_\theta$, qualora sia discreta, oppure alla sua funzione di densità
|
|
$f_\theta$, qualora $Q_\theta$ sia assolutamente continua.
|
|
\end{notation}
|
|
|
|
\begin{definition}[Funzione di verosomiglianza]
|
|
Dato un campione $(X_i)_{i \in [n]}$ i.i.d.~, si definisce
|
|
\textbf{funzione di verosomiglianza} la funzione $L : \Theta \times \RR^n$
|
|
tale per cui:
|
|
\[
|
|
(\theta, (x_i)_{i \in [n]}) \xmapsto{L} L_\theta(x_1, \ldots, x_n) \defeq m_\theta(x_1) \cdots m_\theta(x_n).
|
|
\]
|
|
Equivalentemente, $L_\theta(x_1, \ldots, x_n)$ rappresenta la densità congiunta su $Q_\theta$
|
|
di $x_1$, ..., $x_n$.
|
|
\end{definition}
|
|
|
|
\begin{notation}
|
|
Scriveremo $L_U(X_1, \ldots, X_n)$ con $U$ v.a. e
|
|
$(X_i)_{i \in [n]}$ famiglia di v.a.~reali sottintendendo
|
|
l'insieme $L_{U(\omega)}(X_1(\omega), \ldots, X_n(\omega))$,
|
|
assumendo $U(\omega) \in \Theta$.
|
|
\end{notation}
|
|
|
|
\begin{definition}[Stimatore di massima verosomiglianza di $\theta$]
|
|
Si dice che uno stimatore $U$ è di \textbf{massima verosomiglianza di $\theta$} (MLE, da
|
|
\textit{maximum likelihood estimator})
|
|
su un campione i.i.d.~$(X_i)_{i \in [n]}$ se:
|
|
\[
|
|
L_U(X_1, \ldots, X_n) = \sup_{\theta \in \Theta} L_\theta(X_1, \ldots, X_n), \quad \forall \omega \in S.
|
|
\]
|
|
In altre parole, uno stimatore $U$ è di massima verosomiglianza su un campione se
|
|
per dei dati $x_1$, ..., $x_n$ restituisce il parametro $\theta$ che massimizza
|
|
$L_\theta(x_1, \ldots, x_n)$, ovverosia la densità consiunta dei dati
|
|
$x_1$, ..., $x_n$ (i.e.~la probabilità che si ottenga $x_1$, ..., $x_n$).
|
|
\end{definition}
|
|
|
|
\begin{example}[Prova di Bernoulli]
|
|
Sia $Q_\theta \sim B(\theta)$. Dati gli esiti $x_1$, ..., $x_n$ di $n$ prove,
|
|
ricaviamo che:
|
|
\[
|
|
L_\theta(x_1, \ldots, x_n) = \theta^{\sum_i x_i} (1 - \theta)^{n - \theta^{\sum_i x_i}},
|
|
\]
|
|
da cui:
|
|
\[
|
|
\log L_\theta(x_1, \ldots, x_n) = n \overline{x} \log(\theta) + n (1 - \overline{x}) \log(1 - \theta).
|
|
\]
|
|
Tale funzione ha massimo per $\theta = \overline{x}$, e dunque
|
|
$\overline{X}$ è uno stimatore di massima verosomiglianza di $\theta$. \smallskip
|
|
|
|
In altre parole, la migliore stima di $\theta$ data una sequenza di $n$ prove di Bernoulli è
|
|
la frequenza relativa di successi.
|
|
\end{example}
|
|
|
|
\begin{example}
|
|
Sia $Q_\theta \sim U([0, \theta])$ con $\theta > 0$. Dati gli esiti $x_1$, ..., $x_n$ ricaviamo che:
|
|
\[
|
|
L_\theta(x_1, \ldots, x_n) = \frac{1}{\theta^n} \prod_i 1_{[0, \theta]}(x_i) =
|
|
\frac{1}{\theta^n} 1_{0 \leq \min_i x_i \leq \max_i x_i \leq \theta},
|
|
\]
|
|
che ha massimo per $\theta = \max_i x_i$. Pertanto $\max\{X_1, \ldots, X_n\}$ è uno stimatore
|
|
di massima somiglianza di $\theta$. \smallskip
|
|
|
|
In altre parole, dati degli esiti $x_1$, ..., $x_n$, una delle migliori stime che possiamo fare
|
|
su $\theta$ è $\max_i x_i$.
|
|
\end{example}
|
|
|
|
\section{Modello esponenziale, unicità e consistenza dello stimatore MLE}
|
|
|
|
\begin{definition}[Modello statistico esponenziale]
|
|
Dato un modello statistico $(S, \cS, (Q_\theta)_{\theta \in \Theta})$, si dice che
|
|
tale modello è \textbf{esponenziale} nei seguenti due casi:
|
|
|
|
\begin{enumerate}[(i.)]
|
|
\item[\scriptsize (caso discreto)] data $Q_\theta$ discreta, allora esistono
|
|
$g$, $T : \NN \to \RR$ e $c_\theta : \Theta \to \RR$ per cui
|
|
$p_\theta(k) = c_\theta g(k) e^{\theta T(k)}$ e tali che
|
|
$g$, $T$ dipendano solo da $k$ e $c_\theta$ solo da $\theta$.
|
|
\item[\scriptsize (caso ass.~cont.)] data $Q_\theta$ AC, allora esistono
|
|
$g$, $T : \RR \to \RR$ boreliane e $c_\theta : \Theta \to \RR$ per cui
|
|
$f_\theta(x) = c_\theta g(x) e^{\theta T(x)}$ e tali che
|
|
$g$, $T$ dipendano solo da $x$ e $c_\theta$ solo da $\theta$.
|
|
\end{enumerate}
|
|
\end{definition}
|
|
|
|
Per i modelli esponenziali valgono i seguenti fondamentali teoremi:
|
|
|
|
\begin{theorem}[Unicità e consistenza dello stimatore MLE per densità discrete]
|
|
Si consideri il modello $(\RR, \BB(\RR), (Q_\theta)_{\theta \in \Theta})$ tale per cui:
|
|
\begin{itemize}
|
|
\item $\theta_1 \neq \theta_2 \implies Q_{\theta_1} \neq Q_{\theta_2}$,
|
|
\item $\Theta \subseteq \RR$ è un intervallo aperto,
|
|
\item $Q_\theta$ è esponenziale discreta di densità
|
|
$p_\theta(k) = c_\theta g(k) e^{\theta T(k)}$,
|
|
\item $\sum_{i \in \NN} g(k) T^2(k) e^{\theta T(k)^+} < \infty$ per ogni $\theta \in \Theta$.
|
|
\end{itemize}
|
|
Premesso ciò, se $(X_i)_{i \in [n]}$ è un campione i.i.d.~di taglia $n$ ed esiste uno stimatore
|
|
$U$ di massima verosomiglianza di $\theta$ rispetto a tale campione, allora, sempre rispetto
|
|
a $(X_i)_{i \in [n]}$,
|
|
$U$ è l'unico stimatore di massima verosomiglianza di $\theta$ ed è consistente rispetto a $\theta$. \smallskip
|
|
|
|
In particolare, fissati i dati $x_1$, ..., $x_n$, lo stimatore di massima verosomiglianza $\hat\theta$ risolve la seguente equazione:
|
|
\[
|
|
\frac{d \left[- \log(c_\theta)\right]}{d\theta} \left(\hat\theta\right) = \sum_{i \in [n]} T(x_i).
|
|
\]
|
|
\end{theorem}
|
|
|
|
\begin{theorem}[Unicità e consistenza dello stimatore MLE per densità AC]
|
|
Si consideri il modello $(\RR, \BB(\RR), (Q_\theta)_{\theta \in \Theta})$ tale per cui:
|
|
\begin{itemize}
|
|
\item $\theta_1 \neq \theta_2 \implies Q_{\theta_1} \neq Q_{\theta_2}$,
|
|
\item $\Theta \subseteq \RR$ è un intervallo aperto,
|
|
\item $Q_\theta$ è esponenziale assolutamente continua di densità
|
|
$f_\theta(x) = c_\theta g(x) e^{\theta T(x)}$,
|
|
\item $h : x \mapsto g(x) T^2(x) e^{\theta T(x)^+}$ è integrabile per ogni $\theta \in \Theta$.
|
|
\end{itemize}
|
|
Premesso ciò, se $(X_i)_{i \in [n]}$ è un campione i.i.d.~di taglia $n$ ed esiste uno stimatore
|
|
$U$ di massima verosomiglianza di $\theta$ rispetto a tale campione, allora, sempre rispetto
|
|
a $(X_i)_{i \in [n]}$,
|
|
$U$ è l'unico stimatore di massima verosomiglianza di $\theta$ ed è consistente rispetto a $\theta$.
|
|
\end{theorem}
|
|
|
|
\begin{remark}
|
|
L'enunciato precedente può essere generalizzato ad aperti $\Theta$ convessi in $\RR^d$
|
|
con funzione $T : \RR \to \RR^d$ boreliana, ponendo:
|
|
\[
|
|
f_\theta(x) = c_\theta g(x) \exp\left(\theta^\top T(x)\right).
|
|
\]
|
|
\end{remark}
|
|
|
|
\begin{remark}
|
|
A partire al precedente teorema si può dunque dimostrare che:
|
|
\begin{itemize}
|
|
\item $(\overline{X}, \frac{n-1}{n} S^2)$ è l'unico stimatore di massima verosomiglianza per $(m, \sigma^2)$ sul
|
|
modello $N(m, \sigma^2)$,
|
|
\item se $\sigma^2$ è nota, $\overline{X}$ è l'unico stimatore di massima verosomiglianza per
|
|
$m$ sul modello $N(m, \sigma^2)$,
|
|
\item se $m$ è nota, $\frac{n-1}{n} S^2$ è l'unico stimatore di massima verosomiglianza per
|
|
$\sigma^2$ sul modello $N(m, \sigma^2)$.
|
|
\end{itemize}
|
|
\end{remark}
|
|
|
|
\section{Intervalli di fiducia}
|
|
|
|
\subsection{Regione di fiducia}
|
|
|
|
\begin{definition}
|
|
Dato il modello statistico $(S, \cS, (Q_\theta)_{\theta \in \Theta})$ con campione
|
|
i.i.d.~$(X_i)_{i \in \NN}$, si definisce \textbf{regione di fiducia a livello $1-\alpha$}
|
|
per il parametro $\theta$ una mappa $D : \Theta \to \PP(\Omega)$, detta \textit{insieme aleatorio}, tale per cui:
|
|
\[
|
|
P_\theta(\theta \in D) \geq 1 - \alpha, \quad \forall \theta \in \Theta,
|
|
\]
|
|
dove $P_\theta$ è la probabilità relativa allo spazio misurabile del campione i.i.d.~e
|
|
$\{\theta \in D\} = \{\omega \in \Omega \mid \theta \in D(\omega)\} \in \FF$.
|
|
\end{definition}
|
|
|
|
\subsection{Quantili e distribuzione gaussiana}
|
|
|
|
\begin{definition}
|
|
Data una probabilità $P$ su $(\RR, \BB(\RR))$, con funzione di ripartizione $F$ si
|
|
definisce \textbf{quantile di ordine $\beta$} con $\beta \in (0, 1)$ il valore:
|
|
\[
|
|
r_\beta = \inf \{ x \in \RR \mid F(x) \geq \beta \}.
|
|
\]
|
|
In altre parole, $r_\beta$ è l'estremo inferiore dell'insieme degli $x$ tali per cui
|
|
$P((-\infty, x)) \geq \beta$, ossia ``il primo valore'' per cui si supera la probabilità
|
|
$\beta$. \smallskip
|
|
|
|
|
|
Se $P$ si distribuisce come $N(0, 1)$, si denota $r_\beta$ come $q_\beta$.
|
|
\end{definition}
|
|
|
|
\begin{remark}
|
|
Per simmetria della f.d.r.~$\Phi$, vale che $q_{1-\beta} = -q_\beta$. Inoltre vale che:
|
|
\[
|
|
P(-q_{1-\alpha/2} \leq Z \leq q_{1-\alpha/2}) = 1-\alpha,
|
|
\]
|
|
dove $Z \sim N(0, 1)$ e $\alpha \in (0, 1)$. \smallskip
|
|
|
|
Queste due proprietà valgono in generale se la legge considerata ha densità pari, o ancora
|
|
più generalmente se ha la stessa legge al suo opposto.
|
|
\end{remark}
|
|
|
|
\subsection{Intervalli di fiducia per la media in una popolazione normale}
|
|
|
|
Consideriamo il modello $(\RR, \BB(\RR), (Q_\theta)_{\theta \in \Theta})$ con $Q_\theta \sim N(m, \sigma^2)$, dove il
|
|
parametro da ricercare è la media $m$. Sia $(X_i)_{i \in [n]}$ un campione i.i.d.~con $X_i \sim N(m, \sigma^2)$.
|
|
Dal momento che $\overline{X}$ è uno stimatore
|
|
di $m$, un intervallo di fiducia per il livello $1-\alpha$ è intuitivamente della forma $D = [\overline{X} \pm d]$ con $d \in \RR$.
|
|
Dacché $\EE[\overline{X}] = m$ e $\Var(\overline{X}) = \sigma^2/n$, per riproducibilità delle variabili gaussiane si
|
|
ricava che $\overline{X} \sim N(m, \sigma^2/n)$, ovverosia $\frac{\sqrt{n}}{\sigma}(\overline{X} - m) \sim N(0, 1)$ per
|
|
standardizzazione. \smallskip
|
|
|
|
Pertanto vale che:
|
|
\[ P_m(m \in D) = P_m\left(\abs{\overline{X} - m} \leq d\right) = 2 \Phi\left(\frac{\sqrt{n}}{\sigma} d\right) - 1, \]
|
|
e dunque, ponendo $P_m(m \in D) = 1-\alpha$, si ottiene che:
|
|
\[
|
|
d = \frac{\sigma}{\sqrt{n}} q_{1-\alpha/2}.
|
|
\]
|
|
|
|
\end{multicols*}
|