Una catena di Markov Γ¨ un processo stocastico discreto \(X_n\) in cui il futuro dipende solo dal presente. Tutti gli \(X_n\)hanno gli stessi valori, l'insieme finito degli stati, con una distribuzione iniziale \(π_0.\) Con le giuste proprietΓ , una catena di Markov converge a una distribuzione stazionaria unica, indipendentemente dal punto di partenza.
Inserisci la matrice di transizione \(π_{π,π}=π(π_{π+1}=πβ£π_π=π):\)
Stato iniziale:
Passi per blocco:
Nella stragrande maggioranza dei problemi reali, quando per generare numeri casuali che seguano specifiche distribuzioni di probabilitΓ non Γ¨ possibile usare l'inversione della funzione di ripartizione, quando lo spazio degli stati Γ¨ continuo, \(p(x)\) Γ¨ nota solo a meno di una costante (caso bayesiano) e la costante di normalizzazione Γ¨ un integrale impossibile, oppure quando lo spazio discreto Γ¨ enorme e non si possono enumerare tutti gli stati e le loro probabilitΓ , si usano algoritmi di una classe di metodi Monte Carlo a Catena di Markov (MCMC).
Data una distribuzione di probabilitΓ , Γ¨ possibile costruire una catena di Markov la cui distribuzione degli elementi la approssima, ovvero la distribuzione di equilibrio della catena di Markov corrisponde alla distribuzione target.
Si puΓ² dire anche che MCMC costruisce una passeggiata casuale tra i valori andando piΓΉ volentieri verso i valori piΓΉ frequenti e tornando indietro piΓΉ volentieri dai valori rari. Dopo un po' la percentuale di tempo passata su ogni valore Γ¨ uguale alla sua probabiltΓ originale.
Uno di questi metodi Γ¨ l'algoritmo Metropolis-Hastings.
Ad esempio supponiamo di voler campionare da una distribuzione nota per cui sia costoso calcolare numericamente l'integrale per normalizzare. Con MCMC esplorariamo lo spazio delle sequenze senza enumerarlo esplicitamente.
Partendo da un punto qualsiasi nello spazio dei valori, ad ogni passo:
PiΓΉ precisamente se \(p(x)\) Γ¨ la distribuzione nota:
La MCMC costruisce dunque una catena di Markov la cui distribuzione stazionaria Γ¨ la distribuzione da campionare. La catena deve "esplorare" bene lo spazio β una proposta troppo piccola o troppo grande rallenta la convergenza. Si usano tracce, \(\hat R\) di Gelman-Rubin, e piΓΉ catene parallele per verificare la convergenza.
Possiamo vedere come la distribuzione ottenuta con questo algoritmo approssimi la distribuzione da campionare.
Nel caso Metropolis-Hastings con proposta simmetrica e \(n\) stati la matrice di transizione \( P \), di dimensione \( n \times n \), dove l'elemento \( P_{ij} \) Γ¨ la probabilitΓ di passare dallo stato \( i \) allo stato \( j \) in un passo dell'algoritmo MCMC, si puΓ² descrivere come: \[ P_{ij} = Q_{ij} \cdot \alpha_{ij} \quad \text{per } j \neq i \] \[ P_{ii} = Q_{ii} + \sum_{k \neq i} Q_{ik}(1 - \alpha_{ik}) \] dove
Varianti principali a Metropolis-Hastings sono: