Metodo dei Minimi Quadrati
Uno degli utilizzi più potenti della proiezione riguarda la riduzione della complessità. Supponiamo di avere uno spazio con molte dimensioni e di voler rappresentare un elemento di questo spazio in un sottospazio con poche dimensioni.
Il problema dei Minimi Quadrati è il seguente.
La soluzione è la proiezione ortogonale di \(\mathbf{v}\) su \(W\) \[ \mathbf{\hat v} = \mathrm{proj}_W(\mathbf{v}) \] il cui residuo \[\mathbf{r} = \mathbf{v} - \mathbf{\hat v}\] soddisfa $\mathbf r \perp W$.
Se \({\mathbf{e}_1,\dots,\mathbf{e}_k}\) è una base ortonormale di \(W\), allora la proiezione è semplicemente \[ \mathbf{\hat v} = \sum_{i=1}^k \langle \mathbf{v}, \mathbf{e}_i \rangle \mathbf{e}_i \] con residuo \[ \mathbf{r} = \mathbf{v} - \sum_{i=1}^k \langle \mathbf{v}, \mathbf{e}_i \rangle \mathbf{e}_i \] Si tratta di una minimizzazione dell’errore, il residuo, perché, grazie all’ortonormalità: \[\|\mathbf r\|^2= \|\mathbf{v} - \mathbf{\hat v}\|^2 = \|\mathbf{v}\|^2 - \|\mathbf{\hat v}\|^2 = \|\mathbf{v}\|^2 - \sum_{i=1}^k |\langle \mathbf{v}, \mathbf{e}_i \rangle|^2 \] Tutta l’“energia” catturabile da \(W\) è raccolta dalle componenti lungo gli \(\mathbf e_i\) come conseguenza diretta del teorema di Pitagora generalizzato, quello di Parseval.
Nella forma classica, senza basi ortonormali, se \(A \in \mathbb{R}^{m \times n}\) è la matrice le cui colonne sono i vettori che generano \(W\) il problema è: \[ \min_{\mathbf{w}\in W} \|A \mathbf{w} - \mathbf{v}\|^2 \] L’annullamento del gradiente della funzione di n variabili $\displaystyle\sum_{i=1}^m\left(\sum_{j=1}^na_{i,j}w_j -v_i\right)^2$ conduce alle equazioni normali: \[ A^T A \mathbf{w} = A^T \mathbf{v} \]
Se le colonne di \(A\) sono ortonormali (chiamiamole \(Q\)), allora $Q^T Q = I$ e quindi $\mathbf{w} = Q^T \mathbf{v}$ da cui $$\mathbf{\hat v} = Q Q^T\mathbf{v}.$$ Ogni matrice \(A\) (a rango pieno) può essere scritta $A = Q R$ dove \(Q\) ha colonne ortonormali e \(R\) è triangolare. Così il problema: \[ \min \|A\mathbf{w} - \mathbf{v}\| \] diventa: \[ \min \|Q R \mathbf{w} - \mathbf{v}\| = \min \|R \mathbf{w} - Q^T \mathbf{v}\| \] così che la geometria è tutta in \(Q\) e l’algebra è tutta in \(R\).
La Principal Component Analysis (PCA) risolve invece il problema di trovare il sottospazio di dimensione \(k\) che minimizza l’errore quadratico medio di ricostruzione, cioè: \[ \min_{W, \dim W = k} |\mathbf{v} - \mathrm{proj}_W(\mathbf{v})|^2 \] la cui soluzione è il sottospazio \(W\) generato dagli autovettori principali che formano una base ortonormale ottimale.