Overfitting: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
Rimossa riga senza senso, chi è la Zammito?? |
fix |
||
(34 versioni intermedie di 25 utenti non mostrate) | |||
Riga 1:
{{F|statistica|novembre 2016}}
{{S|statistica}}
[[File:Overfitted Data.png|thumb|upright=1.4|Una serie di dati all'incirca lineare (ma affetta da rumore), approssimabile sia da una [[funzione lineare]] sia da una [[interpolazione polinomiale]]. Nonostante quella polinomiale si adatti in modo perfetto ai dati, ci si aspetta che la versione lineare debba rappresentare una migliore generalizzazione: quindi, in un'estrapolazione al di fuori dei dati conosciuti la funzione lineare fornirebbe migliori [[Previsione|predizioni]].]]
[[
In [[statistica]] e in [[informatica]], si parla di '''''overfitting''''' o '''sovradattamento''' (oppure '''
Un modello assurdo e sbagliato può adattarsi perfettamente se è abbastanza complesso rispetto alla quantità di dati disponibili.
Si sostiene che l{{'}}''overfitting'' sia una violazione del principio del [[rasoio di Occam]].
Sia nella statistica che nel machine learning, per evitare l'''overfitting'', è necessario attuare particolari tecniche, come la [[cross-validation]] e l'[[Arresto anticipato (statistica)|arresto anticipato]], che indichino quando un ulteriore allenamento non porterebbe ad una migliore generalizzazione. Nel [[treatment learning]] si evita l' ''overfitting'' utilizzando il valore di supporto migliore e minimale.▼
{{Portale|matematica}}▼
== Apprendimento automatico e ''data mining'' ==
[[Categoria:Analisi di regressione]]▼
Il concetto di ''overfitting'' è molto importante anche nell'[[apprendimento automatico]] e nel [[data mining]]. Di solito un [[algoritmo]] di apprendimento viene ''allenato'' usando un certo insieme di dati conosciuti, detto ''[[training set]]''. Un buon algoritmo di apprendimento impara la distribuzione dei dati di questo insieme ma è in grado di adattarsi bene anche a dati nuovi (in gergo, si dice che l'algoritmo generalizza).
Tuttavia, soprattutto nei casi in cui l'apprendimento è stato effettuato troppo a lungo o dove c'era uno scarso numero di esempi di allenamento, il modello potrebbe adattarsi a caratteristiche che sono specifiche solo del ''training set'', ma che non hanno riscontro nella distribuzione tipica del resto dei casi. Perciò il modello impara le peculiarità del training set e non riesce ad adattarsi a dati nuovi. Si ha quindi ''overfitting'' quando il miglioramento delle prestazioni del modello (cioè la capacità di adattarsi/prevedere) sui dati di allenamento non implica un miglioramento delle prestazioni sui dati nuovi.
== Contromisure ==
▲Sia nella statistica
Nel [[treatment learning]] si evita l'overfitting utilizzando il valore di supporto migliore e minimale.
== Altri progetti ==
{{interprogetto}}
▲{{Portale|matematica|informatica|statistica}}
[[Categoria:Visione artificiale]]
[[Categoria:Elaborazione digitale delle immagini]]
[[Categoria:Teoria dell'informazione]]
[[Categoria:Intelligenza artificiale]]
[[Categoria:Analisi dei dati]]
▲[[Categoria:Analisi di regressione]]
|