Apprendimento supervisionato: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Riga 19:
Tutti gli algoritmi di apprendimento supervisionato partono dal presupposto che, se forniamo al sistema un numero adeguato di esempi, questo accumulerà un'esperienza ''E'' sufficiente da permettergli di creare una funzione ''h<sub>a</sub>'' adeguata ad approssimare la funzione ''h<sub>b</sub>'' (e quindi il comportamento desiderato da chi ha fornito gli esempi). Data la similitudine tra le funzioni ''h<sub>a</sub>'' e ''h<sub>b</sub>'', quando proporremo al sistema dei dati in ingresso non presenti nella sua esperienza ''E'', la funzione ''h<sub>a</sub>'' dovrebbe essere in grado di approssimare in maniera sufficientemente precisa la funzione ''h<sub>b</sub>'' e fornire delle risposte ''O'' sufficientemente soddisfacenti.
 
Per raggiungere questo obiettivo il sistema sfrutta spesso due principi, che sono quello della [[distribuzione (matematica)]] e quello della [[funzione di verosimiglianza]]. Una volta identificata la distribuzione matematica che lega il variare dei valori degli input ai valori degli output desiderati, il sistema sceglie i parametri che massimizzano la probabilità dei dati ed esprime la funzione di verosimiglianza appropriata.
 
== Considerazioni ==
Molti di questi algoritmi funzionano in maniera efficiente se lavorano in un mondo lineare, presupponendo che ad ingressi simili corrispondano uscite simili. Esistono molte condizioni in cui una simile approssimazione è accettabile, ma non sempre è così. La stima della funzione di verosimiglianza serve ad attenuare le problematiche che derivano dalla trattazione di problemi non completamente lineari.
 
Si può facilmente intuire che il funzionamento corretto ed efficiente di questi algoritmi dipende in modo significativo dall'esperienza; se si fornisce poca esperienza, l'algoritmo potrebbe non creare una funzione interna efficiente, mentre con un'esperienza eccessiva la funzione interna potrebbe divenire molto complessa tanto da rendere lenta l'esecuzione dell'algoritmo.
 
Questi algoritmi sono molto sensibili al rumore,: anche pochi dati errati potrebbero rendere l'intero sistema non affidabile e condurlo a decisioni errate. Una soluzione a questo problema è quello di associarli a controllori che si basano sulla [[logica fuzzy]].
 
Tradizionalmente i principali algoritmi sono stati:
Riga 40:
I metodi generativi si basano sulla creazione di un modello dei dati che poi viene utilizzato per predire le risposte desiderate (o dati di uscita). Esempi sono le [[reti bayesiane]] o più in generale i [[modelli grafici]].
 
I metodi discriminativi, al contrario, cercano di modellare direttamente la relazione tra dati in entrata e quelli in uscita, in modo da minimizzare una [[funzione obiettivo]] (''loss function'' in letteratura). Esempi di questo tipo di modello sono le [[macchine a vettori di supporto]] (''Support Vector Machines'') e più in generale i metodi basati su [[funzioni di kernel]].
 
== Note ==