Versione delle 11:36, 7 apr 2019 modifica Italaid (discussione \| contributi) Utenti autoverificati 15 897 modifiche m →Fattore di sconto (gamma): fix spazio Etichetta: Editor wikitesto 2017 ← Differenza precedente		Versione delle 10:33, 11 apr 2019 modifica annulla Italaid (discussione \| contributi) Utenti autoverificati 15 897 modifiche →Iperparametri Etichetta: Editor wikitesto 2017 Differenza successiva →
Riga 13: == Iperparametri == === Tasso di apprendimento ~~(alfa)~~α === Cambiando il valore del tasso di apprendimento è possibile modificare il contributo dell'errore stimato a ogni iterazione: un fattore pari a 0 equivale a non apprendere nulla, mentre con un valore di ~~alpha~~alfa uguale a 1 si considera solo l'osservazione più recente. === Fattore di sconto ~~(gamma)~~γ === Il fattore di sconto determina l'importanza delle ricompense future. Un valore di gamma uguale a 0 rende l'agente "opportunista", in quanto considera solo la ricompensa attuale r; al contrario, un valore di gamma prossimo a 1 permette di cercare ricompense anche a lungo termine. Per valori maggiori di 1 i valori di Q possono divergere.

SARSA: differenze tra le versioni