SARSA: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Riga 13:
== Iperparametri ==
 
=== Tasso di apprendimento (alfa)α ===
Cambiando il valore del tasso di apprendimento è possibile modificare il contributo dell'errore stimato a ogni iterazione: un fattore pari a 0 equivale a non apprendere nulla, mentre con un valore di alphaalfa uguale a 1 si considera solo l'osservazione più recente.
 
=== Fattore di sconto (gamma)γ ===
Il fattore di sconto determina l'importanza delle ricompense future. Un valore di gamma uguale a 0 rende l'agente "opportunista", in quanto considera solo la ricompensa attuale r; al contrario, un valore di gamma prossimo a 1 permette di cercare ricompense anche a lungo termine. Per valori maggiori di 1 i valori di Q possono divergere.