SARSA: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m →Fattore di sconto (gamma): fix spazio |
|||
Riga 13:
== Iperparametri ==
=== Tasso di apprendimento
Cambiando il valore del tasso di apprendimento è possibile modificare il contributo dell'errore stimato a ogni iterazione: un fattore pari a 0 equivale a non apprendere nulla, mentre con un valore di
=== Fattore di sconto
Il fattore di sconto determina l'importanza delle ricompense future. Un valore di gamma uguale a 0 rende l'agente "opportunista", in quanto considera solo la ricompensa attuale r; al contrario, un valore di gamma prossimo a 1 permette di cercare ricompense anche a lungo termine. Per valori maggiori di 1 i valori di Q possono divergere.
| |||