Come ottenere prestazioni migliori e training dei modelli di reinforcement learning più rapidi utilizzando una Riproduzione Prioritizzata dell’Esperienza?

Dal paper originale di DeepMind: Prioritized Experience Replay

Innanzitutto che cosa è il Reinforcement Learning?

L’apprendimento per rinforzo (o reinforcement learning) è una tecnica di apprendimento automatico che punta a realizzare agenti autonomi in grado di scegliere azioni da compiere per il conseguimento di determinati obiettivi tramite interazione con l’ambiente in cui sono immersi.

L’apprendimento per rinforzo è uno dei tre paradigmi principali dell’apprendimento automatico, insieme all’apprendimento supervisionato e a quello non supervisionato.

A differenza degli altri due, questo paradigma si occupa di problemi di decisioni sequenziali, in cui l’azione da compiere dipende dallo stato attuale del sistema e ne determina quello futuro.

Il concetto di rinforzo è dato che ad una previsione corretta, nel momento in cui si conferma come reale vi è un ritorno e un rinforzo sul fatto che i parametri presi in considerazione per quella analisi sono più attendibili.

Quindi ogni agente che applica un modello all’avverarsi delle sue previsioni riterrà sempre più efficienti ed efficaci quei modelli di previsione.

La riproduzione dell’ esperienza consente ad un agente di reinforcement learning di raccogliere, ricordare e riutilizzare le esperienze del passato. Queste transizioni d’esperienza vengono solitamente campionate in modo uniforme da una memoria di riproduzione e quindi utilizzate per il training.

Tuttavia, questo approccio riproduce semplicemente le transizioni alla stessa frequenza con cui sono state originariamente sperimentate, indipendentemente dalla loro importanza o dalla magnitudine del proprio errore di differenza temporale (TD error).

TD error ” Temporal Difference Learning”

TD error è l’errore che in maniera naturale si viene a creare nella modellazione dei training in quanto la modellazione nel passare del tempo subisce delle modifiche.

Risulta che le sequenze associate ai premi sembrano essere riprodotte più frequentemente nei cervelli biologici (Atherton et al., 2015; Ólafsdóttir et al., 2015; Foster & Wilson, 2006) come esperienze con grande magnitudine. L’errore TD, inoltre, sembra essere riprodotto più spesso (Singer & Frank, 2009; McNamara et al., 2014)).

La misura di tale grandezza dell’errore di differenza temporale fornisce di per sé un modo per misurare queste priorità di aggiornamento, ciononostante l’approccio proposto nel paper di DeepMind per il training di modelli RL model-free utilizza invece una priorità stocastica che, come viene dimostrato, si dimostra più robusta nella fase di apprendimento tramite campionamento dell’esperienza.

Basandoci su tale documento possiamo implementare un agente con questo tipo riproduzione prioritizzata dell’esperienza. Ciò significa che possiamo riprodurre le transizioni importanti più frequentemente, e quindi consentire al modello di imparare più velocemente e in modo più efficiente.

L’idea chiave è che un agente RL possa imparare in modo più efficace da alcune transizioni piuttosto che da altre e quindi, vogliamo confrontare tutti i possibili benefici di una prioritizzazione stocastica invece di una semplice prioritizzazione basata sulla TD error.

Possiamo anche testare la riproduzione prioritizzata dell’esperienza in un modello che utilizza Deep Q-Recurrent Networks (DQRNN) in un ambiente appositamente personalizzato, prevedendo che questo agente raggiungerà un nuovo stato dell’arte, sovraperformando i modelli previsionali.