Perché lstm risolve il gradiente evanescente?

Sommario:

Perché lstm risolve il gradiente evanescente?
Perché lstm risolve il gradiente evanescente?

Video: Perché lstm risolve il gradiente evanescente?

Video: Perché lstm risolve il gradiente evanescente?
Video: The Fundamental Problem with Neural Networks - Vanishing Gradients 2024, Novembre
Anonim

Gli LSTM risolvono il problema utilizzando un'esclusiva struttura del gradiente additivo che include accesso diretto alle attivazioni del gate di dimenticanza, consentendo alla rete di incoraggiare il comportamento desiderato dal gradiente di errore utilizzando frequenti aggiornamenti dei gate in ogni fase del processo di apprendimento.

In che modo LSTM risolve il gradiente che esplode?

Una risposta molto breve: LSTM disaccoppia lo stato della cella (tipicamente indicato da c) e il livello/output nascosto (tipicamente indicato da h), e fa solo aggiornamenti additivi a c, il che rende le memorie in c più stabili. Quindi il gradiente scorre attraverso c viene mantenuto ed è difficile svanire (quindi il gradiente complessivo è difficile da svanire).

Come si può risolvere il problema del gradiente evanescente?

Soluzioni: la soluzione più semplice è usare altre funzioni di attivazione, come ReLU, che non causa una piccola derivata. Le reti residue sono un' altra soluzione, in quanto forniscono connessioni residue direttamente ai livelli precedenti.

Quale problema risolve LSTM?

LSTM. LSTM (abbreviazione di memoria a breve termine lungo) risolve principalmente il problema del gradiente evanescente nella backpropagation. Gli LSTM utilizzano un meccanismo di gating che controlla il processo di memorizzazione. Le informazioni negli LSTM possono essere archiviate, scritte o lette tramite porte che si aprono e si chiudono.

Perché gli LSTM impediscono alle tue pendenze di far scomparire la vista dal passaggio all'indietro?

Il motivo è che, al fine di imporre questo flusso di errore costante, il calcolo del gradiente è stato troncato in modo da non tornare alle porte di input o candidate.

Consigliato: