Logo it.boatexistence.com

Perché la discesa stocastica del gradiente?

Sommario:

Perché la discesa stocastica del gradiente?
Perché la discesa stocastica del gradiente?

Video: Perché la discesa stocastica del gradiente?

Video: Perché la discesa stocastica del gradiente?
Video: Metodo di DISCESA DEL GRADIENTE : Idea e primi esempi 2024, Maggio
Anonim

Secondo un data scientist senior, uno dei vantaggi distinti dell'utilizzo di Stochastic Gradient Descent è che esegue i calcoli più velocemente della discesa del gradiente e della discesa del gradiente batch … Inoltre, su enormi set di dati, la discesa stocastica del gradiente può convergere più velocemente perché esegue gli aggiornamenti più frequentemente.

A cosa serve la Discesa Stocastica Gradiente?

La discesa del gradiente stocastico è un algoritmo di ottimizzazione spesso utilizzato nelle applicazioni di apprendimento automatico per trovare i parametri del modello che corrispondono al miglior adattamento tra output previsti ed effettivi È una tecnica inesatta ma potente. La discesa stocastica del gradiente è ampiamente utilizzata nelle applicazioni di apprendimento automatico.

Perché abbiamo bisogno di usare la discesa gradiente stocastica piuttosto che la discesa gradiente standard per addestrare una rete neurale convoluzionale?

Discesa del gradiente stocastico aggiorna i parametri per ogni osservazione che porta a un numero maggiore di aggiornamenti. Quindi è un approccio più rapido che aiuta a prendere decisioni più rapide. Aggiornamenti più rapidi in diverse direzioni possono essere notati in questa animazione.

Perché preferiamo la discesa in pendenza?

Il motivo principale per cui la discesa del gradiente viene utilizzata per la regressione lineare è la complessità computazionale: è computazionalmente più economico (più veloce) trovare la soluzione utilizzando la discesa del gradiente in alcuni casi. Qui, devi calcolare la matrice X′X quindi invertirla (vedi nota sotto). È un calcolo costoso.

Perché si usa SGD?

La discesa stocastica del gradiente (spesso abbreviata in SGD) è un metodo iterativo per ottimizzare una funzione obiettivo con adeguate proprietà di levigatezza (es. differenziabile o sottodifferenziabile).

Consigliato: