Memoria a lungo e breve termine
Nell'ambito dell'apprendimento automatico la memoria a lungo e breve termine (più nota con l'acronimo dall'inglese LSTM, Long short-term memory)[1] è un tipo di rete neurale ricorrente (RNN) volta a mitigare il problema della scomparsa del gradiente comunemente riscontrato con le RNN tradizionali. Rispetto ad altre RNN, modelli di Markov nascosti e agli altri metodi di apprendimento delle sequenze, il suo vantaggio nella sua relativa insensibilità alla lunghezza dell'intervallo. Essa mira a fornire una memoria a breve termine per RNN che può durare migliaia di intervalli temporali (da qui il nome).[1] Il nome è stato coniato in analogia con la memoria a lungo termine e la memoria a breve termine e la loro relazione, studiata dagli psicologi cognitivi dall'inizio del secolo scorso.
Un'unità LSTM è composta tipicamente da una cella e tre porte: una di input, una di output[2] e una di oblio[3]. La cella ricorda valori a intervalli di tempo arbitrari e le porte regolano il flusso di informazioni in entrata e in uscita dalla cella. Le porte di oblio decidono quali informazioni scartare dallo stato precedente, mappando lo stato precedente e l'input corrente su un valore compreso tra 0 e 1. Un valore (arrotondato) di 1 indica la conservazione delle informazioni, mentre un valore di 0 rappresenta l'eliminazione. Le porte di input decidono quali nuove informazioni memorizzare nello stato corrente della cella, utilizzando lo stesso sistema delle porte di oblio. Le porte di output controllano quali informazioni nello stato corrente della cella emettere, assegnando un valore da 0 a 1 alle informazioni, considerando lo stato precedente e quello corrente. L'emissione selettiva di informazioni rilevanti dallo stato corrente consente alla rete LSTM di mantenere dipendenze utili a lungo termine per effettuare predizioni, sia al passo corrente sia in quelli futuri.
LSTM ha un'ampia gamma di applicazioni nella classificazione,[4][5] nell'elaborazione dei dati, nell'analisi delle serie temporali, nel riconoscimento vocale,[6] nella traduzione automatica,[7] nel rilevamento del parlato, nel controllo dei robot[8], nei videogiochi,[9][10] e nell'assistenza sanitaria.[11]
Voci correlate
modificaNote
modifica- ^ a b Sepp Hochreiter, Long short-term memory, in Neural Computation, vol. 9, 1997, pp. 1735–1780, DOI:10.1162/neco.1997.9.8.1735, PMID 9377276.
- ^ Hochreiter, LSTM can solve hard long time lag problems, in Proceedings of the 9th International Conference on Neural Information Processing Systems, NIPS'96, MIT Press, 3 dicembre 1996, pp. 473–479.
- ^ Felix A. Gers, Learning to Forget: Continual Prediction with LSTM, in Neural Computation, vol. 12, 2000, pp. 2451–2471, DOI:10.1162/089976600300015015, PMID 11032042.
- ^ Alex Graves, Santiago Fernández, Faustino Gomez e Jürgen Schmidhuber, Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks, in In Proceedings of the International Conference on Machine Learning, ICML 2006, 2006, pp. 369–376, DOI:10.1145/1143844.1143891.
- ^ Fazle Karim, Somshubra Majumdar e Houshang Darabi, LSTM Fully Convolutional Networks for Time Series Classification, in IEEE Access, vol. 6, 2018, pp. 1662–1669, DOI:10.1109/ACCESS.2017.2779939.
- ^ Hasim Sak, Andrew Senior e Francoise Beaufays, Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling (PDF), su static.googleusercontent.com, 2014.
- ^ Ong, Thuy, Facebook's translations are now powered completely by AI, su www.allthingsdistributed.com, 4 agosto 2017. URL consultato il 15 febbraio 2019.
- ^ (EN) Learning dexterity, su openai.com, 5 gennaio 2021. URL consultato il 31 agosto 2025.
- ^ (EN) Jesus Rodriguez, The Science Behind OpenAI Five that just Produced One of the Greatest Breakthrough in the History…, in Medium, 2 luglio 2018. URL consultato il 31 agosto 2025.
- ^ (EN) Stacy S, DeepMind’s AI, AlphaStar Showcases Significant Progress Towards AGI, su Medium, 25 maggio 2020. URL consultato il 31 agosto 2025.
- ^ (EN) The 2010s: Our Decade of Deep Learning / Outlook on the 2020s, su people.idsia.ch. URL consultato il 31 agosto 2025 (archiviato dall'url originale il 15 agosto 2025).
Collegamenti esterni
modifica- Cos’è una Long Short-Term Memory (LSTM)?, su it.mathworks.com. URL consultato il 31-8-2025.
- (EN) Deep learning architectures - LSTM networks, su developer.ibm.com. URL consultato il 31-8-2025.
- Reti neurali ricorrenti con oltre 30 articoli sulle LSTM del gruppo di Jürgen Schmidhuber presso l'IDSIA
- (EN) Aston Zhang, Zachary Lipton, Mu Li e Alexander J. Smola, 10.1. Long Short-Term Memory (LSTM), in Dive into deep learning, Cambridge University Press, 2024, ISBN 978-1-009-38943-3.