Modello visione-linguaggio-azione
Nell'ambito dell'apprendimento automatico dei robot, un modello di visione-linguaggio-azione (VLA) è una classe di modelli multimodali di base che integra visione, linguaggio e azioni. Data in ingresso una immagine (o un video) dell'ambiente circostante al robot e un'istruzione di testo, un VLA genera direttamente azioni di basso livello che possono essere eseguite per portare a termine l'attività richiesta.[1]

I VLA sono generalmente costruiti adattando un modello di linguaggio e visione (VLM i.e. un modello linguistico di grandi dimensioni esteso con capacità visive) su un set di dati su larga scala che abbina le immagini e le istruzioni testuali con le traiettorie del robot.[2] Questi modelli combinano un codificatore linguistico e visuale (tipicamente un VLM o un trasformatore visivo), che converte una immagine e una descrizione in linguaggio naturale in una distribuzione all'interno di uno spazio latente, con un decodificatore di azione che, in uscita, trasforma questa rappresentazione in azioni continue, eseguibili direttamente sul robot.[3]
Il concetto è stato introdotto a luglio 2023 da Google DeepMind con RT-2, un VLM adattato per attività complete di manipolazione, in grado di unire percezione, ragionamento e controllo.[4]
Esempi recenti di VLA comprendono π0 di Physical Intelligence[5] e OpenVLA[6] .
Panoramica dell'architettura
modificaI VLA condividono un'architettura comune di alto livello strutturata in due fasi.
Nella prima fase, un VLM addestrato precedentemente agisce da centro di percezione e ragionamento. Esso codifica una o più immagini della telecamera e un'istruzione di testo in una sequenza di token linguistici in uno spazio latente condiviso. I VLM sono addestrati specificatamente su una grande mole di dati multimodali e possono svolgere un'ampia gamma di attività, tra cui la comprensione delle immagini, la risposta a domande visive e il ragionamento . Per controllare direttamente i robot, i VLM devono essere estesi per generare azioni robotiche.[7]
Nella seconda fase, un decodificatore di azioni mappa questi token in simboli discreti che vengono poi decodificati in comandi continui del robot. Queste azioni in uscita sono rappresentate allo stesso modo dei token linguistici, ma si riferiscono specificamente al numero di gradi di libertà (DoF) dell'end-effector del robot. Considerando un end-effector a 6 DoF, lo spazio delle azioni comprende solitamente gli spostamenti (posizionali e rotazionali) dell'end-effector e le posizioni della pinza. Ad esempio, in RT-2, ogni vettore di azione copre 6 DoF oltre allo stato della pinza e a un flag di terminazione, tutti quantizzati in 256 bins.[8]
In genere, i VLA si basano su VLM pronti all'uso, che forniscono al robot una conoscenza preliminare delle immagini e del testo. Durante il processo di addestramento, il modello viene poi messo a punto usando dati sotto forma di (istruzioni di testo, osservazione visiva, traiettoria) imparando così ad associare le immagini e le istruzioni testuali alle azioni del robot. Il set di dati di addestramento consiste in dimostrazioni di robot che possono essere raccolte da robot reali, tramite teleoperazione umana o anche generate sinteticamente in un ambiente di simulazione. Grazie all'apprendimento completo, i VLA imparano intrinsecamente ad associare concetti di alto livello (ad esempio categorie di oggetti e relazioni spaziali) con azioni di basso livello, eliminando la suddivisione tipica dei sistemi robotici tradizionali.[2][9]
Rappresentazione dell'azione
modificaUna scelta architetturale importante per un VLA è il formato in cui vengono codificate le azioni del robot.
Discrete Token Output è l'approccio più diffuso, utilizzato da VLA come RT-2 e OpenVLA, e rappresenta ogni unità di movimento come una sequenza di token discreti. In questo modo, il modello codifica le azioni del robot come una stringa di azioni e il VLA impara a generare queste sequenze proprio come un modello linguistico genera testo. Questo approccio basato su token mantiene lo stesso livello di uscita della rete originale, rendendo l'addestramento più semplice. Tuttavia, la conversione di traiettorie continue in vocaboli può limitare la precisione spaziale o la risoluzione temporale. RT-2 dimostra che questo problema può essere alleviato tramite l'utilizzo di token speciali che, ad esempio, segnano la fine di un segmento di azione.[2][6]
Continuous Output (Diffusion/Flow) è un approccio alternativo utilizzato da VLA come π0 che, per ottenere un buon livello di destrezza e un controllo ad alta frequenza, evitano l'uso di token discreti e producono direttamente azioni continue. Ciò è possibile grazie all'uso di modelli di diffusione o reti di adattamento del flusso che agiscono da decodificatore dell'azione. π0 ha adoperato questa strategia per produrre traiettorie congiunte continue fino a 50Hz. In pratica, il risultato continuo tende a scalare meglio su robot con molti gradi di libertà, dove la discretizzazione per ognuno di essi sarebbe complessa.[10]
Sistema singolo in confronto al sistema duale
modificaI VLA possono essere organizzati come una rete singola completa oppure come un sistema duale che impiega due modelli accoppiati.
Il design a modello singolo, impiegato da RT-2, OpenVLA e π0, comprende simultaneamente la rappresentazione dell'ambiente e l'istruzione in linguaggio naturale per produrre azioni del robot in un solo passaggio, mantenendo l'architettura semplice e riducendo la latenza.[2][6][10]
Il design a doppio sistema, adottato da Helix e GR00T N1, disaccoppia l'architettura in due componenti. Il primo componente di solito è più lento e gestisce le immagini e le istruzioni testuali ricevuti in entrata. Il secondo componente funziona a una velocità maggiore e genera le azioni del robot. I due componenti vengono addestrati per comunicare. Questa suddivisione assicura una migliore destrezza e una latenza più bassa al costo di una maggiore complessità computazionale.[11][12]
Storia
modifica2023
modificaRobotic Transformer 2 (RT-2)
modificaRobotic Transformer 2 (RT-2) è stato sviluppato da Google DeepMind a metà del 2023 e ha definito in robotica il paradigma del modello visione-linguaggio-azione. Questo modello si basa su due VLM di ultima generazione, rispettivamente PaLI-X[13] e PaLM-E[14], adattati su un set di dimostrazioni robotiche reali. RT-2 prende in ingresso le immagini della telecamera abbinate a una descrizione testuale e restituisce in uscita un'azione del robot codificata come token discreti. Rispetto al suo predecessore RT-1[15], che è stato addestrato solo su dati robotici, RT-2 evidenzia una maggiore capacità di generalizzazione per attività nuove, essendo anche in grado di eseguire ragionamenti in più fasi utilizzando la catena di ragionamento.[4]
OpenVLA
modificaOpenVLA è un VLA open source a con 7 miliardi di parametri introdotto nel giugno 2024 dai ricercatori di Stanford . È stato addestrato sul dataset Open X-Embodiment, una collaborazione tra 21 istituzioni che ha raccolto oltre un milione di episodi su 22 diverse tipologie di robot. Il modello unisce le proprietà dell'immagine utilizzando DINOv2 [16] e CLIP, con Llama-2 come struttura linguistica di base, e produce token di azioni discrete. Nonostante le dimensioni ridotte rispetto a RT-2 di Google DeepMind, OpenVLA prevale su RT-2 in una serie di attività di manipolazione. Il modello inoltre supporta metodi di ottimizzazione efficiente e quantizzazione per l'implementazione con risorse limitate.[6][17][18]
Octo (Open Generalist Policy)
modificaOcto è un sistema robotico generalista e leggero, open source e sviluppato dall'Università della California, Berkeley . Originariamente addestrato su Open X-Embodiment, è stato rilasciato in configurazioni più piccole (con 27M e 93M di parametri). Octo codifica rispettivamente le istruzioni di testo e le immagini con un modello linguistico e una rete neurale convoluzionale di piccole dimensioni. Inoltre, al posto di un decodificatore autoregressivo, Octo utilizza un modello di diffusione che produce traiettorie continue delle giunture, consentendo un movimento più fluido e un veloce adattamento ad altre tipologie di attività. Durante la messa a punto, la struttura a blocchi basata sul meccanismo dell'attenzione utilizzata da Octo consente di aggiungere nuove immagini senza modificare i parametri.[19]
TinyVLA
modificaTinyVLA è un VLA compatto progettato per un'inferenza rapida e un addestramento efficiente. TinyVLA gestisce i requisiti computazionali e la dipendenza notevole rispetto a grandi moli di dati dei suoi predecessori, inizializzando lo schema con una struttura di base multimodale più compatta, adattata successivamente su dati robotici. Questo lavoro ha dimostrato il potenziale di VLA più efficienti, concentrandosi sull'architettura e sulla gestione dei dati, evitando il costo computazionale di modelli più grandi. [20]
π0 (pi-zero)
modificaπ0 (pi-zero) è un VLA generalista su larga scala, annunciato alla fine del 2024 dalla startup Physical Intelligence[10] . π0 incorpora come struttura di base Paligemma[21], un VLM addestrato precedentemente, costruito da codificatori come SigLIP[22] e Gemma[23], con un decodificatore di azioni addestrato su traiettorie robotiche provenienti da Open X-Embodiment. Addestrato su traiettorie robotiche provenienti da 8 diverse tipologie di robot, è in grado di generalizzare tra queste tipologie, controllando diversi bracci robotici (a braccio singolo, a braccio doppio) e gestire un'ampia gamma di attività. π0 ha anche introdotto un modello di flow-matching per generare azioni continue ad alta frequenza, fino a 50Hz, mentre la testa dell'azione sfrutta una politica di diffusione. [24] [25] π0 -FAST, un'estensione di π0, sfrutta la codfica di una sequenza di azioni nello spazio di frequenza (FAST)[26], un nuovo approccio di compressione delle serie temporali che trasforma i token continui dal dominio del tempo al dominio della frequenza utilizzando la trasformata discreta del coseno .
2025
modificaHelix
modificaHelix, presentato nel febbraio 2025 da Figure AI, è un VLA generalista progettato nello specifico per robot umanoidi. Si tratta del primo VLA in grado di controllare ad alta frequenza l'intera parte superiore del corpo di un umanoide (ovvero braccia, mani, torso, testa, dita). Utilizza un'architettura a doppio sistema, con due sistemi complementari addestrati a comunicare. Il Sistema 2 (S2) è un VLM su larga scala, specializzato nella comprensione delle scene e del linguaggio, mentre il Sistema 1 (S1) è un sistema visivo-motorio che converte le rappresentazioni latenti prodotte da S2 in azioni robotiche continue. Questa architettura disaccoppiata consente di ottenere sia un alto livello di generalizzazione che una latenza elevata per il controllo di basso livello. Helix è stato addestrato su circa 500 ore di teleoperazione robotica abbinata a descrizioni di testo generate automaticamente. Il modello Helix ha evidenziato la capacità dei VLA di adattarsi a tipologie di robot complessi come gli umanoidi.[11]
GR00T N1
modificaGR00T N1, rilasciato da NVIDIA nel marzo 2025, è un VLA per robot umanoidi che adotta la stessa architettura a doppio sistema disaccoppiata utilizzata anche da Helix. È composto da un Sistema 2, un VLM che gestisce la percezione dell'ambiente, e da un Sistema 1, che genera le azioni motorie relative al robot. A differenza di altri VLA, include una mix eterogeneo di dati che comprende traiettorie di robot, teleoperazione umana e dati sintetici.[12]
Gemini Robotics
modificaGemini Robotics, introdotto nel 2025 da Google DeepMind, è un VLA che si basa sulle capacità di Gemini 2.0. Nonostante Gemini sia intrinsecamente in grado di elaborare dati multimodali quali testo, immagini, video e audio, Gemini Robotics estende queste capacità al mondo fisico, permettendo ai robot di compiere azioni. Le capacità di ragionamento della struttura di base del VLM Gemini 2.0, abbinate alle azioni robotiche di basso livello imparate, consentono al robot di svolgere compiti estremamente precisi, come piegare origami o giocare con le carte. Il modello presenta un alto livello di generalizzazione ed è in grado di adattarsi completamente a nuove piattaforme. Nel giugno 2025, gli autori hanno rilasciato Gemini Robotics On-Device, una versione più compatta del modello precedente, ottimizzata per operare in locale su un robot reale, con bassa latenza e alta affidabilità preservando allo stesso tempo la sua destrezza.[9][27]
SmolVLA
modificaSmolVLA è un VLA compatto open source con circa 450 milioni di parametri rilasciato da Hugging Face. Questo lavoro rappresenta un tentativo di democratizzare la ricerca sui VLA. Il modello è stato addestrato interamente su LeRobot, un dataset open source raccolto e gestito dalla comunità. Nonostante le sue dimensioni compatte, SmolVLA ha ottenuto risultati paragonabili a VLA molto più grandi come Octo, OpenVLA e π0. L'architettura di SmolVLA utilizza il flow-matching per un controllo continuo, oltre all'inferenza asincrona per disaccoppiare la struttura di base del VLM dall'esecuzione dell'azione sul robot reale. SmolVLA può essere addestrato e utilizzato su una singola GPU.[28][29][30]
Note
modifica- ^ vol. 14, DOI:10.3390/app14198868, https://oadoi.org/10.3390/app14198868.
- ^ a b c d DOI:10.48550/arXiv.2307.15818, arXiv:2307.15818, http://arxiv.org/abs/2307.15818.
- ^ L. Fan, Z. Chen e M. Xu, 2024 China Automation Congress (CAC), 2024, pp. 6656–6661, DOI:10.1109/CAC63892.2024.10865585, ISBN 979-8-3503-6860-4.
- ^ a b https://siliconangle.com/2023/07/28/google-unveils-rt-2-ai-language-model-telling-robots/.
- ^ (EN) physicalintelligence.company, https://physicalintelligence.company/blog/pi0 . URL consultato il 9 luglio 2025.
- ^ a b c d e DOI:10.48550/arXiv.2406.09246, arXiv:2406.09246, http://arxiv.org/abs/2406.09246.
- ^ vol. 46, DOI:10.1109/TPAMI.2024.3369699, ISSN 0162-8828 , https://ieeexplore.ieee.org/document/10445007/.
- ^ Anthony Brohan, RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, PLMR, 28 luglio 2023, pp. 2165-2183, DOI:10.48550/arXiv.2307.15818, arXiv:2307.15818.
- ^ a b DOI:10.48550/arXiv.2503.20020, arXiv:2503.20020, http://arxiv.org/abs/2503.20020.
- ^ a b c DOI:10.48550/arXiv.2410.24164, arXiv:2410.24164, http://arxiv.org/abs/2410.24164.
- ^ a b (EN) FigureAI, https://www.figure.ai/news/helix . URL consultato il 9 luglio 2025.
- ^ a b DOI:10.48550/arXiv.2503.14734, arXiv:2503.14734, http://arxiv.org/abs/2503.14734.
- ^ arXiv:2305.18565v1, https://openaccess.thecvf.com/content/CVPR2024/html/Chen_On_Scaling_Up_a_Multilingual_Vision_and_Language_Model_CVPR_2024_paper.html.
- ^ vol. 340, arXiv:2303.03378v1, https://dl.acm.org/doi/abs/10.5555/3618408.3618748.
- ^ DOI:10.48550/arXiv.2212.06817, arXiv:2212.06817, http://arxiv.org/abs/2212.06817.
- ^ DOI:10.48550/arXiv.2304.07193, arXiv:2304.07193, http://arxiv.org/abs/2304.07193.
- ^ DOI:10.48550/arXiv.2103.00020, arXiv:2103.00020, http://arxiv.org/abs/2103.00020.
- ^ DOI:10.1109/ICRA57147.2024.10611477, https://ieeexplore.ieee.org/document/10611477/.
- ^ DOI:10.48550/arXiv.2405.12213, arXiv:2405.12213, http://arxiv.org/abs/2405.12213.
- ^ vol. 10, DOI:10.1109/LRA.2025.3544909, ISSN 2377-3766 , https://ieeexplore.ieee.org/document/10900471/.
- ^ DOI:10.48550/arXiv.2407.07726, arXiv:2407.07726, http://arxiv.org/abs/2407.07726.
- ^ DOI:10.1109/ICCV51070.2023.01100, ISBN 979-8-3503-0718-4, https://ieeexplore.ieee.org/document/10377550/.
- ^ DOI:10.48550/arXiv.2403.08295, arXiv:2403.08295, http://arxiv.org/abs/2403.08295.
- ^ DOI:10.48550/arXiv.2407.07726, arXiv:2407.07726, http://arxiv.org/abs/2407.07726.
- ^ DOI:10.48550/ARXIV.2410.24164, https://arxiv.org/abs/2410.24164.
- ^ DOI:10.48550/arXiv.2501.09747, arXiv:2501.09747, http://arxiv.org/abs/2501.09747.
- ^ (EN) Google DeepMind, https://deepmind.google/models/gemini-robotics/ . URL consultato il 9 luglio 2025.
- ^ huggingface.co, https://huggingface.co/blog/smolvla . URL consultato il 9 luglio 2025.
- ^ huggingface.co, https://huggingface.co/lerobot . URL consultato il 9 luglio 2025.
- ^ DOI:10.48550/arXiv.2506.01844, arXiv:2506.01844, http://arxiv.org/abs/2506.01844.