Stable Diffusion: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
m modifica nota 5
 
(6 versioni intermedie di 5 utenti non mostrate)
Riga 14:
'''Stable Diffusion''' è un modello di [[Apprendimento profondo|apprendimento automatico profondo]] pubblicato nel 2022, utilizzato principalmente per generare immagini dettagliate a partire da descrizioni di testo, sebbene possa essere applicato anche ad altre attività come la [[Inpainting|pittura]], la pittura esterna e la generazione di traduzioni da immagine a immagine guidate da un prompt di testo.<ref name=":0">{{Cita web|url=https://huggingface.co/spaces/huggingface/diffuse-the-rest|titolo=|sito=huggingface.co|accesso=18 ottobre 2023}}</ref>
 
Stable Diffusion è un modello di diffusione latente, una variante di rete neurale generativa profonda sviluppata dal gruppo CompVis alla [[Università Ludwig Maximilian di Monaco|LMU di Monaco]]. Il modello è stato rilasciato da una collaborazione tra Stability AI, CompVis LMU e Runway con il supporto di EleutherAI e LAION.<ref>{{Cita web|url=https://www.lmu.de/en/newsroom/news-overview/news/revolutionizing-image-generation-by-ai-turning-text-into-images.html|titolo=|sito=LMU Munich|accesso=18 ottobre 2023}}</ref> Nell'ottobre 2022, Stability AI ha raccolto 101 milioni di dollari in un ''round'' di investimenti guidato da Lightspeed Venture Partners e Coatue Management.<ref>{{Cita web|url=https://techcrunch.com/2022/10/17/stability-ai-the-startup-behind-stable-diffusion-raises-101m/|titolo=Stability AI, the startup behind Stable Diffusion, raises $101M|sito=Techcrunch|lingua=en|accesso=1718 ottobre 2023}}</ref>
 
Il codice di Stable Diffusion e i pesi del modello sono stati rilasciati pubblicamente.<ref>{{Cita testo|titolo=|data=18 ottobre 2023|url=https://github.com/CompVis/stable-diffusion}}</ref>
 
Stable Diffusion può funzionare sulla maggior parte dell'hardware dotato di una [[GPU]] modestadiscreta con almeno 10 GB di [[VRAM]]. Ciò ha segnato un allontanamento dai precedenti modelli proprietari di creazione immagini da testo come [[DALL-E]] e [[Midjourney]], accessibili solo tramite [[Cloud computing|servizi cloud]].<ref name="pcworld">{{Cita web|url=https://www.pcworld.com/article/916785/creating-ai-art-local-pc-stable-diffusion.html|titolo=The new killer app: Creating AI art will absolutely crush your PC|sito=PCWorld|accesso=18 ottobre 2023}}</ref>
 
Nel novembre 2023 Stable AI lancia Stable 3D per la creazione di modelli 3D di oggetti complessi.<ref>{{cita web|url=https://www.tomshw.it/hardware/creare-modelli-3d-diventa-un-gioco-da-ragazzi-con-questa-nuova-ia|titolo=Creare modelli 3D diventa un gioco da ragazzi con questa nuova IA|data=3 novembre 2023}}</ref>
 
== Tecnologia ==
Line 24 ⟶ 26:
 
=== Architettura ===
Stable Diffusion utilizza una variante del modello di diffusione (DM), chiamato modello di diffusione latente (LDM)<ref name="stable-diffusion-github">{{Cita web|url=https://github.com/CompVis/stable-diffusion|titolo=GitHUB - Stable Diffusion|lingua=en|accesso=1718 settembreottobre 20222023}}</ref>. Introdotti nel 2015, i modelli di diffusione vengono addestrati con l'obiettivo di rimuovere le successive applicazioni del [[rumore gaussiano]] sulle immagini di addestramento che possono essere pensate come una sequenza di [[Autocodificatore|autocodificatori]] per la [[riduzione del rumore]]. Stable Diffusion è costituito da 3 parti: l'autoencoder variazionale (VAE), U-Net e un codificatore di testo opzionale.<ref name=":02">{{Cita web|url=https://jalammar.github.io/illustrated-stable-diffusion/|titolo= |sito=jalammar.github.io|accesso=31 ottobre 2022}}</ref> Il codificatore VAE comprime l'immagine dallo spazio dei pixel a uno spazio latente di dimensioni inferiori, acquisendo un significato semantico più fondamentale dell'immagine.<ref>{{Cita web|url=https://ommer-lab.com/research/latent-diffusion-models/|titolo= |sito=Machine Vision & Learning Group|lingua=en|accesso=4 novembre 2022}}</ref> Il rumore gaussiano viene applicato iterativamente alla rappresentazione latente compressa durante la diffusione diretta<ref name=":02" />. Il blocco U-Net, composto da una dorsale ResNet, [[Riduzione del rumore|pulisce]] il segnale in uscita dalla diffusione diretta all'indietro per ottenere una rappresentazione latente. Infine, il decoder VAE genera l'immagine finale riconvertendo la rappresentazione nello spazio dei pixel<ref name=":02" />. La fase di riduzione del rumore può essere condizionata, in modo flessibile, da una stringa di testo, un'immagine e alcune altre modalità. I dati di condizionamento codificati sono esposti a U-Net di riduzione rumore tramite un meccanismo di attenzione incrociata.<ref name=":02" /> Per il condizionamento del testo, il codificatore di testo CLIP ViT-L/14 fisso e preaddestrato viene utilizzato per trasformare i prompt di testo in uno spazio di incorporamento<ref name="stable-diffusion-github" />. I ricercatori indicano che il vantaggio degli LDM sono una maggiore efficienza computazionale per la formazione e la generazione<ref>{{Cita web|url=https://stability.ai/blog/stable-diffusion-announcement|titolo= |sito=Stability.Ai|lingua=en|accesso=2 novembre 2022}}</ref><ref>Rombach; Blattmann; Lorenz; Esser; Ommer (June 2022). ''High-Resolution Image Synthesis with Latent Diffusion Models'' (PDF). International Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA. pp. 10684–10695. [[ArXiv (identifier)|arXiv]]:2112.10752.</ref>.
 
=== Dati di addestramento ===
Line 35 ⟶ 37:
 
=== Limitazioni ===
Stable Diffusion presenta problemi di degrado e imprecisioni in determinati scenari. Poiché il modello è stato addestrato su un set di dati costituito da immagini con risoluzione 512 × 512, la qualità delle immagini generate peggiora notevolmente quando le specifiche dell'utente si discostano dalle immagini con risoluzione "prevista" 512 × 512<ref name="diffusers">{{Cita web|url=https://huggingface.co/blog/stable_diffusion|titolo= |sito=huggingface.co|accesso=31 ottobre 2022}}</ref>. Un'altra sfida è la generazione di arti umani a causa della scarsa qualità dei dati degli arti nel database LAION<ref>{{Cita web|url=https://laion.ai/|titolo= |sito=laion.ai|lingua=en|accesso=31 ottobre 2022}}</ref>. Il modello non è sufficientemente addestrato per comprendere gli arti e i volti umani a causa della mancanza di caratteristiche rappresentative nel database e richiedere al modello di generare immagini di questo tipo può confondere il modello<ref>{{Cita web|url=https://blog.paperspace.com/generating-images-with-stable-diffusion/|titolo= |sito=Paperspace Blog|lingua=en|accesso=31 ottobre 2022}}</ref>. Oltre agli arti umani, è stato osservato che anche la generazione di arti di animali è impegnativa, con il tasso di fallimento osservato del 25% quando si cerca di generare l'immagine di un cavallo<ref>{{Cita web|url=https://twitter.com/fchollet/status/1573879858203340800|titolo= |autore=François Chollet|sito=Twitter|lingua=en|accesso=31 ottobre 2022}}</ref>.
 
Anche l'accessibilità per i singoli sviluppatori può essere un problema. Per personalizzare il modello per nuovi casi d'uso che non sono inclusi nel set di dati, come la generazione di personaggi [[anime]] ("diffusione waifu")<ref>{{Cita web|url=https://huggingface.co/hakurei/waifu-diffusion|titolo= |sito=huggingface.co|accesso=31 ottobre 2022}}</ref>, sono necessari nuovi dati e ulteriore formazione. Tuttavia, questo processo di ottimizzazione è sensibile alla qualità dei nuovi dati; immagini a bassa risoluzione o risoluzioni diverse dai dati originali possono non solo non riuscire ad apprendere il nuovo compito ma degradare le prestazioni complessive del modello. Anche quando il modello è ulteriormente addestrato su immagini di alta qualità, è difficile per le persone eseguire modelli nell'elettronica di consumo. Ad esempio, il processo di formazione per waifu-diffusion richiede un minimo di 30 GB di VRAM<ref>{{Cita testo|url=https://github.com/harubaru/waifu-diffusion/blob/6bf942eb6368ebf6bcbbb24b6ba8197bda6582a0/docs/en/training/README.md}}</ref>, che supera la normale risorsa fornita nelle GPU consumer, come la [[GeForce 30 series|serie GeForce 30]] di [[NVIDIA|Nvidia]] con circa 12 GB<ref>{{Cita web|url=https://www.anandtech.com/show/17204/nvidia-quietly-launches-geforce-rtx-3080-12gb-more-vram-more-power-more-money|titolo= |accesso=31 ottobre 2022}}</ref>.
Line 77 ⟶ 79:
 
== Licenza ==
A differenza di modelli come [[DALL-E]], Stable Diffusion rende [[Software con sorgente disponibile|disponibile il suo codice sorgente]],<ref name="stability">{{Cita web|url=https://stability.ai/blog/stable-diffusion-public-release|titolo= |sito=Stability.Ai|accesso=31 agosto 2022}}</ref> insieme a pesi pre-addestrati. La sua licenza proibisce alcuni casi d'uso, tra cui reati, [[diffamazione]], [[Molestia|molestie]], [[doxing]], "sfruttamento di minori", consulenza medica, creazione automatica di obblighi legali, produzione di prove legali e "discriminazione o danneggiamento di individui o gruppi sulla base di .. .comportamento sociale o...caratteristiche personali o della personalità...[o] caratteristiche o categorie legalmente protette ”<ref name="washingtonpost">{{Cita news|url=https://www.washingtonpost.com/technology/2022/08/30/deep-fake-video-on-agt/|giornale=The Washington Post}}</ref><ref>{{Cita web|url=https://huggingface.co/spaces/CompVis/stable-diffusion-license|titolo= |sito=huggingface.co|accesso=5 settembre 2022}}</ref>. {{chiarire| L'utente possiede i diritti sulle immagini di output generate ed è libero di utilizzarle commercialmente|Sito incomprensibile e non verificabile}}.<ref>{{Cita web|url=https://forest.watch.impress.co.jp/docs/review/1434893.html|titolo= |autore=Katsuo Ishida|sito=Impress Corporation|lingua=ja}}</ref>
 
==Note==
Line 87 ⟶ 89:
== Collegamenti esterni ==
* {{Collegamenti esterni}}
{{Intelligenza artificiale}}
[[Categoria:Reti neurali artificiali]]
[[Categoria:Elaborazione del linguaggio naturale]]
[[Categoria:Linguistica computazionale]]
[[Categoria:Intelligenza artificiale]]
[[Categoria:Arte digitale]]
 
[[Categoria:Pagine con traduzioni non revisionate]]