Stable Diffusion: differenze tra le versioni

Naviga nella cronologia in modo interattivo

← Differenza precedente

Contenuto cancellato Contenuto aggiunto

VisualeWikitesto

Versione delle 11:36, 18 ott 2023 modifica Napocapo (discussione \| contributi) 18 modifiche m modifica nota 5 Etichetta: Modifica visuale ← Differenza precedente		Versione attuale delle 17:30, 30 mag 2024 modifica annulla 37.159.112.187 (discussione) →Limitazioni
(6 versioni intermedie di 5 utenti non mostrate)
Riga 14: '''Stable Diffusion''' è un modello di [[Apprendimento profondo\|apprendimento automatico profondo]] pubblicato nel 2022, utilizzato principalmente per generare immagini dettagliate a partire da descrizioni di testo, sebbene possa essere applicato anche ad altre attività come la [[Inpainting\|pittura]], la pittura esterna e la generazione di traduzioni da immagine a immagine guidate da un prompt di testo.<ref name=":0">{{Cita web\|url=https://huggingface.co/spaces/huggingface/diffuse-the-rest\|titolo=\|sito=huggingface.co\|accesso=18 ottobre 2023}}</ref> Stable Diffusion è un modello di diffusione latente, una variante di rete neurale generativa profonda sviluppata dal gruppo CompVis alla [[Università Ludwig Maximilian di Monaco\|LMU di Monaco]]. Il modello è stato rilasciato da una collaborazione tra Stability AI, CompVis LMU e Runway con il supporto di EleutherAI e LAION.<ref>{{Cita web\|url=https://www.lmu.de/en/newsroom/news-overview/news/revolutionizing-image-generation-by-ai-turning-text-into-images.html\|titolo=\|sito=LMU Munich\|accesso=18 ottobre 2023}}</ref> Nell'ottobre 2022, Stability AI ha raccolto 101 milioni di dollari in un ''round'' di investimenti guidato da Lightspeed Venture Partners e Coatue Management.<ref>{{Cita web\|url=https://techcrunch.com/2022/10/17/stability-ai-the-startup-behind-stable-diffusion-raises-101m/\|titolo=Stability AI, the startup behind Stable Diffusion, raises $101M\|sito=Techcrunch\|lingua=en\|accesso=1718 ottobre 2023}}</ref> Il codice di Stable Diffusion e i pesi del modello sono stati rilasciati pubblicamente.<ref>{{Cita testo\|titolo=\|data=18 ottobre 2023\|url=https://github.com/CompVis/stable-diffusion}}</ref> Stable Diffusion può funzionare sulla maggior parte dell'hardware dotato di una [[GPU]] ~~modesta~~discreta con almeno 10 GB di [[VRAM]]. Ciò ha segnato un allontanamento dai precedenti modelli proprietari di creazione immagini da testo come [[DALL-E]] e [[Midjourney]], accessibili solo tramite [[Cloud computing\|servizi cloud]].<ref name="pcworld">{{Cita web\|url=https://www.pcworld.com/article/916785/creating-ai-art-local-pc-stable-diffusion.html\|titolo=The new killer app: Creating AI art will absolutely crush your PC\|sito=PCWorld\|accesso=18 ottobre 2023}}</ref> Nel novembre 2023 Stable AI lancia Stable 3D per la creazione di modelli 3D di oggetti complessi.<ref>{{cita web\|url=https://www.tomshw.it/hardware/creare-modelli-3d-diventa-un-gioco-da-ragazzi-con-questa-nuova-ia\|titolo=Creare modelli 3D diventa un gioco da ragazzi con questa nuova IA\|data=3 novembre 2023}}</ref> == Tecnologia == Line 24 ⟶ 26: === Architettura === Stable Diffusion utilizza una variante del modello di diffusione (DM), chiamato modello di diffusione latente (LDM)<ref name="stable-diffusion-github">{{Cita web\|url=https://github.com/CompVis/stable-diffusion\|titolo=GitHUB - Stable Diffusion\|lingua=en\|accesso=1718 ~~settembre~~ottobre ~~2022~~2023}}</ref>. Introdotti nel 2015, i modelli di diffusione vengono addestrati con l'obiettivo di rimuovere le successive applicazioni del [[rumore gaussiano]] sulle immagini di addestramento che possono essere pensate come una sequenza di [[Autocodificatore\|autocodificatori]] per la [[riduzione del rumore]]. Stable Diffusion è costituito da 3 parti: l'autoencoder variazionale (VAE), U-Net e un codificatore di testo opzionale.<ref name=":02">{{Cita web\|url=https://jalammar.github.io/illustrated-stable-diffusion/\|titolo= \|sito=jalammar.github.io\|accesso=31 ottobre 2022}}</ref> Il codificatore VAE comprime l'immagine dallo spazio dei pixel a uno spazio latente di dimensioni inferiori, acquisendo un significato semantico più fondamentale dell'immagine.<ref>{{Cita web\|url=https://ommer-lab.com/research/latent-diffusion-models/\|titolo= \|sito=Machine Vision & Learning Group\|lingua=en\|accesso=4 novembre 2022}}</ref> Il rumore gaussiano viene applicato iterativamente alla rappresentazione latente compressa durante la diffusione diretta<ref name=":02" />. Il blocco U-Net, composto da una dorsale ResNet, [[Riduzione del rumore\|pulisce]] il segnale in uscita dalla diffusione diretta all'indietro per ottenere una rappresentazione latente. Infine, il decoder VAE genera l'immagine finale riconvertendo la rappresentazione nello spazio dei pixel<ref name=":02" />. La fase di riduzione del rumore può essere condizionata, in modo flessibile, da una stringa di testo, un'immagine e alcune altre modalità. I dati di condizionamento codificati sono esposti a U-Net di riduzione rumore tramite un meccanismo di attenzione incrociata.<ref name=":02" /> Per il condizionamento del testo, il codificatore di testo CLIP ViT-L/14 fisso e preaddestrato viene utilizzato per trasformare i prompt di testo in uno spazio di incorporamento<ref name="stable-diffusion-github" />. I ricercatori indicano che il vantaggio degli LDM sono una maggiore efficienza computazionale per la formazione e la generazione<ref>{{Cita web\|url=https://stability.ai/blog/stable-diffusion-announcement\|titolo= \|sito=Stability.Ai\|lingua=en\|accesso=2 novembre 2022}}</ref><ref>Rombach; Blattmann; Lorenz; Esser; Ommer (June 2022). ''High-Resolution Image Synthesis with Latent Diffusion Models'' (PDF). International Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA. pp. 10684–10695. [[ArXiv (identifier)\|arXiv]]:2112.10752.</ref>. === Dati di addestramento === Line 35 ⟶ 37: === Limitazioni === Stable Diffusion presenta problemi di degrado e imprecisioni in determinati scenari. Poiché il modello è stato addestrato su un set di dati costituito da immagini con risoluzione 512 × 512, la qualità delle immagini generate peggiora notevolmente quando le specifiche dell'utente si discostano dalle immagini con risoluzione "prevista" 512 × 512<ref name="diffusers">{{Cita web\|url=https://huggingface.co/blog/stable_diffusion\|titolo= \|sito=huggingface.co\|accesso=31 ottobre 2022}}</ref>. Un'altra sfida è la generazione di arti umani a causa della scarsa qualità dei dati degli arti nel database LAION<ref>{{Cita web\|url=https://laion.ai/\|titolo= \|sito=laion.ai\|lingua=en\|accesso=31 ottobre 2022}}</ref>. Il modello non è sufficientemente addestrato per comprendere gli arti e i volti umani a causa della mancanza di caratteristiche rappresentative nel database e richiedere al modello di generare immagini di questo tipo può confondere il modello<ref>{{Cita web\|url=https://blog.paperspace.com/generating-images-with-stable-diffusion/\|titolo= \|sito=Paperspace Blog\|lingua=en\|accesso=31 ottobre 2022}}</ref>. Oltre agli arti umani, è stato osservato che anche la generazione di arti di animali è impegnativa, con il tasso di fallimento osservato del 25% quando si cerca di generare l'immagine di un cavallo<ref>{{Cita web\|url=https://twitter.com/fchollet/status/1573879858203340800\|titolo= \|autore=François Chollet\|sito=Twitter\|lingua=en\|accesso=31 ottobre 2022}}</ref>. Anche l'accessibilità per i singoli sviluppatori può essere un problema. Per personalizzare il modello per nuovi casi d'uso che non sono inclusi nel set di dati, come la generazione di personaggi [[anime]] ("diffusione waifu")<ref>{{Cita web\|url=https://huggingface.co/hakurei/waifu-diffusion\|titolo= \|sito=huggingface.co\|accesso=31 ottobre 2022}}</ref>, sono necessari nuovi dati e ulteriore formazione. Tuttavia, questo processo di ottimizzazione è sensibile alla qualità dei nuovi dati; immagini a bassa risoluzione o risoluzioni diverse dai dati originali possono non solo non riuscire ad apprendere il nuovo compito ma degradare le prestazioni complessive del modello. Anche quando il modello è ulteriormente addestrato su immagini di alta qualità, è difficile per le persone eseguire modelli nell'elettronica di consumo. Ad esempio, il processo di formazione per waifu-diffusion richiede un minimo di 30 GB di VRAM<ref>{{Cita testo\|url=https://github.com/harubaru/waifu-diffusion/blob/6bf942eb6368ebf6bcbbb24b6ba8197bda6582a0/docs/en/training/README.md}}</ref>, che supera la normale risorsa fornita nelle GPU consumer, come la [[GeForce 30 series\|serie GeForce 30]] di [[NVIDIA\|Nvidia]] con circa 12 GB<ref>{{Cita web\|url=https://www.anandtech.com/show/17204/nvidia-quietly-launches-geforce-rtx-3080-12gb-more-vram-more-power-more-money\|titolo= \|accesso=31 ottobre 2022}}</ref>. Line 77 ⟶ 79: == Licenza == A differenza di modelli come [[DALL-E]], Stable Diffusion rende [[Software con sorgente disponibile\|disponibile il suo codice sorgente]],<ref name="stability">{{Cita web\|url=https://stability.ai/blog/stable-diffusion-public-release\|titolo= \|sito=Stability.Ai\|accesso=31 agosto 2022}}</ref> insieme a pesi pre-addestrati. La sua licenza proibisce alcuni casi d'uso, tra cui reati, [[diffamazione]], [[Molestia\|molestie]], [[doxing]], "sfruttamento di minori", consulenza medica, creazione automatica di obblighi legali, produzione di prove legali e "discriminazione o danneggiamento di individui o gruppi sulla base di .. .comportamento sociale o...caratteristiche personali o della personalità...[o] caratteristiche o categorie legalmente protette ”<ref name="washingtonpost">{{Cita news\|url=https://www.washingtonpost.com/technology/2022/08/30/deep-fake-video-on-agt/\|giornale=The Washington Post}}</ref><ref>{{Cita web\|url=https://huggingface.co/spaces/CompVis/stable-diffusion-license\|titolo= \|sito=huggingface.co\|accesso=5 settembre 2022}}</ref>. {{chiarire\| L'utente possiede i diritti sulle immagini di output generate ed è libero di utilizzarle commercialmente\|Sito incomprensibile e non verificabile}}.<ref>{{Cita web\|url=https://forest.watch.impress.co.jp/docs/review/1434893.html\|titolo= \|autore=Katsuo Ishida\|sito=Impress Corporation\|lingua=ja}}</ref> ==Note== Line 87 ⟶ 89: == Collegamenti esterni == * {{Collegamenti esterni}} {{Intelligenza artificiale}} [[Categoria:Reti neurali artificiali]] [[Categoria:Elaborazione del linguaggio naturale]] [[Categoria:Linguistica computazionale]] [[Categoria:Intelligenza artificiale]] [[Categoria:Arte digitale]] [[Categoria:Pagine con traduzioni non revisionate]]