Stable Diffusion: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
fix maiuscole
 
(17 versioni intermedie di 11 utenti non mostrate)
Riga 1:
{{O|software|dicembre 2022}}
{{Software
|Nome = Stable Diffusion
|Screenshot = AAstronaut photograph of an astronaut ridingRiding a horseHorse 2022-08-28(SDXL).pngjpg
|Sviluppatore = CompVis group LMU Munich; Runway; Stability AI
|UltimaVersione = Modello SDXL 1.50
|DataPrimaVersione = 22 agosto 2022
|DataUltimaVersione = 3126 agostoluglio 20222023
|UltimaVersione = Modello 1.5
|DataUltimaVersione = 31 agosto 2022
|SistemaOperativo = Windows, MacOS, GNU/Linux, Solaris
|Genere = Elaborazione digitale delle immagini
Line 14 ⟶ 12:
}}
 
'''Stable Diffusion''' è un modello di [[Apprendimento profondo|apprendimento automatico profondo]] pubblicato nel 2022, utilizzato principalmente per generare immagini dettagliate a partire da descrizioni di testo, sebbene possa essere applicato anche ad altre attività come la [[Inpainting|pittura]], la pittura esterna e la generazione di traduzioni da immagine a immagine guidate da un prompt di testo.<ref name=":0">{{Cita web|url=https://huggingface.co/spaces/huggingface/diffuse-the-rest|titolo= |sito=huggingface.co|accesso=518 settembreottobre 20222023}}</ref>
 
Stable Diffusion è un modello di diffusione latente, una variante di rete neurale generativa profonda sviluppata dal gruppo CompVis alla [[Università Ludwig Maximilian di Monaco|LMU di Monaco]]. Il modello è stato rilasciato da una collaborazione tra Stability AI, CompVis LMU e Runway con il supporto di EleutherAI e LAION.<ref>{{Cita web|url=https://www.lmu.de/en/newsroom/news-overview/news/revolutionizing-image-generation-by-ai-turning-text-into-images.html|titolo= |sito=LMU Munich|accesso=1718 settembreottobre 20222023}}</ref> Nell'ottobre 2022, Stability AI ha raccolto 101 milioni di dollari in un ''round'' di investimenti guidato da Lightspeed Venture Partners e Coatue Management.<ref>{{Cita web|url=https://techcrunch.com/2022/10/17/stability-ai-the-startup-behind-stable-diffusion-raises-101m/|titolo=Stability AI, the startup behind Stable Diffusion, raises $101M|sito=Techcrunch|lingua=en|accesso=1718 ottobre 20222023}}</ref>
 
Il codice di Stable Diffusion e i pesi del modello sono stati rilasciati pubblicamente.<ref>{{Cita testo|titolo=|data=18 ottobre 2023|url=https://github.com/CompVis/stable-diffusion}}</ref>
 
Stable Diffusion può funzionare sulla maggior parte dell'hardware dotato di una [[GPU]] modestadiscreta con almeno 10 GB di [[VRAM]]. Ciò ha segnato un allontanamento dai precedenti modelli proprietari di creazione immagini da testo come [[DALL-E]] e [[Midjourney]], accessibili solo tramite [[Cloud computing|servizi cloud]].<ref name="pcworld">{{Cita web|url=https://www.pcworld.com/article/916785/creating-ai-art-local-pc-stable-diffusion.html|titolo=The new killer app: Creating AI art will absolutely crush your PC|sito=PCWorld|accesso=3118 agostoottobre 20222023}}</ref>
 
Nel novembre 2023 Stable AI lancia Stable 3D per la creazione di modelli 3D di oggetti complessi.<ref>{{cita web|url=https://www.tomshw.it/hardware/creare-modelli-3d-diventa-un-gioco-da-ragazzi-con-questa-nuova-ia|titolo=Creare modelli 3D diventa un gioco da ragazzi con questa nuova IA|data=3 novembre 2023}}</ref>
 
== Tecnologia ==
Riga 26:
 
=== Architettura ===
Stable Diffusion utilizza una variante del modello di diffusione (DM), chiamato modello di diffusione latente (LDM)<ref name="stable-diffusion-github">{{Cita web|url=https://github.com/CompVis/stable-diffusion|titolo=GitHUB - Stable Diffusion|lingua=en|accesso=1718 settembreottobre 20222023}}</ref>. Introdotti nel 2015, i modelli di diffusione vengono addestrati con l'obiettivo di rimuovere le successive applicazioni del [[rumore gaussiano]] sulle immagini di addestramento che possono essere pensate come una sequenza di [[Autocodificatore|autocodificatori]] per la [[riduzione del rumore]]. Stable Diffusion è costituito da 3 parti: l'autoencoder variazionale (VAE), U-Net e un codificatore di testo opzionale.<ref name=":02">{{Cita web|url=https://jalammar.github.io/illustrated-stable-diffusion/|titolo= |sito=jalammar.github.io|accesso=31 ottobre 2022}}</ref> Il codificatore VAE comprime l'immagine dallo spazio dei pixel a uno spazio latente di dimensioni inferiori, acquisendo un significato semantico più fondamentale dell'immagine.<ref>{{Cita web|url=https://ommer-lab.com/research/latent-diffusion-models/|titolo= |sito=Machine Vision & Learning Group|lingua=en|accesso=4 novembre 2022}}</ref> Il rumore gaussiano viene applicato iterativamente alla rappresentazione latente compressa durante la diffusione diretta<ref name=":02" />. Il blocco U-Net, composto da una dorsale ResNet, [[Riduzione del rumore|pulisce]] il segnale in uscita dalla diffusione diretta all'indietro per ottenere una rappresentazione latente. Infine, il decoder VAE genera l'immagine finale riconvertendo la rappresentazione nello spazio dei pixel<ref name=":02" />. La fase di riduzione del rumore può essere condizionata, in modo flessibile, da una stringa di testo, un'immagine e alcune altre modalità. I dati di condizionamento codificati sono esposti a U-Net di riduzione rumore tramite un meccanismo di attenzione incrociata.<ref name=":02" /> Per il condizionamento del testo, il codificatore di testo CLIP ViT-L/14 fisso e preaddestrato viene utilizzato per trasformare i prompt di testo in uno spazio di incorporamento<ref name="stable-diffusion-github" />. I ricercatori indicano che il vantaggio degli LDM sono una maggiore efficienza computazionale per la formazione e la generazione<ref>{{Cita web|url=https://stability.ai/blog/stable-diffusion-announcement|titolo= |sito=Stability.Ai|lingua=en|accesso=2 novembre 2022}}</ref><ref>Rombach; Blattmann; Lorenz; Esser; Ommer (June 2022). ''High-Resolution Image Synthesis with Latent Diffusion Models'' (PDF). International Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA. pp. 10684–10695. [[ArXiv (identifier)|arXiv]]:2112.10752.</ref>.
 
=== Dati di addestramento ===
Riga 37:
 
=== Limitazioni ===
Stable Diffusion presenta problemi di degrado e imprecisioni in determinati scenari. Poiché il modello è stato addestrato su un set di dati costituito da immagini con risoluzione 512 × 512, la qualità delle immagini generate peggiora notevolmente quando le specifiche dell'utente si discostano dalle immagini con risoluzione "prevista" 512 × 512<ref name="diffusers">{{Cita web|url=https://huggingface.co/blog/stable_diffusion|titolo= |sito=huggingface.co|accesso=31 ottobre 2022}}</ref>. Un'altra sfida è la generazione di arti umani a causa della scarsa qualità dei dati degli arti nel database LAION<ref>{{Cita web|url=https://laion.ai/|titolo= |sito=laion.ai|lingua=en|accesso=31 ottobre 2022}}</ref>. Il modello non è sufficientemente addestrato per comprendere gli arti e i volti umani a causa della mancanza di caratteristiche rappresentative nel database e richiedere al modello di generare immagini di questo tipo può confondere il modello<ref>{{Cita web|url=https://blog.paperspace.com/generating-images-with-stable-diffusion/|titolo= |sito=Paperspace Blog|lingua=en|accesso=31 ottobre 2022}}</ref>. Oltre agli arti umani, è stato osservato che anche la generazione di arti di animali è impegnativa, con il tasso di fallimento osservato del 25% quando si cerca di generare l'immagine di un cavallo<ref>{{Cita web|url=https://twitter.com/fchollet/status/1573879858203340800|titolo= |autore=François Chollet|sito=Twitter|lingua=en|accesso=31 ottobre 2022}}</ref>.
 
Anche l'accessibilità per i singoli sviluppatori può essere un problema. Per personalizzare il modello per nuovi casi d'uso che non sono inclusi nel set di dati, come la generazione di personaggi [[anime]] ("diffusione waifu")<ref>{{Cita web|url=https://huggingface.co/hakurei/waifu-diffusion|titolo= |sito=huggingface.co|accesso=31 ottobre 2022}}</ref>, sono necessari nuovi dati e ulteriore formazione. Tuttavia, questo processo di ottimizzazione è sensibile alla qualità dei nuovi dati; immagini a bassa risoluzione o risoluzioni diverse dai dati originali possono non solo non riuscire ad apprendere il nuovo compito ma degradare le prestazioni complessive del modello. Anche quando il modello è ulteriormente addestrato su immagini di alta qualità, è difficile per le persone eseguire modelli nell'elettronica di consumo. Ad esempio, il processo di formazione per waifu-diffusion richiede un minimo di 30 GB di VRAM<ref>{{Cita testo|url=https://github.com/harubaru/waifu-diffusion/blob/6bf942eb6368ebf6bcbbb24b6ba8197bda6582a0/docs/en/training/README.md}}</ref>, che supera la normale risorsa fornita nelle GPU consumer, come la [[GeForce 30 series|serie GeForce 30]] di [[NVIDIA|Nvidia]] con circa 12 GB<ref>{{Cita web|url=https://www.anandtech.com/show/17204/nvidia-quietly-launches-geforce-rtx-3080-12gb-more-vram-more-power-more-money|titolo= |accesso=31 ottobre 2022}}</ref>.
Riga 76:
Poiché gli stili visivi e le [[Composizione (arte)|composizioni]] non sono soggetti a copyright, si interpreta spesso che gli utenti di Stable Diffusion che generano immagini di opere d'arte non dovrebbero essere considerati in violazione del copyright di opere visivamente simili<ref name="automaton" />. Tuttavia, gli individui raffigurati nelle immagini generate possono essere protetti dai [[diritti della persona]]lità se viene utilizzata la loro somiglianza<ref name="automaton">{{Cita web|url=https://automaton-media.com/articles/newsjp/20220824-216074/|titolo= |sito=Automaton Media|lingua=ja}}</ref>, e la [[proprietà intellettuale]] come i loghi dei marchi riconoscibili rimangono ancora protetti dal diritto d'autore. Tuttavia, gli artisti visivi hanno espresso preoccupazione per il fatto che l'uso diffuso di software di sintesi delle immagini come Stable Diffusion possa portare gli artisti umani, insieme a fotografi, modelli, cineasti e attori, a perdere gradualmente la redditività commerciale rispetto ai concorrenti basati sull'intelligenza artificiale.
 
Stable Diffusion è in particolare più permissiva nei tipi di contenuti che gli utenti possono generare, come immagini violente o sessualmente esplicite, rispetto ad altri prodotti commerciali basati sull'IA generativa<ref name="bijapan">{{Cita web|url=https://www.businessinsider.jp/post-258369|titolo= |autore=Ryo Shimizu|sito=Business Insider Japan|lingua=ja}}</ref>. Affrontando le preoccupazioni che il modello possa essere utilizzato per scopi abusivi, il CEO di Stability AI, [[Emad Mostaque]], spiega che "[è] la responsabilità delle persone se sono etiche, morali e legali nel modo in cui utilizzano questa tecnologia", e che mettere le capacità di Stable Diffusion nelle mani del pubblico porterebbe la tecnologia a fornire un beneficio netto, nonostante le potenziali conseguenze negative. Inoltre, Mostaque sostiene che l'intenzione alla base della disponibilità aperta di Stable Diffusion è quella di porre fine al controllo aziendale e al dominio su tali tecnologie, che in precedenza hanno sviluppato solo sistemi di IA chiusi per la sintesi di immagini. Ciò si riflette nel fatto che qualsiasi restrizione che Stability AI pone sui contenuti che gli utenti possono generare può essere facilmente aggirata a causa della natura open source della licenza in base alla quale Stable Diffusion è stato rilasciato<ref name=":13"/>.
 
== Licenza ==
A differenza di modelli come [[DALL-E]], Stable Diffusion rende [[Software con sorgente disponibile|disponibile il suo codice sorgente]],<ref name="stability">{{Cita web|url=https://stability.ai/blog/stable-diffusion-public-release|titolo= |sito=Stability.Ai|accesso=31 agosto 2022}}</ref> insieme a pesi pre-addestrati. La sua licenza proibisce alcuni casi d'uso, tra cui reati, [[diffamazione]], [[Molestia|molestie]], [[doxing]], "sfruttamento di minori", consulenza medica, creazione automatica di obblighi legali, produzione di prove legali e "discriminazione o danneggiamento di individui o gruppi sulla base di .. .comportamento sociale o...caratteristiche personali o della personalità...[o] caratteristiche o categorie legalmente protette ”<ref name="washingtonpost">{{Cita news|url=https://www.washingtonpost.com/technology/2022/08/30/deep-fake-video-on-agt/|giornale=The Washington Post}}</ref><ref>{{Cita web|url=https://huggingface.co/spaces/CompVis/stable-diffusion-license|titolo= |sito=huggingface.co|accesso=5 settembre 2022}}</ref>. {{chiarire| L'utente possiede i diritti sulle immagini di output generate ed è libero di utilizzarle commercialmente|Sito incomprensibile e non verificabile}}.<ref>{{Cita web|url=https://forest.watch.impress.co.jp/docs/review/1434893.html|titolo= |autore=Katsuo Ishida|sito=Impress Corporation|lingua=ja}}</ref>
 
==Note==
Riga 89:
== Collegamenti esterni ==
* {{Collegamenti esterni}}
{{Intelligenza artificiale}}
[[Categoria:Reti neurali artificiali]]
[[Categoria:Elaborazione del linguaggio naturale]]
[[Categoria:Linguistica computazionale]]
[[Categoria:Intelligenza artificiale]]
[[Categoria:Arte digitale]]
 
[[Categoria:Pagine con traduzioni non revisionate]]