Stable Diffusion: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m modifica nota 5 |
|||
(6 versioni intermedie di 5 utenti non mostrate) | |||
Riga 14:
'''Stable Diffusion''' è un modello di [[Apprendimento profondo|apprendimento automatico profondo]] pubblicato nel 2022, utilizzato principalmente per generare immagini dettagliate a partire da descrizioni di testo, sebbene possa essere applicato anche ad altre attività come la [[Inpainting|pittura]], la pittura esterna e la generazione di traduzioni da immagine a immagine guidate da un prompt di testo.<ref name=":0">{{Cita web|url=https://huggingface.co/spaces/huggingface/diffuse-the-rest|titolo=|sito=huggingface.co|accesso=18 ottobre 2023}}</ref>
Stable Diffusion è un modello di diffusione latente, una variante di rete neurale generativa profonda sviluppata dal gruppo CompVis alla [[Università Ludwig Maximilian di Monaco|LMU di Monaco]]. Il modello è stato rilasciato da una collaborazione tra Stability AI, CompVis LMU e Runway con il supporto di EleutherAI e LAION.<ref>{{Cita web|url=https://www.lmu.de/en/newsroom/news-overview/news/revolutionizing-image-generation-by-ai-turning-text-into-images.html|titolo=|sito=LMU Munich|accesso=18 ottobre 2023}}</ref> Nell'ottobre 2022, Stability AI ha raccolto 101 milioni di dollari in un ''round'' di investimenti guidato da Lightspeed Venture Partners e Coatue Management.<ref>{{Cita web|url=https://techcrunch.com/2022/10/17/stability-ai-the-startup-behind-stable-diffusion-raises-101m/|titolo=Stability AI, the startup behind Stable Diffusion, raises $101M|sito=Techcrunch|lingua=en|accesso=
Il codice di Stable Diffusion e i pesi del modello sono stati rilasciati pubblicamente.<ref>{{Cita testo|titolo=|data=18 ottobre 2023|url=https://github.com/CompVis/stable-diffusion}}</ref>
Stable Diffusion può funzionare sulla maggior parte dell'hardware dotato di una [[GPU]]
Nel novembre 2023 Stable AI lancia Stable 3D per la creazione di modelli 3D di oggetti complessi.<ref>{{cita web|url=https://www.tomshw.it/hardware/creare-modelli-3d-diventa-un-gioco-da-ragazzi-con-questa-nuova-ia|titolo=Creare modelli 3D diventa un gioco da ragazzi con questa nuova IA|data=3 novembre 2023}}</ref>
== Tecnologia ==
Line 24 ⟶ 26:
=== Architettura ===
Stable Diffusion utilizza una variante del modello di diffusione (DM), chiamato modello di diffusione latente (LDM)<ref name="stable-diffusion-github">{{Cita web|url=https://github.com/CompVis/stable-diffusion|titolo=GitHUB - Stable Diffusion|lingua=en|accesso=
=== Dati di addestramento ===
Line 35 ⟶ 37:
=== Limitazioni ===
Stable Diffusion presenta problemi di degrado e imprecisioni in determinati scenari. Poiché il modello è stato addestrato su un set di dati costituito da immagini con risoluzione 512 × 512, la qualità delle immagini generate peggiora notevolmente quando le specifiche dell'utente si discostano dalle immagini con risoluzione "prevista" 512 × 512<ref name="diffusers">{{Cita web|url=https://huggingface.co/blog/stable_diffusion|titolo= |sito=huggingface.co|accesso=31 ottobre 2022}}</ref>. Un'altra sfida è la generazione di arti umani a causa della scarsa qualità dei dati degli arti nel database LAION<ref>{{Cita web|url=https://laion.ai/|titolo= |sito=laion.ai|lingua=en|accesso=31 ottobre 2022}}</ref>.
Anche l'accessibilità per i singoli sviluppatori può essere un problema. Per personalizzare il modello per nuovi casi d'uso che non sono inclusi nel set di dati, come la generazione di personaggi [[anime]] ("diffusione waifu")<ref>{{Cita web|url=https://huggingface.co/hakurei/waifu-diffusion|titolo= |sito=huggingface.co|accesso=31 ottobre 2022}}</ref>, sono necessari nuovi dati e ulteriore formazione. Tuttavia, questo processo di ottimizzazione è sensibile alla qualità dei nuovi dati; immagini a bassa risoluzione o risoluzioni diverse dai dati originali possono non solo non riuscire ad apprendere il nuovo compito ma degradare le prestazioni complessive del modello. Anche quando il modello è ulteriormente addestrato su immagini di alta qualità, è difficile per le persone eseguire modelli nell'elettronica di consumo. Ad esempio, il processo di formazione per waifu-diffusion richiede un minimo di 30 GB di VRAM<ref>{{Cita testo|url=https://github.com/harubaru/waifu-diffusion/blob/6bf942eb6368ebf6bcbbb24b6ba8197bda6582a0/docs/en/training/README.md}}</ref>, che supera la normale risorsa fornita nelle GPU consumer, come la [[GeForce 30 series|serie GeForce 30]] di [[NVIDIA|Nvidia]] con circa 12 GB<ref>{{Cita web|url=https://www.anandtech.com/show/17204/nvidia-quietly-launches-geforce-rtx-3080-12gb-more-vram-more-power-more-money|titolo= |accesso=31 ottobre 2022}}</ref>.
Line 77 ⟶ 79:
== Licenza ==
A differenza di modelli come [[DALL-E]], Stable Diffusion rende [[Software con sorgente disponibile|disponibile il suo codice sorgente]],<ref name="stability">{{Cita web|url=https://stability.ai/blog/stable-diffusion-public-release|titolo= |sito=Stability.Ai|accesso=31 agosto 2022}}</ref> insieme a pesi pre-addestrati. La sua licenza proibisce alcuni casi d'uso, tra cui reati, [[diffamazione]], [[Molestia|molestie]], [[doxing]], "sfruttamento di minori", consulenza medica, creazione automatica di obblighi legali, produzione di prove legali e "discriminazione o danneggiamento di individui o gruppi sulla base di .. .comportamento sociale o...caratteristiche personali o della personalità...[o] caratteristiche o categorie legalmente protette ”<ref name="washingtonpost">{{Cita news|url=https://www.washingtonpost.com/technology/2022/08/30/deep-fake-video-on-agt/|giornale=The Washington Post}}</ref><ref>{{Cita web|url=https://huggingface.co/spaces/CompVis/stable-diffusion-license|titolo= |sito=huggingface.co|accesso=5 settembre 2022}}</ref>. {{chiarire| L'utente possiede i diritti sulle immagini di output generate ed è libero di utilizzarle commercialmente|Sito incomprensibile e non verificabile}}.<ref>{{Cita web|url=https://forest.watch.impress.co.jp/docs/review/1434893.html|titolo= |autore=Katsuo Ishida|sito=Impress Corporation|lingua=ja}}</ref>
==Note==
Line 87 ⟶ 89:
== Collegamenti esterni ==
* {{Collegamenti esterni}}
{{Intelligenza artificiale}}
[[Categoria:Reti neurali artificiali]]
[[Categoria:Elaborazione del linguaggio naturale]]
[[Categoria:Linguistica computazionale]]
[[Categoria:Intelligenza artificiale]]
[[Categoria:Arte digitale]]
[[Categoria:Pagine con traduzioni non revisionate]]
|