Stable Diffusion: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
fix maiuscole |
|||
(17 versioni intermedie di 11 utenti non mostrate) | |||
Riga 1:
{{Software
|Nome = Stable Diffusion
|Screenshot =
|Sviluppatore = CompVis group LMU Munich; Runway; Stability AI
▲|UltimaVersione = Modello 1.5
▲|DataUltimaVersione = 31 agosto 2022
|SistemaOperativo = Windows, MacOS, GNU/Linux, Solaris
|Genere = Elaborazione digitale delle immagini
Line 14 ⟶ 12:
}}
'''Stable Diffusion''' è un modello di [[Apprendimento profondo|apprendimento automatico profondo]] pubblicato nel 2022, utilizzato principalmente per generare immagini dettagliate a partire da descrizioni di testo, sebbene possa essere applicato anche ad altre attività come la [[Inpainting|pittura]], la pittura esterna e la generazione di traduzioni da immagine a immagine guidate da un prompt di testo.<ref name=":0">{{Cita web|url=https://huggingface.co/spaces/huggingface/diffuse-the-rest|titolo=
Stable Diffusion è un modello di diffusione latente, una variante di rete neurale generativa profonda sviluppata dal gruppo CompVis alla [[Università Ludwig Maximilian di Monaco|LMU di Monaco]]. Il modello è stato rilasciato da una collaborazione tra Stability AI, CompVis LMU e Runway con il supporto di EleutherAI e LAION.<ref>{{Cita web|url=https://www.lmu.de/en/newsroom/news-overview/news/revolutionizing-image-generation-by-ai-turning-text-into-images.html|titolo=
Il codice di Stable Diffusion e i pesi del modello sono stati rilasciati pubblicamente.<ref>{{Cita testo|titolo=|data=18 ottobre 2023|url=https://github.com/CompVis/stable-diffusion}}</ref>
Stable Diffusion può funzionare sulla maggior parte dell'hardware dotato di una [[GPU]]
Nel novembre 2023 Stable AI lancia Stable 3D per la creazione di modelli 3D di oggetti complessi.<ref>{{cita web|url=https://www.tomshw.it/hardware/creare-modelli-3d-diventa-un-gioco-da-ragazzi-con-questa-nuova-ia|titolo=Creare modelli 3D diventa un gioco da ragazzi con questa nuova IA|data=3 novembre 2023}}</ref>
== Tecnologia ==
Riga 26:
=== Architettura ===
Stable Diffusion utilizza una variante del modello di diffusione (DM), chiamato modello di diffusione latente (LDM)<ref name="stable-diffusion-github">{{Cita web|url=https://github.com/CompVis/stable-diffusion|titolo=GitHUB - Stable Diffusion|lingua=en|accesso=
=== Dati di addestramento ===
Riga 37:
=== Limitazioni ===
Stable Diffusion presenta problemi di degrado e imprecisioni in determinati scenari. Poiché il modello è stato addestrato su un set di dati costituito da immagini con risoluzione 512 × 512, la qualità delle immagini generate peggiora notevolmente quando le specifiche dell'utente si discostano dalle immagini con risoluzione "prevista" 512 × 512<ref name="diffusers">{{Cita web|url=https://huggingface.co/blog/stable_diffusion|titolo= |sito=huggingface.co|accesso=31 ottobre 2022}}</ref>. Un'altra sfida è la generazione di arti umani a causa della scarsa qualità dei dati degli arti nel database LAION<ref>{{Cita web|url=https://laion.ai/|titolo= |sito=laion.ai|lingua=en|accesso=31 ottobre 2022}}</ref>.
Anche l'accessibilità per i singoli sviluppatori può essere un problema. Per personalizzare il modello per nuovi casi d'uso che non sono inclusi nel set di dati, come la generazione di personaggi [[anime]] ("diffusione waifu")<ref>{{Cita web|url=https://huggingface.co/hakurei/waifu-diffusion|titolo= |sito=huggingface.co|accesso=31 ottobre 2022}}</ref>, sono necessari nuovi dati e ulteriore formazione. Tuttavia, questo processo di ottimizzazione è sensibile alla qualità dei nuovi dati; immagini a bassa risoluzione o risoluzioni diverse dai dati originali possono non solo non riuscire ad apprendere il nuovo compito ma degradare le prestazioni complessive del modello. Anche quando il modello è ulteriormente addestrato su immagini di alta qualità, è difficile per le persone eseguire modelli nell'elettronica di consumo. Ad esempio, il processo di formazione per waifu-diffusion richiede un minimo di 30 GB di VRAM<ref>{{Cita testo|url=https://github.com/harubaru/waifu-diffusion/blob/6bf942eb6368ebf6bcbbb24b6ba8197bda6582a0/docs/en/training/README.md}}</ref>, che supera la normale risorsa fornita nelle GPU consumer, come la [[GeForce 30 series|serie GeForce 30]] di [[NVIDIA|Nvidia]] con circa 12 GB<ref>{{Cita web|url=https://www.anandtech.com/show/17204/nvidia-quietly-launches-geforce-rtx-3080-12gb-more-vram-more-power-more-money|titolo= |accesso=31 ottobre 2022}}</ref>.
Riga 76:
Poiché gli stili visivi e le [[Composizione (arte)|composizioni]] non sono soggetti a copyright, si interpreta spesso che gli utenti di Stable Diffusion che generano immagini di opere d'arte non dovrebbero essere considerati in violazione del copyright di opere visivamente simili<ref name="automaton" />. Tuttavia, gli individui raffigurati nelle immagini generate possono essere protetti dai [[diritti della persona]]lità se viene utilizzata la loro somiglianza<ref name="automaton">{{Cita web|url=https://automaton-media.com/articles/newsjp/20220824-216074/|titolo= |sito=Automaton Media|lingua=ja}}</ref>, e la [[proprietà intellettuale]] come i loghi dei marchi riconoscibili rimangono ancora protetti dal diritto d'autore. Tuttavia, gli artisti visivi hanno espresso preoccupazione per il fatto che l'uso diffuso di software di sintesi delle immagini come Stable Diffusion possa portare gli artisti umani, insieme a fotografi, modelli, cineasti e attori, a perdere gradualmente la redditività commerciale rispetto ai concorrenti basati sull'intelligenza artificiale.
Stable Diffusion è in particolare più permissiva nei tipi di contenuti che gli utenti possono generare, come immagini violente o sessualmente esplicite, rispetto ad altri prodotti commerciali basati sull'IA generativa<ref name="bijapan">{{Cita web|url=https://www.businessinsider.jp/post-258369|titolo= |autore=Ryo Shimizu|sito=Business Insider Japan|lingua=ja}}</ref>. Affrontando le preoccupazioni che il modello possa essere utilizzato per scopi abusivi, il CEO di Stability AI, [[Emad Mostaque]], spiega che "[è] la responsabilità delle persone se sono etiche, morali e legali nel modo in cui utilizzano questa tecnologia", e che mettere le capacità di Stable Diffusion nelle mani del pubblico porterebbe la tecnologia a fornire un beneficio netto, nonostante le potenziali conseguenze negative. Inoltre, Mostaque sostiene che l'intenzione alla base della disponibilità aperta di Stable Diffusion è quella di porre fine al controllo aziendale e al dominio su tali tecnologie, che in precedenza hanno sviluppato solo sistemi di IA chiusi per la sintesi di immagini. Ciò si riflette nel fatto che qualsiasi restrizione che Stability AI pone sui contenuti che gli utenti possono generare può essere facilmente aggirata a causa della natura open source della licenza in base alla quale Stable Diffusion è stato rilasciato<ref name=":13"/>.
== Licenza ==
A differenza di modelli come [[DALL-E]], Stable Diffusion rende [[Software con sorgente disponibile|disponibile il suo codice sorgente]],<ref name="stability">{{Cita web|url=https://stability.ai/blog/stable-diffusion-public-release|titolo= |sito=Stability.Ai|accesso=31 agosto 2022}}</ref> insieme a pesi pre-addestrati. La sua licenza proibisce alcuni casi d'uso, tra cui reati, [[diffamazione]], [[Molestia|molestie]], [[doxing]], "sfruttamento di minori", consulenza medica, creazione automatica di obblighi legali, produzione di prove legali e "discriminazione o danneggiamento di individui o gruppi sulla base di .. .comportamento sociale o...caratteristiche personali o della personalità...[o] caratteristiche o categorie legalmente protette ”<ref name="washingtonpost">{{Cita news|url=https://www.washingtonpost.com/technology/2022/08/30/deep-fake-video-on-agt/|giornale=The Washington Post}}</ref><ref>{{Cita web|url=https://huggingface.co/spaces/CompVis/stable-diffusion-license|titolo= |sito=huggingface.co|accesso=5 settembre 2022}}</ref>. {{chiarire| L'utente possiede i diritti sulle immagini di output generate ed è libero di utilizzarle commercialmente|Sito incomprensibile e non verificabile}}.<ref>{{Cita web|url=https://forest.watch.impress.co.jp/docs/review/1434893.html|titolo= |autore=Katsuo Ishida|sito=Impress Corporation|lingua=ja}}</ref>
==Note==
Riga 89:
== Collegamenti esterni ==
* {{Collegamenti esterni}}
{{Intelligenza artificiale}}
[[Categoria:Reti neurali artificiali]]
[[Categoria:Elaborazione del linguaggio naturale]]
[[Categoria:Linguistica computazionale]]
[[Categoria:Intelligenza artificiale]]
[[Categoria:Arte digitale]]
[[Categoria:Pagine con traduzioni non revisionate]]
|