Internet Archive: differenze tra le versioni

Naviga nella cronologia in modo interattivo

← Differenza precedente

Contenuto cancellato Contenuto aggiunto

VisualeWikitesto

Versione delle 23:29, 24 giu 2019 modifica 93.43.201.3 (discussione) Nessun oggetto della modifica Etichetta: Modifica visuale ← Differenza precedente		Versione attuale delle 23:52, 15 ott 2025 modifica annulla Emilio2005 (discussione \| contributi) Utenti autoverificati, Mover 62 190 modifiche m Corretto il collegamento Mit con Massachusetts Institute of Technology (DisamAssist)
(109 versioni intermedie di 58 utenti non mostrate)
Riga 3: \|Nome ufficiale = \|Nome ufficiale2 = ~~\|Logo = Internet Archive logo and wordmark.svg~~ \|Abbreviazione = \|Tipo = [[Organizzazione non governativa\|ONG]] Riga 32 ⟶ 31: \|nome = Internet Archive \|didascalia = Il logo del sito \|url = http://www.archive.org \|lucro = No \|tipo = [[Biblioteca digitale]] Riga 39: \|stato corrente = attivo }} [[File:Internet Archive headquarters exterior February 2008.jpg\|thumb\|Internet Archive ha avuto sede nel [[Presidio ofdi San Francisco]], una ex base militare degli Stati Uniti a [[San Francisco]], dal [[1996]] al [[2009]]]] [[File:christian science church122908 02.jpg\|thumb\|right\|La nuova sede di Internet Archive dal novembre 2009, al 300 di Funston a [[San Francisco]], un'ex chiesa [[cristianesimo scientista\|cristiana scientista]]]] [[File:Wayback Machine logo 2010.svg\|miniatura\|Il logo di Wayback Machine, usato da novembre 2001]] [[File:Internet Archive - Bibliotheca Alexandrina.jpg\|thumb\|''[[Mirror (informatica)\|Mirror]]'' di Internet Archive alla [[Bibliotheca Alexandrina]], ([[Egitto]])]] '''Internet Archive''' è una [[biblioteca digitale]] ''[[Organizzazione non a scopo di lucro\|non profit]]'' che ha lo scopo dichiarato di consentire un "accesso universale alla conoscenza"<ref>{{en}}[https://archive.org/about/faqs.php#296 Internet Archive Frequently Asked Questions] {{webarchive\|url=http://archive.wikiwix.com/cache/20130415120255/https://archive.org/about/faqs.php \|data=15 aprile 2013 }}</ref><ref>{{en}}[https://archive.org/details/SDForumBK Internet Archive: Universal Access to all Knowledge] {{Webarchive\|url=https://web.archive.org/web/20131013171039/http://archive.org/details/SDForumBK \|data=13 ottobre 2013 }}</ref>. Essa offre uno spazio digitale permanente per l'accesso a ~~collezioni~~vari tipi di ~~materiale~~risorse: ~~digitale~~per ~~che include, tra l'altro~~esempio, siti web, audio, ~~immagini in movimento (~~video) e libri. Internet Archive fu ~~fondato~~fondata da [[Brewster Kahle]] nel [[1996]] e fa parte della IIPC ([[International Internet Preservation Consortium]]).<ref>{{en}}[http://netpreserve.org/about/memberList.php Members] {{webarchive\|url=https://web.archive.org/web/20100613021711/http://netpreserve.org/about/memberList.php \|data=13 giugno 2010 }} (International Internet Preservation Consortium)</ref> In aggiunta alla sua funzione primaria di archiviazione, Internet Archive è un'organizzazione ~~attivista~~ che si batte per ~~una~~ un'[[Internet]] libera ede aperta ed è un'associazione ''non profit'' riconosciuta ufficialmente negli [[Stati Uniti d'America]]. Gli uffici amministrativi hanno sede a [[San Francisco]] mentre i ''[[~~data~~Centro ~~center~~elaborazione dati\|centri elaborazione dati]]'' sono collocati a San Francisco, a [[Redwood City]] e a [[Mountain View (California)\|Mountain View]], in [[California]]. La più massiccia ~~collezione~~raccolta digitale della biblioteca è l'archivio web, una sorta di ~~raccolta~~collezione di "fermi immagine" del World Wide Web catalogati secondo la data di acquisizione. Per assicurare la stabilità e la sicurezza dei dati archiviati, l'intera collezione ha un ''[[Mirror (informatica)\|mirror]]'' nei server della [[Bibliotheca Alexandrina]] inad [[Alessandria d'Egitto]]. L'archivio permette ala chiunque abbia un account ~~pubblico~~gratuito il caricamento e lo scaricamento di materiale digitale da e verso i suoi server a costo zero.<ref>{{cita web\|url=https://bct.comune.torino.it/internet-archive\|titolo=Internet Archive}}</ref> Esso inoltre permette l'accesso a uno dei più vasti progetti di archiviazione digitale di libri esistente, è parte dell'[[American Library Association]] ed è ufficialmente ~~riconosciuto~~riconosciuta dallo stato della California come biblioteca pubblica.<ref>{{en}}[https://archive.org/iathreads/post-view.php?id=121377 "Internet Archive officially a library"] {{webarchive\|url=http://archive.wikiwix.com/cache/20160901142208/https://archive.org/iathreads/post-view.php?id=121377 \|data=1º settembre 2016 }}, 2 maggio 2007.</ref> La società conta 200 dipendenti, molti dei quali impegnati ~~nello~~nella ~~''scanning''~~[[scansione]] di volumi cartacei presso i centri specializzati. L'ufficio principale di San Francisco conta trenta dipendenti. Internet Archive ha un ''budget'' annuale di circa 10 milioni di dollari, derivanti in massima parte da una varietà di fonti: i profitti dei servizi riguardanti il ''[[crawler\|web crawling]]'', collaborazioni varie, sovvenzioni, donazioni, e la Kahle-Austin Foundation.<ref>{{en}}[http://www.cabinetmagazine.org/issues/10/womack.php CabinetMagazine.org] {{webarchive\|url=https://web.archive.org/web/20130319144336/http://cabinetmagazine.org/issues/10/womack.php \|data=19 marzo 2013 }}</ref> Secondo il sito web di Internet Archive "molte società danno importanza alla conservazione di manufatti riguardanti la loro eredità culturale. Senza questi manufatti la civiltà non ha [[memoria collettiva\|memoria]] e non ha modo di imparare dai propri successi e dai propri fallimenti. La nostra cultura ora produce sempre più prodotti in forma digitale. La missione di Internet Archive è di aiutare a conservare questi manufatti e creare una biblioteca digitale su Internet per ricercatori, storici e studiosi". == Storia == L'idea dell'internet Archive nacque al [[Massachusetts Institute of Technology\|MIT]] negli anni Ottanta. Kahle ne discusse con [[Marvin Minsky]], [[Richard Feynman]] e [[Stephen Wolfram]]. [[Danny Hills]] ideò un [[supercomputer]] che utilizzava il [[calcolo parallelo]], chiamato Connection Machine. Nel 1983 Kahle fu assunto nell'azienda di Hills, la Thinking Machines, che si proponeva di costruire computer in grado di ricercare ogni genere di informazione e di rispondere a domande in linguaggio naturale.<ref name="Civiltà dei dati" /> Brewster Kahle fondò Internet Archive nel 1996, nello stesso periodo in cui fondò la società [[Alexa Internet]], compagnia impegnata in servizi di ''[[web crawling]]''. Internet Archive ha iniziato ad archiviare il [[World Wide Web]] dal 1996, ma la collezione non fu accessibile fino al [[2001]], quando fu sviluppata la Wayback Machine. Nel 1999, Internet Archive si espanse aggiungendo altre raccolte tra cui il [[Prelinger Archive]]. L'Internet Archive comprende attualmente, tra l'altro, testi, audio, immagini in movimento e software. Ospita una serie di altri progetti tra cui un archivio di immagini della [[NASA]], il servizio di indicizzazione [[Archive-It]] e [[Open Library]], un catalogo di volumi editabile tramite un software simile a un wiki.▼ ▲Brewster Kahle fondò Internet Archive nel 1996, nello stesso periodo in cui fondò la società [[Alexa Internet]], compagnia impegnata in servizi di ''[[web crawling]]''. Internet Archive ha ~~iniziato~~cominciato ad archiviare il [[World Wide Web]] ~~dal~~nel 1996, ma la collezione non fu accessibile fino al [[2001]], quando fu sviluppata la Wayback Machine. Nel 1999, Internet Archive si espanse aggiungendo altre raccolte tra cui il [[Prelinger Archive]]. L'Internet Archive comprende attualmente, tra l'altro, testi, audio, immagini in movimento e software. Ospita una serie di altri progetti tra cui un archivio di immagini della [[NASA]], il servizio di indicizzazione [[Archive-It]] e [[Open Library]], un catalogo di volumi editabile tramite un software simile a un wiki. Il 25 marzo 2020, a seguito della [[Pandemia di COVID-19 del 2019-2021\|pandemia di COVID-19]], l'internet Archive ha lanciato la National Emergency Library, un'iniziativa che consente l'accesso gratuito in modalità [[full Text Search\|testo integrale]] all'intera collezione digitale che conta più di 1 milione di titoli a catalogo.<ref>{{cita web \| url = https://www.insider.com/national-emergency-library-internet-archive-free-books-waitlist-online-2020-3 \| titolo = The Internet Archive launched a public no-wait digitized library of over 1 million books that are normally only available to schools and libraries \| autore = Palmer Haasch}}</ref><ref>{{cita web \| url = https://archive.org/details/nationalemergencylibrary \| titolo = Announcing the National Emergency Library \| accesso = 26 marzo 2020 \| urlarchivio = https://web.archive.org/web/20200326043449/https://archive.org/details/nationalemergencylibrary \| dataarchivio = 26 marzo 2020 \| urlmorto = no }}</ref> Nel marzo 2023 un giudice statunitense di primo grado ha dato ragione a un gruppo di editori che aveva citato l'Internet Archive per violazione del diritto d'autore, sostenendo che la messa a disposizione del pubblico delle copie dei libri digitalizzati non rientrasse nel [[fair use]]. L'internet archive gestisce anche un servizio di Controlled Digital Library che prevede la messa in prestito di un numero di copie digitali di un titolo esattamente pari al numero delle copie possedute regolarmente pagate dalle biblioteche partner del progetto.<ref>{{cita web\|url=https://www.ilsoftware.it/articoli.asp?tag=Cos-e-successo-a-Internet-Archive-la-scannerizzazione-dei-libri-non-e-ammessa-per-i-testi-protetti-dal-diritto-d-autore_25792\|titolo=Cos'è successo a Internet Archive: la scannerizzazione dei libri non è ammessa per i testi protetti dal diritto d'autore}}</ref> Il 9 ottobre 2024, il sito ha subìto un attacco di [[DDoS]] rendendo il sito web e i servizi annessi non disponibili.<ref>{{Cita web\|url=https://www.wired.it/article/internet-archive-cyberattacco/\|titolo=Che cosa sappiamo del cyberattacco a Internet Archive\|autore=Marco Schiaffino\|sito=Wired Italia\|data=10 ottobre 2024\|lingua=it\|accesso=24 ottobre 2024}}</ref> Il team di Internet Archive ha dichiarato, che oltre all'attacco DDoS, c'è stata anche una [[fuga di dati]] perpetrata da parte del gruppo di ''[[hacktivism]]'' SN_BlackMeta, che ha portato alla compromissione di 31 milioni di account registrati nel sito,<ref>{{Cita web\|url=https://www.bleepingcomputer.com/news/security/internet-archive-hacked-data-breach-impacts-31-million-users/\|titolo=Internet Archive hacked, data breach impacts 31 million users\|sito=BleepingComputer\|lingua=en\|accesso=24 ottobre 2024}}</ref> tuttavia il sito sarebbe tornato in servizio dopo qualche settimana.<ref>{{Cita web\|url=https://www.theverge.com/2024/10/11/24268040/internet-archive-data-breach-outage-hacked\|titolo=The Internet Archive is still down but will return in ‘days, not weeks’\|autore=Emma Roth\|sito=The Verge\|data=11 ottobre 2024\|lingua=en\|accesso=24 ottobre 2024}}</ref><ref>{{Cita web\|url=https://www.ilsole24ore.com/art/internet-archive-torna-online-cosa-e-successo-AGsuhPY\|titolo=Internet Archive torna online. Cosa è successo?\|autore=Marco Trabucchi\|sito=Il Sole 24 ORE\|data=14 ottobre 2024\|lingua=it\|accesso=16 ottobre 2024}}</ref> Al 2024 l'Internet Archive è il sito più utilizzato da anni per la conservazione di pagine web nel lungo termine. Esso comprende 916 miliardi di pagine web, 44 milioni tra libri e testi e 15 milioni di registrazioni audio.<ref>{{Cita web\|url=https://web.archive.org/\|titolo=Wayback Machine\|autore=\|sito=archive.org\|data=\|lingua=en\|accesso=2 gennaio 2025}}</ref> == Progetti == === Wayback Machine === {{vedi anche\|Wayback Machine}} Wayback Machine è l'interfaccia web utilizzata da Internet Archive per l'estrapolazione dagli archivi dei dati riguardanti siti web. I siti archiviati rappresentano una sorta di "fermi immagine" raccolti al momento dell'acquisizione delle pagine tramite il software di indicizzazione di Internet Archive. Il nome "Wayback Machine" deriva dal termine "''WABAC Machine''" utilizzato in una delle storie della serie animata ''[[Rocky e Bullwinkle]]''.<ref>{{en}} {{Cita news Riga 75 ⟶ 86: ricerca di prove una volta pubblicate e quindi cancellate. Il servizio permette di accedere a versioni archiviate di pagine web del passato, una sorta di "archivio tridimensionale" secondo le parole di Internet Archive. Milioni di siti web con i rispettivi dati (immagini, testo, documenti collegati, ecc.) sono archiviati in un gigantesco ''database''. Non tutti i siti web sono disponibili a causa della scelta di molti proprietari di siti di escludere i loro siti dall'indicizzazione. Come per tutti i siti basati su dati provenienti da ''web crawler'', inoltre, mancano vaste aree del web per una serie di ragioni tecniche. Diverse problematiche legali riguardanti l'archiviazione e la copertura o meno di siti sono state infine riscontrate negli anni, sebbene queste non siano il risultato di azioni deliberate.<ref>{{en}} Thelwall, M. & Vaughan, L. (2004). ''A fair history of the Web? Examining country balance in the Internet Archive, Library & Information Science Research'', 26(2), pp. 162-176. </ref> L'uso del termine "Wayback Machine" nel contesto di Internet Archive è diventato così comune che "Wayback Machine" e "Internet Archive" sono divenuti quasi sinonimi nella [[cultura di massa]]; adper esempio, nella serie televisiva ''[[Law ~~and~~& Order: Criminal Intent]]'' (nell'episodio "Legacy", andato in onda per la prima volta il 3 agosto 2008, intitolato ''[[Episodi di Law & Order: Criminal Intent (settima stagione)#Amore virtuale\|Amore virtuale]]'' nella controparte in italiano), uno dei protagonisti dell'episodio utilizza la "Wayback Machine" per scovare la copia archiviata di un sito web. Le "istantanee" dei siti archiviate durante i vari passaggi del ''crawler'' diventano accessibili pubblicamente di solito dopo 6-18 mesi. Esempi di siti web archiviati da Internet Archive e visualizzati attraverso la Wayback Machine: Riga 87 ⟶ 98: Internet Archive utilizza il protocollo [[Robots Exclusion Standard]] (attraverso il file [[robots.txt]]) per l'esclusione volontaria dei siti dal proprio database. Internet Archive rispetta le direttive del file robots.txt facendo in modo che i suoi bot non indicizzino le pagine. Per questo motivo, Internet Archive ha reso indisponibili un certo numero di siti web che sono del tutto inaccessibili attraverso la Wayback Machine. In caso di siti bloccati, viene archiviato il solo file [[robots.txt]]. L'Internet Archive applica le regole robots.txt con effetto retroattivo: se un sito blocca lo ''spider'' di Internet Archive attraverso il file robots.txt, allora diventano non disponibili tutte le pagine già archiviate dal dominio. Inoltre, lo stesso comportamento è riservato a tutti i siti web che ne fanno esplicita richiesta: per questo, ogni volta che il proprietario di un sito ne chiede l'esclusione dall'indice, si acconsente alla richiesta<ref>{{en}}[https://web.archive.org/collections/web/faqs.html#exclusions ''Some sites are not available because of Robots.txt or other exclusions''] {{Webarchive\|url=https://web.archive.org/web/20110415130934/http://web.archive.org/collections/web/faqs.html#exclusions \|data=15 aprile 2011 }}</ref>, non essendo "Internet Archive [...] interessato a preservare o offrire l'accesso a siti Web o ad altri documenti su Internet di proprietà di persone che non vogliono i loro materiali nella nostra collezione".<ref>{{en}}[https://www.archive.org/about/faqs.php#2 ''How can I remove my site's pages from the Wayback Machine?''] {{Webarchive\|url=https://web.archive.org/web/20131010215617/http://archive.org/about/faqs.php#2 \|data=10 ottobre 2013 }}</ref> AdPer esempio, l'indirizzo ''<nowiki>https://web.archive.org//https://www.ubuntu-it.org</nowiki>'', mostra le copie consultabili della pagina :''<nowiki>https://www.ubuntu-it.org</nowiki>'', :suddivise in base alla data del salvataggio su Internet Archive. Nell’ottobre 2025 il sistema ha raggiunto il traguardo della sua trilionesima pagina web indicizzata, pari a circa mille miliardi di scansioni online. Tale cifra include anche copie multiple delle stesse pagine o documenti, come testi o file PDF liberamente accessibili su Internet, archiviati più volte nel corso degli anni.<ref>{{Cita news\|nome=Chris \|cognome=Freeland\|url=https://blog.archive.org/2025/07/01/wayback-machine-to-hit-once-in-a-generation-milestone-this-october-one-trillion-web-pages-archived/\|titolo=Wayback Machine to Hit ‘Once-in-a-Generation Milestone’ this October: One Trillion Web Pages Archived\|pubblicazione=Internet Archive Blogs\|data= 1 luglio 2025 \|accesso= 11 ottobre 2025 \|urlarchivio=}}</ref> === Open Library === [[Open Library]], fra i cui fondatori si annovera anche l'attivista digitale [[Aaron Swartz]],<ref>{{cita web \| 1 = https://openlibrary.org/about \|~~Aaron~~ ~~Swartz~~2 = Il progetto ~~Open~~\| accesso = 2 maggio 2019 \| urlarchivio = https://web.archive.org/web/20150627092210/https://openlibrary.org/about \| dataarchivio = 27 giugno 2015 \| urlmorto = no ~~Library~~}}</ref> è una [[biblioteca digitale]] nata con lo scopo di raccogliere schede per ogni libro mai pubblicato e di catalogarle in un unico database; una sorta di versione ''open source'' di [[WorldCat]], nata in contrapposizione al progetto di digitalizzazione [[Google ~~Books~~Libri]].<ref>{{en}}{{Cita news \|nome=Antone \|cognome=Gonsalves \|titolo=''Internet Archive Claims Progress Against Google Library Initiative'' \|url=http://www.informationweek.com/story/showArticle.jhtml?articleID=196701339 \|editore=InformationWeek \|data=20 dicembre 2006 \|accesso=5 gennaio 2007 \|urlmorto=no \|urlarchivio=https://web.archive.org/web/20071014174528/http://informationweek.com/story/showArticle.jhtml?articleID=196701339 \|dataarchivio=14 ottobre 2007 }}</ref> ~~(in italiano, [[Google Libri]]).~~ Il progetto nasce nel 2007 e include alcuni milioni di schede catalografiche e libri digitalizzati nel pubblico dominio interamente accessibili e scaricabili.<ref>~~{{en}}~~{{Cita news \|lingua=en \|titolo=''The Open Library Makes Its Online Debut'' \|url=http://chronicle.com/blogs/wiredcampus/the-open-library-makes-its-online-debut/3190 \|editore=Chronicle of Higher Education, The Wired Campus \|data=19 luglio 2007 \|accesso=26 gennaio 2013 \|urlarchivio=https://web.archive.org/web/20070930184259/http://chronicle.com/wiredcampus/index.php?id=2235%3F%3Datwc \|dataarchivio=30 settembre 2007 \|urlmorto=sì }}</ref> Open Library è un progetto che si basa su software libero e ''open source'', il codice sorgente è interamente accessibile dal sito di riferimento. A partire da giugno 2010 Open Library offre anche un servizio di prestito di ''[[ebook]]'' svolto in collaborazione col distributore di contenuti digitali statunitense OverDrive e con biblioteche americane.<ref>{{cita web\|https://blog.openlibrary.org/tag/borrowing/\|Small Moves: Open Library Integrates Digital Lending\|26 gennaio 2013}}</ref> ~~<ref>{{cita web\|https://blog.openlibrary.org/tag/borrowing/\|Small Moves: Open Library Integrates Digital Lending\|26 gennaio 2013}}</ref>.~~ === Archive-It === Riga 103 ⟶ 115: === NASA Images === Il progetto [[NASA Images]] fu creato grazie ada uno [[Space Act Agreement]] tra Internet Archive e la [[NASA]] per rendere accessibili al pubblico gli archivi delle immagini, dei video e degli audio prodotti dall'agenzia nel corso degli anni attraverso un singolo archivio interamente indicizzato e fruibile tramite ricerche. Il sito web fu lanciato nel luglio del 2008 ed è arrivato a contenere oltre ~~100.000~~{{formatnum:100000}} ~~files~~file. === Collezioni di risorse multimediali === Oltre agli archivi web, Internet Archive mantiene grosse collezioni di risorse multimediali digitali riconosciute, da chi le ha caricate sul sito, nel pubblico dominio negli Stati Uniti o distribuiti con una licenza che ne rende possibile la redistribuzione libera, come adper esempio le licenze [[Creative Commons]]. Le risorse sono classificate a seconda del tipo di media (immagini in movimento, audio, testo) e in altre sotto-classificazioni secondo vari criteri. ==== Collezione di immagini in movimento ==== La collezione di immagini in movimento (''Moving Image Collection'') di Internet Archive comprende: cinegiornali; cartoni animati classici; propagande di guerra; il [[Prelinger Archive]], un archivio speciale che contiene materiale considerato "effimero" come film sponsorizzati da aziende e organizzazioni, film didattici e filmati amatoriali, pubblicità e altro materiale i cui diritti d'autore sono scaduti. Le collezioni di risorse digitali sono molte e variano per argomento e fonte di reperimento; la collezione di ''[[brickfilm]]'', adper esempio, contiene numerosi film girati in ''stop-motion'' con mattoncini Lego; un'altra collezione riguarda le elezioni presidenziali USA del 2004 e la relativa campagna elettorale. La collezione ''Independent News'' comprende una serie di raccolte tra cui quella del concorso del 2001 ''Internet Archive's World At War'', per il quale i concorrenti crearono cortometraggi per dimostrare l'importanza dell'accesso alle informazioni e alla storia. L'archivio riguardante l'attacco alle Torri gemelle dell'[[Attentati dell'11 settembre 2001\|11 settembre 2001]] contiene materiale d'archivio prodotto dai principali ''network'' televisivi mondiali sull'evento e andato in onda in diretta quel giorno. ===== Film ===== Nelle collezioni di immagini in movimento sono presenti anche versioni originali di celebri film, tra cui: {{colonne inizio}} ''[[Il club dei ~~trentanove~~39]]'' ''[[La corazzata Potëmkin]]'' ''[[La nascita di una nazione]]'' Riga 135 ⟶ 147: {{colonne spezza}} ''[[Viaggio nella Luna]]'' ''{{chiarire\|[[Lying Lips]]}}'' ''[[M - Il mostro di Düsseldorf]]'' ''[[L'uomo che sapeva troppo (film 1934)\|L'uomo che sapeva troppo]]'' Riga 141 ⟶ 153: ''[[Manufacturing Consent: Noam Chomsky and the Media]]'' ''[[La notte dei morti viventi (film 1968)\|La notte dei morti viventi]]'' ''[[Nosferatu il vampiro]]'' (non di [[Film di pubblico dominio\|pubblico dominio]] al di fuori degli Stati Uniti) ''[[Plan 9 from Outer Space]]'' ''[[The Power of Nightmares]]'' (non di pubblico dominio) Riga 153 ⟶ 165: ==== Collezione audio ==== La collezione audio comprende musica, audiolibri, notiziari, vecchie trasmissioni radio e una grande varietà di altri file audio. La collezione ''Live Music Archive'' comprende oltre ~~50.000~~{{formatnum:50000}} registrazioni di concerti di artisti indipendenti e artisti affermati ed ensemble musicali che adottano norme permissive sulla registrazione dei loro concerti, come i [[Grateful Dead]], e gli [[Smashing Pumpkins]]. ==== Collezione di testi ==== [[File:Internet Archive book scanner 1.jpg\|thumb\|Scanner per libri di Internet Archive]] La collezione comprende testi di libri digitalizzati da varie biblioteche di tutto il mondo così come molte collezioni speciali. Internet Archive dispone di 23 centri di scansione in cinque paesi, per una digitalizzazione di circa ~~1.000~~{{formatnum:1000}} libri al giorno, finanziata da biblioteche e fondazioni.<ref>{{en}}[https://archive.org/iathreads/post-view.php?id=194217 ''Books Scanning to be Publicly Funded''] {{Webarchive\|url=https://web.archive.org/web/20090924105740/http://www.archive.org/iathreads/post-view.php?id=194217 \|data=24 settembre 2009 }}, annuncio di Brewster Khale, 23 maggio 2008.</ref> Nel novembre 2008, quando c'erano circa 1 milione di testi, l'intera collezione occupava circa 0,5 [[petabyte]], Incluse immagini raw, file PDF, OCR e dati grezzi.<ref>{{en}}[https://blog.openlibrary.org/2008/11/24/bulk-access-to-ocr-for-1-million-books/ "Bulk Access to OCR for 1 Million Books"] {{webarchive\|url=https://web.archive.org/web/20081206124013/http://blog.openlibrary.org/2008/11/24/bulk-access-to-ocr-for-1-million-books/ \|data=6 dicembre 2008 }}, via Open Library Blog, by raj, November 24, 2008.</ref> Tra il 2006 e il 2008 [[Microsoft Corporation]] instaura un rapporto di collaborazione con Internet Archive attraverso il suo progetto [[Live Search Books]], con la scansione più di ~~300.000~~{{formatnum:300000}} libri che sono stati aggiunti alla raccolta, nonché con il sostegno finanziario e con le attrezzature di scansione. Il 23 maggio 2008 Microsoft annunciò che avrebbe posto fine al progetto Live Book Search e alla scansione di nuovi libri.<ref name="msdown">{{en}}[https://blogs.msdn.com/livesearch/archive/2008/05/23/book-search-winding-down.aspx "Book search winding down"] {{webarchive\|url=https://web.archive.org/web/20080820220749/http://blogs.msdn.com/livesearch/archive/2008/05/23/book-search-winding-down.aspx \|data=20 agosto 2008 }}, ''Live Search Blog. Official announcement from Microsoft.'' Last accessed May 23, 2008.</ref> Microsoft ha reso i libri digitalizzati disponibili senza restrizioni contrattuali e ha donato la sua attrezzatura di scansione al suo ex ''partner''. Nell'ottobre del 2007 gli utenti di Internet Archive hanno iniziato il caricamento di libri di dominio pubblico da [[Google Libri]].<ref>{{en}}[https://archive.org/details/googlebooks Google Books at Internet Archive] {{Webarchive\|url=https://web.archive.org/web/20131003000303/http://archive.org/details/googlebooks \|data=3 ottobre 2013 }}.</ref> Dal mese di gennaio 2010 sono stati raccolti ~~900.000~~{{formatnum:900000}} libri digitalizzati da [[Google]], che rappresentano oltre la metà dei libri del totale disponibile su archive.org. I libri sono identici alle copie trovate su Google, e sono disponibili per un uso illimitato e per il ''downloading'', come tutti i materiali Internet Archive. Internet Archive è un membro della [[Open Book Alliance]], organizzazione che è stata tra le più critiche nei confronti dell'accordo tra l'associazione degli editori americani e Google per la digitalizzazione di libri. Nel 2016, anche seguito dello scandalo delle [[Elezioni presidenziali negli Stati Uniti d'America del 2016#La riapertura del caso sulle e-mail e gli ultimi giorni di campagna\|elezioni presidenziali]], l'Internet Archive avviò una collaborazione con le versioni di Wikipedia in molteplici lingue, elaborando un [[Bot (informatica)\|programma]] per la sostituzione automatica dei link non funzionanti nei template di citazione. In loro sostituzione, l'Internet Archive Bot<ref>Si può anche consultare la discussione [[w:en:Wikipedia:Bots/Noticeboard#IABot blue linking to Internet archive books\|IABot blue linking to Internet archive books]] del 14 novembre 2019, presente nella [[Wikipedia in inglese\|versione inglese di Wikipedia]]</ref> inserisce l'[[URL]] della copia digitale della fonte presente nell'Internet Archive, con un'anteprima di due pagine per [[contesto (linguistica)\|contestualizzare]] la citazione.<ref name="wired2019">{{cita web \| url = https://www.wired.com/story/internet-archive-wikipedia-more-reliable/# \| titolo = The Internet Archive Is Making Wikipedia More Reliable \| data = 11 marzo 2019 \| urlarchivio = https://archive.is/20191124182836/https://www.wired.com/story/internet-archive-wikipedia-more-reliable/%23 \| dataarchivio = 24 novembre 2019 \| urlmorto = no \| accesso = 24 novembre 2019 }}</ref> Al 2024 è da anni il sito internet più utilizzato per la memorizzazione delle pagine web nel lungo termine. Esso comprende 835 miliardi di pagine web, 44 milioni tra libri e testi e 15 milioni di registrazioni audio.<ref name="Wired.it">{{cita web\|url=https://www.wired.it/article/internet-archive-futuro-processi-copyright-brewster-kahle/\|titolo=Il destino dell'Internet Archive è appeso a un filo\|data=3 novembre 2024}}</ref> Nel settembre 2024 l'Internet Archive ha sottoscritto con [[Google]] un partenariato per rendere visibili su [[Google Search]] le vecchie versioni dei siti indicizzate dalla Wayback Machine.<ref name="Wired.it" /> ==Sedi== Nelle parole dello stesso Kahle, l'internet Archive acquistò come sede "una ex Chiesa cristiana scientista" la cui facciata richiamava il ruolo dell'organizzazione.<ref name="Civiltà dei dati">{="Civiltà dei dati">{{cita pubblicazione\|rivista=Civiltà dei dati\|editore=Fondazione [[Leonardo (azienda) \|Leonardo]] \|titolo=Brewster Kawle e i ricordi del web\|autore=Giuliano Aluffi\|pagine=32-34\|numero=3\|anno=2025\|lingua=it}} Citazione finale: "L'internet Archive, ''Civiltà dei dati' ', tutti noi possiamo creare un' infrastruttura aperta per la prossima generazione" </ref> A san Francisco è fisicamente presente solo il 5% dell'archivio completo. Copie sono custodite anche a [[Richmond]] in [[California]], [[Canada]], [[Amsterdam]] e [[Alessandria d'Egitto]] per il suo valore simbolico.<ref name="Civiltà dei dati" /> == Note == <references /> == Voci correlate == Riga 185 ⟶ 206: * {{Cita news\|pubblicazione=[[Scientific American]]\|autore=Brewster Kahle\|titolo=Archiving the Internet\|data=marzo 1997\|url=https://www.archive.org/sciam_article.html\|urlmorto=sì\|urlarchivio=https://web.archive.org/web/19971011050140/http://www.archive.org/sciam_article.html\|dataarchivio=11 ottobre 1997}} * {{Cita news\|pubblicazione=[[Corriere della Sera]]\|autore=Leonard Berberi\|titolo=L'arca della memoria\|url=http://lettura.corriere.it/l%E2%80%99arca-della-memoria/\|urlmorto=sì\|urlarchivio=https://web.archive.org/web/20140722170604/http://lettura.corriere.it/l%E2%80%99arca-della-memoria/\|dataarchivio=22 luglio 2014}} * {{cita web\|url= https://m.wikihow.com/Use-the-Internet-Archive%27s-Wayback-Machine\|titolo= Guida alla consultazione delle risorse su Internet Archive\|sito= [[~~Wikihow~~WikiHow]]\|lingua= en}} ;Altri Progetti e risorse Riga 192 ⟶ 213: {{cita web\|url=https://perma.cc/\|titolo= Servizio della Harvard Library Innovation Lab\|lingua=en}} {{cita web\|url= https://www.webcitation.org/\|titolo= Servizio di archiviazione di materiale scientifico ed educativo\|lingua= en\|accesso=2 maggio 2019\|dataarchivio=12 novembre 2017\|urlarchivio= https://web.archive.org/web/20171112175235/https://www.webcitation.org/query?url=http%3A%2F%2Fwww.geocities.com%2FWARSAISANDIEGO%2Four_culture.htm&date=2009-10-25+11%3A44%3A57\|urlmorto= sì}} ~~archiviazione di materiale scientifico ed educativo\|lingua=en}}~~ {{cita web\|url= http://www.mementoweb.org\|titolo= NDIIPP statunitense e Content Negotiation\|lingua=en}} (servizio di ricerca avanzata) {{cita web\|url= http://www.pingzic.net/best-wayback-machine-alternatives-in-2016-to-check-history-of-websites/\|lingua= en\|accesso= 13 ~~Maggio~~maggio 2018\|urlarchivio= https://web.archive.org/web/20180513223825/http://www.pingzic.net/best-wayback-machine-alternatives-in-2016-to-check-history-of-websites/\|titolo= 11 Best Wayback Machine Alternatives in 2017 to Check History of Websites\|dataarchivio =13 21maggio ~~Settembre 2017~~2018\|urlmorto= nosì}} == Bibliografia == * {{Cita libro\|autore=Duccio Dogheria\|titolo=Internet Archive. Guida non ufficiale alla più innovativa biblioteca digitale del mondo. Nuova edizione\|data=2024\|url=https://archive.org/details/d.-dogheria-internet-archive.-guida-non-ufficiale-alla-piu-innovativa-biblioteca_202412\|editore=Strade bianche di stampa alternativa\|città=Pitigliano\|lingua=it\|}} {{Controllo di autorità}} {{Piattaforme di distribuzione digitale}} {{Portale\|informatica}}