Linguistic Linked Open Data: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
m Risorse: aggiunta paternità di Babelnet (progetto Sapienza)
FrescoBot (discussione | contributi)
m Bot: numeri di pagina nei template citazione
 
(8 versioni intermedie di 6 utenti non mostrate)
Riga 1:
Nell'ambito dell’[[elaborazione del linguaggio naturale]], in [[linguistica]] e campi di ricerca attigui, '''Linguistic Linked Open Data (LLOD)''' descrive sia un metodo che una comunità multidisciplinare che si occupa di creare, condividere e (ri)utilizzare risorse linguistiche sviluppate secondo i principi dei [[Linkeddati Datacollegati]] (''linked data''). La '''Linguistic Linked Open Data Cloud''', sviluppata e sostenuta dal gruppo di lavoro Open Linguistics Working Group (OWLG) della [[Open Knowledge|Open Knowledge Foundation]] (in italiano Fondazione per la conoscenza aperta), ha rappresentato, sin dalla nascita, il centro focale delle attività di diversi gruppi delle comunità afferenti al [[World Wide Web Consortium|W3C]], di progetti di ricerca e dello sviluppo di infrastrutture.
{{O|linguistica|settembre 2020}}
Nell'ambito dell’[[elaborazione del linguaggio naturale]], in [[linguistica]] e campi di ricerca attigui, '''Linguistic Linked Open Data (LLOD)''' descrive sia un metodo che una comunità multidisciplinare che si occupa di creare, condividere e (ri)utilizzare risorse linguistiche sviluppate secondo i principi dei [[Linked Data]]. La '''Linguistic Linked Open Data Cloud''', sviluppata e sostenuta dal gruppo di lavoro Open Linguistics Working Group (OWLG) della [[Open Knowledge|Open Knowledge Foundation]] (in italiano Fondazione per la conoscenza aperta), ha rappresentato, sin dalla nascita, il centro focale delle attività di diversi gruppi delle comunità afferenti al [[World Wide Web Consortium|W3C]], di progetti di ricerca e dello sviluppo di infrastrutture.
 
== Definizione e sviluppo ==
Line 9 ⟶ 8:
* l’URI dovrebbe poter essere risolto, così che gli utenti possano accedere ad un numero maggiore di informazioni attraverso un browser web.
* La risoluzione di una risorsa LLOD dovrebbe restituire dei risultati utilizzando il [[Resource Description Framework]] (RDF).
* I [[HyperlinkCollegamento ipertestuale|Linkscollegamenti]] (''link'') ad altre risorse devono essere inclusi per aiutare gli utenti a scoprire nuove risorse e fornire informazioni semantiche.
I principali benefici derivanti dall’applicazione dei principi LLOD sono stati identificati da:<ref>{{Cita libro|cognome1=Chiarcos|nome1=Christian|cognome2=McCrae|nome2=John|cognome3=Cimiano|nome3=Philipp|cognome4=Fellbaum|nome4=Christiane|titolo=Towards open data for linguistics: Lexical Linked Data|data=2013|editore=In: Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (eds.), New Trends of Research in Ontologies and Lexical Resources. Springer|città=Heidelberg|url=https://www.springer.com/cda/content/document/cda_downloaddocument/9783642317811-c1.pdf|accesso=24 maggio 2016|dataarchivio=15 febbraio 2016|urlarchivio=https://web.archive.org/web/20160215201050/http://www.springer.com/cda/content/document/cda_downloaddocument/9783642317811-c1.pdf|urlmorto=sì}}</ref>
* Rappresentazione: I grafi connessi sono un formato rappresentativo più flessibile per i dati linguistici.
* Interoperabilità: i modelli RDF comuni e condivisi sono facilmente integrabili.
Line 25 ⟶ 24:
 
* per la modellazione di risorse lessicali
**[[OntoLex-Lemon]], standard comunitario per risorse lessicali (dizionari in format leggibile dale machine, terminologie multilingui, lessicalizzazione di ontologie) <ref>{{Cita web|titolo=Lexicon Model for Ontologies: Community Report, 10 May 2016|url=https://www.w3.org/2016/05/ontolex/Overview.html|accesso=5 giugno 2020|sito=www.w3.org}}</ref>
*per la modellazione di annotazioni linguistiche (nei corpora o nell’elaborazione del linguaggio naturale)
**[[Web annotation|Web Annotation]], uno standard W3C per l’annotazione di risorse Web (testuali e non solo) <ref>{{Cita web|titolo=Deliverables of W3C’s Web Annotation Working Group|url=https://w3c.github.io/web-annotation/|accesso=5 giugno 2020|sito=w3c.github.io}}</ref>
**NLP Interchange Format (NIF), uno standard comunitario per l’annotazione grammaticale dei testi<ref>{{Cita pubblicazione|cognome=Hellmann|nome=Sebastian|cognome2=Lehmann|nome2=Jens|cognome3=Auer|nome3=Sören|cognome4=Brümmer|nome4=Martin|data=2013|curatore=Harith Alani|curatore-nome9=Chris|titolo=Integrating NLP Using Linked Data|url=https://link.springer.com/chapter/10.1007/978-3-642-41338-4_7|rivista=The Semantic Web – ISWC 2013|serie=Lecture Notes in Computer Science|lingua=en|città=Berlin, Heidelberg|editore=Springer|pp=98–11398-113|doi=10.1007/978-3-642-41338-4_7|isbn=978-3-642-41338-4}}</ref>
**CoNLL-RDF, un vocabolario basato su NIF per la rappresentazione in RDF dei corpora in format TSV ("CoNLL")<ref>{{Cita pubblicazione|cognome=Chiarcos|nome=Christian|cognome2=Fäth|nome2=Christian|data=2017|curatore=Jorge Gracia|titolo=CoNLL-RDF: Linked Corpora Done in an NLP-Friendly Way|url=https://link.springer.com/chapter/10.1007/978-3-319-59888-8_6|rivista=Language, Data, and Knowledge|serie=Lecture Notes in Computer Science|lingua=en|città=Cham|editore=Springer International Publishing|pp=74–8874-88|doi=10.1007/978-3-319-59888-8_6|isbn=978-3-319-59888-8}}</ref>
**POWLA, un vocabolario per le strutture dei dati linguistici generali che può integrare NIF, CoNLL-RDF o Web Annotation<ref>{{Cita pubblicazione|cognome=Chiarcos|nome=Christian|data=2012|curatore=Elena Simperl|titolo=POWLA: Modeling Linguistic Corpora in OWL/DL|url=https://link.springer.com/chapter/10.1007/978-3-642-30284-8_22|rivista=The Semantic Web: Research and Applications|serie=Lecture Notes in Computer Science|lingua=en|città=Berlin, Heidelberg|editore=Springer|pp=225–239225-239|doi=10.1007/978-3-642-30284-8_22|isbn=978-3-642-30284-8}}</ref>
* per le categorie dei dati linguistici
**[[Ontologies of Linguistic Annotation|Ontologies of Linguistic Annotation (OLiA)]] per le annotazioni linguistiche<ref>{{Cita pubblicazione|cognome=Chiarcos|nome=Christian|cognome2=Sukhareva|nome2=Maria|data=1º gennaio 2015|titolo=OLiA – Ontologies of Linguistic Annotation|url=https://content.iospress.com/articles/semantic-web/sw167|rivista=Semantic Web|lingua=en|volume=6|numero=4|pp=379–386379-386|doi=10.3233/SW-140167|issn=1570-0844}}</ref>
**lexinfo per gli aspetti grammaticali delle risorse lessicali<ref>{{Cita pubblicazione|cognome=Cimiano|nome=P.|cognome2=Buitelaar|nome2=P.|cognome3=McCrae|nome3=J.|cognome4=Sintek|nome4=M.|data=1º marzo 2011|titolo=LexInfo: A declarative model for the lexicon-ontology interface|url=http://www.sciencedirect.com/science/article/pii/S1570826810000892|rivista=Journal of Web Semantics|lingua=en|volume=9|numero=1|pp=29–5129-51|doi=10.1016/j.websem.2010.11.001|issn=1570-8268}}</ref>
*per l’identificazione della lingua
**stringhe taggate con la lingua usando i [[IETF language tag|47 tag di lingua IETF BCP 47]]
** URI [[ISO 639-3]] forniti da lexvo.org<ref>{{Cita pubblicazione|cognome=de Melo|nome=Gerard|data=1º gennaio 2015|titolo=Lexvo.org: Language-related information for&nbsp;the Linguistic Linked Data cloud|url=https://content.iospress.com/articles/semantic-web/sw171|rivista=Semantic Web|lingua=en|volume=6|numero=4|pp=393–400393-400|doi=10.3233/SW-150171|issn=1570-0844}}</ref>
** URI per varietà di lingue non coperte dall’ISO 639 usando [[Glottolog]]
*per i metadata
**[[Dublin Core]], uno standard comunitario di termini che possono essere utilizzati per descrivere risorse Web
** Data Catalog Vocabulary (DCAT), uno standard W3C per i cataloghi di dati pubblicati sul Web<ref>{{Cita web|titolo=Data Catalog Vocabulary (DCAT) - Version 2|url=https://www.w3.org/TR/vocab-dcat-2/|accesso=5 giugno 2020|sito=www.w3.org|lingua=en}}</ref>
**METASHARE-OWL, vocabolario per I metadata delle risorse linguistiche<ref>{{Cita pubblicazione|cognome=McCrae|nome=John P.|cognome2=Labropoulou|nome2=Penny|cognome3=Gracia|nome3=Jorge|cognome4=Villegas|nome4=Marta|cognome5=Rodríguez-Doncel|nome5=Víctor|cognome6=Cimiano|nome6=Philipp|data=2015|curatore=Fabien Gandon|titolo=One Ontology to Bind Them All: The META-SHARE OWL Ontology for the Interoperability of Linguistic Datasets on the Web|url=https://link.springer.com/chapter/10.1007/978-3-319-25639-9_42|rivista=The Semantic Web: ESWC 2015 Satellite Events|serie=Lecture Notes in Computer Science|lingua=en|città=Cham|editore=Springer International Publishing|pp=271–282271-282|doi=10.1007/978-3-319-25639-9_42|isbn=978-3-319-25639-9}}</ref>
A partire dalla metà del 2020, molti di questi standard comunitari sono diventati oggetto di diverse attività. In particolare, l’esistenza di molteplici standard per le annotazioni linguistiche che risultano incompatibili tra di loro appare problematica. All’inizio del 2020, la W3C Community Group Linked Data for Language Technology ha iniziato a lavorare per consolidare e uniformare questi (e altri) vocabolari per l’annotazione linguistica sul Web.<ref>{{Cita pubblicazione|titolo=ld4lt/linguistic-annotation|data=19 maggio 2020|url=https://github.com/ld4lt/linguistic-annotation|editore=ld4lt|accesso=5 giugno 2020}}</ref>
 
Line 61 ⟶ 60:
I Linguistic Linked Open Data sono stati applicati in diverse aree di ricerca scientifica:
In tutte le aree della linguistica empirica, della filologia computazionale e nell’[[elaborazione del linguaggio naturale]], l’annotazione linguistica e l’utilizzo di markup (in italiano marcature) linguistici rappresentano un elemento centrale di analisi. Tuttavia, il progresso in tale campo è stato ostacolato dal problema dell’[[interoperabilità]], soprattutto a causa delle differenze nei vocabolari e negli schemi di annotazione usati per differenti risorse e strumenti. L’uso dei Linked Data per connettere le risorse linguistiche e le banche dati di [[Ontologia (informatica)|ontologie]]/[[terminologia]] facilita il ri-uso di vocabolari condivisi e l’interpretazione degli stessi rispetto ad una base comune.
* Nella [[Corpus#Linguistica dei Corpora|linguistica dei corpora]] e nella filologia computazionale, la [[Overlapping markup|sovrapposizione delle marcature]] rappresenta un problema riconosciuto per i formati [[XML]]. Per questo motivo, modelli di dati basati sui grafi sono stato proposti a partire dalla fine degli anni ’90.<ref>{{Cita web|cognome1=Bird|nome1=Steven|cognome2=Liberman|nome2=Mark|titolo=Towards a formal framework for linguistic annotations|url=http://www.ldc.upenn.edu/sb/home/papers/icslp98.pdf|editore=In: Proceedings of the International Conference on Spoken Language Processing, Sydney, 1998|accesso=25 maggio 2016}}{{Collegamento interrotto|data=dicembre 2017 |bot=InternetArchiveBot |fix-attempted=yes }}</ref> Tali modelli sono tradizionalmente rappresentati attraverso molteplici file XML interconnessi (standoff XML),<ref>{{Cita web|cognome1=ISO 24612:2012|titolo=Language resource management -- Linguistic annotation framework (LAF)|url=http://www.iso.org/iso/catalogue_detail.htm?csnumber=37326|editore=ISO|accesso=25 maggio 2016}}</ref> che non sono adeguatamente supportati dalla tecnologia XML standard.<ref>{{Cita libro|cognome1=Eckart|nome1=Richard|titolo=Choosing an XML database for linguistically annotated corpora|data=2008|editore=SDV. Sprache und Datenverarbeitung 32.1/2008: International Journal for Language Data Processing, Workshop Datenbanktechnologien für hypermediale linguistische Anwendungen (KONVENS 2008), Universitätsverlag Rhein-Ruhr, Berlin, Sep 2008|pp=7–227-22|url=http://cat.inist.fr/?aModele=afficheN&cpsidt=20680853}}</ref> Modellare tali complesse annotazioni come Linked Data rappresenta un formalismo semanticamente equivalente all’utilizzo dell’XML (standoff XML),<ref>{{Cita web|cognome1=Chiarcos|nome1=Christian|titolo=Interoperability of Corpora and Annotations (draft version)|url=http://acoli.cs.uni-frankfurt.de/bibtex/papers/chiarcos2012-ldl-corpora.pdf|editore=In: Christian Chiarcos, Sebastian Nordhoff, and Sebastian Hellmann (eds.) Linked Data in Linguistics. Representing and Connecting Language Data and Language Metadata, 2012|accesso=25 maggio 2016|dataarchivio=10 maggio 2017|urlarchivio=https://web.archive.org/web/20170510064852/http://acoli.cs.uni-frankfurt.de/bibtex/papers/chiarcos2012-ldl-corpora.pdf|urlmorto=sì}}</ref> che elimina il bisogno di una tecnologia specifica (special purpose technology) e, invece, si basa sull’esistente ecosistema RDF.
* Problemi relativi al multilinguismo, incluso il collegamento di risorse lessicali come nel caso di [[WordNet]] nell'indice interlinguale della Global WordNet Association e l'interconnessione di risorse eterogenee come WordNet e Wikipedia, come è stato fatto in [[BabelNet]].
* Favorire il dibattito sulla standardizzazione delle informazioni relative alle risorse linguistiche.
Line 71 ⟶ 70:
=== Progetti di ricerca ===
Usi e sviluppo dei LLOD sono stati oggetto di progetti di ricerca europei su larga scala, inclusi:
* LOD2. Creating Knowledge out of Interlinked Data (11 paesi europei + Korea, 2010–2014)<ref>{{Cita web |titolo=lod2.okfn.org (archived version) |url=http://lod2.okfn.org/ |accesso=9 dicembre 2019 |dataarchivio=7 marzo 2014 |urlarchivio=https://archive.is/20140307183201/http://lod2.okfn.org/ |accessourlmorto=9 dicembre 2019}}</ref>
* MONNET. Multilingual Ontologies for Networked Knowledge (5 paesi europei, 2010–2013)<ref>{{Cita web|titolo=Multilingual Ontologies for Networked Knowledge (Monnet) |url=https://cordis.europa.eu/project/rcn/93713/factsheet/en?WT.mc_id=RSS-Feed&WT.rss_f=project&WT.rss_a=93713&WT.rss_ev=a |editore=European Commission, CORDIS EU research results |accesso=10 dicembre 2019}}</ref>
* LIDER. Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe (5 paesi europei, 2013–2015)<ref>{{Cita web|titolo=LIDER: Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe |url=https://cordis.europa.eu/project/rcn/111151/factsheet/en |editore=European Commission, CORDIS EU research results |accesso=10 dicembre 2019}}</ref>
Line 85 ⟶ 84:
 
=== Risorse ===
A partire da ottobre 2018, le dieci risorse maggiormente connesse nel diagramma LLOD sono (in base delal numero di dataset connessi):
* Ontologies of Linguistic Annotation (OLiA, connesse con 74 dataset) riferimento terminologico per le annotazioni linguistiche e I metadata grammaticali;
* [[WordNet]] (connesso con 51 dataset), database lessicale per l’inglese e fulcro per lo sviluppo di database simili in altre lingue, con diverse versioni (la versione di Princeton connessa con 36 dataset; la versione W3C connessa con 8 dataset; la versione VU connessa con 7 dataset);
* [[DBpedia]] (connessa con 50 dataset) [[base di conoscenza]] multilingue basata su Wikipedia;
* lexinfo.net (connesso con 36 dataset) riferimento terminologico per risorse lessicali;
* [[BabelNet]], realizzato da [[Roberto Navigli]] presso L'[[Università degli Studi di Roma "La Sapienza"]], (connesso con 33 dataset) [[semantic network]] multilingue lessicalizzato, basato sulla aggregazione di risorse diverse ed eterogenee risorse, tra cui WordNet e Wikipedia;
* lexvo.org (connesso con 26 dataset) fornisce identificativi per le lingue e altri dati relative alle lingue. Soprattutto, lexvo fornisce una rappresentazione RDF dei codici a 3 lettere dell’[[ISO 639-3]] per gli identificativi delle lingue e delle informazioni su queste lingue;
* L’[[ISO 12620]] Data Category Registry (ISOcat; versione RDF, connesso con 10 dataset) fornisce un archivio semi-strutturato per diversa terminologia relativa alle lingue. ISOcat è ospitato da The Language Archive, precisamente dal progetto [[DOBES]], presso il [[Max Planck Institute for Psycholinguistics]], ma attualmente in transizione verso [[CLARIN]];