Linguistic Linked Open Data: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
sostituisco template deprecato, + portali |
m Bot: numeri di pagina nei template citazione |
||
(16 versioni intermedie di 12 utenti non mostrate) | |||
Riga 1:
Nell'ambito dell’[[elaborazione del linguaggio naturale]], in [[linguistica]] e campi di ricerca attigui, '''Linguistic Linked Open Data (LLOD)''' descrive sia un metodo che una comunità multidisciplinare che si occupa di creare, condividere e (ri)utilizzare risorse linguistiche sviluppate secondo i principi dei [[
▲Nell'ambito dell’[[elaborazione del linguaggio naturale]], in [[linguistica]] e campi di ricerca attigui, '''Linguistic Linked Open Data (LLOD)''' descrive sia un metodo che una comunità multidisciplinare che si occupa di creare, condividere e (ri)utilizzare risorse linguistiche sviluppate secondo i principi dei [[Linked Data]]. La '''Linguistic Linked Open Data Cloud''', sviluppata e sostenuta dal gruppo di lavoro Open Linguistics Working Group (OWLG) della [[Open Knowledge|Open Knowledge Foundation]] (in italiano Fondazione per la conoscenza aperta), ha rappresentato, sin dalla nascita, il centro focale delle attività di diversi gruppi delle comunità afferenti al [[World Wide Web Consortium|W3C]], di progetti di ricerca e dello sviluppo di infrastrutture.
== Definizione e sviluppo ==
Line 6 ⟶ 5:
Con l’espressione Linguistic Linked Open Data si indica la pubblicazione di dati linguistici e per l'elaborazione del linguaggio naturale secondo i seguenti principi:<ref>{{Cita web|cognome1=Open Linguistics Working Group|titolo=Linguistic LOD|url=http://linguistic-lod.org/|sito=linguistic-lod.org|editore=LIDER project|accesso=24 maggio 2016}}</ref>
* i dati devono essere licenziati in maniera libera, usando licenze come le licenze [[Creative Commons]].
* gli elementi di un dataset devono essere identificati in maniera univoca attraverso un [[Uniform Resource Identifier|URI]].
* l’URI dovrebbe poter essere risolto, così che gli utenti possano accedere ad un numero maggiore di informazioni attraverso un browser web.
* La risoluzione di una risorsa LLOD dovrebbe restituire dei risultati utilizzando il [[Resource Description Framework]] (RDF).
* I [[
I principali benefici derivanti dall’applicazione dei principi LLOD sono stati identificati da:<ref>{{Cita libro|cognome1=Chiarcos|nome1=Christian|cognome2=McCrae|nome2=John|cognome3=Cimiano|nome3=Philipp|cognome4=Fellbaum|nome4=Christiane|titolo=Towards open data for linguistics: Lexical Linked Data|data=2013|editore=In: Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (eds.), New Trends of Research in Ontologies and Lexical Resources. Springer|città=Heidelberg|url=https://www.springer.com/cda/content/document/cda_downloaddocument/9783642317811-c1.pdf|accesso=24 maggio 2016|urlarchivio=https://web.archive.org/web/20160215201050/http://www.springer.com/cda/content/document/cda_downloaddocument/9783642317811-c1.pdf|urlmorto=sì}}</ref>
* Rappresentazione: I grafi connessi sono un formato rappresentativo più flessibile per i dati linguistici.
* Interoperabilità: i modelli RDF comuni e condivisi sono facilmente integrabili.
Line 25 ⟶ 24:
* per la modellazione di risorse lessicali
**[[OntoLex-Lemon]], standard comunitario per risorse lessicali (dizionari in format leggibile dale machine, terminologie multilingui, lessicalizzazione di ontologie)
*per la modellazione di annotazioni linguistiche (nei corpora o nell’elaborazione del linguaggio naturale)
**[[Web annotation|Web Annotation]], uno standard W3C per l’annotazione di risorse Web (testuali e non solo)
**NLP Interchange Format (NIF), uno standard comunitario per l’annotazione grammaticale dei testi<ref>{{Cita pubblicazione|cognome=Hellmann|nome=Sebastian|cognome2=Lehmann|nome2=Jens|cognome3=Auer|nome3=Sören|cognome4=Brümmer|nome4=Martin|data=2013|curatore
**CoNLL-RDF, un vocabolario basato su NIF per la rappresentazione in RDF dei corpora in format TSV ("CoNLL")<ref>{{Cita pubblicazione|cognome=Chiarcos|nome=Christian|cognome2=Fäth|nome2=Christian|data=2017|curatore
**POWLA, un vocabolario per le strutture dei dati linguistici generali che può integrare NIF, CoNLL-RDF o Web Annotation<ref>{{Cita pubblicazione|cognome=Chiarcos|nome=Christian|data=2012|curatore
* per le categorie dei dati linguistici
**[[Ontologies of Linguistic Annotation|Ontologies of Linguistic Annotation (OLiA)]] per le annotazioni linguistiche<ref>{{Cita pubblicazione|cognome=Chiarcos|nome=Christian|cognome2=Sukhareva|nome2=Maria|data=1º gennaio 2015|titolo=OLiA – Ontologies of Linguistic Annotation|url=https://content.iospress.com/articles/semantic-web/sw167|rivista=Semantic Web|lingua=en|volume=6|numero=4|pp=
**lexinfo per gli aspetti grammaticali delle risorse lessicali<ref>{{Cita pubblicazione|cognome=Cimiano|nome=P.|cognome2=Buitelaar|nome2=P.|cognome3=McCrae|nome3=J.|cognome4=Sintek|nome4=M.|data=1º marzo 2011|titolo=LexInfo: A declarative model for the lexicon-ontology interface|url=http://www.sciencedirect.com/science/article/pii/S1570826810000892|rivista=Journal of Web Semantics|lingua=en|volume=9|numero=1|pp=
*per l’identificazione della lingua
**stringhe taggate con la lingua usando i [[IETF language tag|47 tag di lingua IETF BCP 47]]
** URI [[ISO 639-3]] forniti da lexvo.org<ref>{{Cita pubblicazione|cognome=de Melo|nome=Gerard|data=1º gennaio 2015|titolo=Lexvo.org: Language-related information for the Linguistic Linked Data cloud|url=https://content.iospress.com/articles/semantic-web/sw171|rivista=Semantic Web|lingua=en|volume=6|numero=4|pp=
** URI per varietà di lingue non coperte dall’ISO 639 usando [[Glottolog]]
*per i metadata
**[[Dublin Core]], uno standard comunitario di termini che possono essere utilizzati per descrivere risorse Web
** Data Catalog Vocabulary (DCAT), uno standard W3C per i cataloghi di dati pubblicati sul Web<ref>{{Cita web|titolo=Data Catalog Vocabulary (DCAT) - Version 2|url=https://www.w3.org/TR/vocab-dcat-2/|accesso=5 giugno 2020
**METASHARE-OWL, vocabolario per I metadata delle risorse linguistiche<ref>{{Cita pubblicazione|cognome=McCrae|nome=John P.|cognome2=Labropoulou|nome2=Penny|cognome3=Gracia|nome3=Jorge|cognome4=Villegas|nome4=Marta|cognome5=Rodríguez-Doncel|nome5=Víctor|cognome6=Cimiano|nome6=Philipp|data=2015|curatore
A partire dalla metà del 2020, molti di questi standard comunitari sono diventati oggetto di diverse attività. In particolare, l’esistenza di molteplici standard per le annotazioni linguistiche che risultano incompatibili tra di loro appare problematica. All’inizio del 2020, la W3C Community Group Linked Data for Language Technology ha iniziato a lavorare per consolidare e uniformare questi (e altri) vocabolari per l’annotazione linguistica sul Web.<ref>{{Cita pubblicazione|titolo=ld4lt/linguistic-annotation|data=19 maggio 2020|url=https://github.com/ld4lt/linguistic-annotation|editore=ld4lt|accesso=5 giugno 2020}}</ref>
Line 61 ⟶ 59:
== Impiego dei LLOD ==
I Linguistic Linked Open Data sono stati applicati in diverse aree di ricerca scientifica:
In tutte le aree della linguistica empirica, della filologia computazionale e nell’[[elaborazione del linguaggio naturale]], l’annotazione linguistica e l’utilizzo di markup (in italiano marcature) linguistici rappresentano un elemento centrale di analisi. Tuttavia, il progresso in tale campo è stato ostacolato dal problema dell’[[interoperabilità]], soprattutto a causa delle differenze nei vocabolari e negli schemi di annotazione usati per differenti risorse e strumenti. L’uso dei Linked Data per connettere le risorse linguistiche e le banche dati di [[
* Nella [[Corpus#
* Problemi relativi al multilinguismo, incluso il collegamento di risorse lessicali come nel caso di [[WordNet]] nell'indice interlinguale della Global WordNet Association e l'interconnessione di risorse eterogenee come WordNet e Wikipedia, come è stato fatto in [[BabelNet]].
* Favorire il dibattito sulla standardizzazione delle informazioni relative alle risorse linguistiche.
Line 72 ⟶ 70:
=== Progetti di ricerca ===
Usi e sviluppo dei LLOD sono stati oggetto di progetti di ricerca europei su larga scala, inclusi:
* LOD2. Creating Knowledge out of Interlinked Data (11 paesi europei + Korea, 2010–2014)<ref>{{Cita web |titolo=lod2.okfn.org (archived version) |url=http://lod2.okfn.org/ |accesso=9 dicembre 2019 |dataarchivio=7 marzo 2014 |urlarchivio=https://archive.is/20140307183201/http://lod2.okfn.org/ |
* MONNET. Multilingual Ontologies for Networked Knowledge (5 paesi europei, 2010–2013)<ref>{{Cita web|titolo=Multilingual Ontologies for Networked Knowledge (Monnet) |url=https://cordis.europa.eu/project/rcn/93713/factsheet/en?WT.mc_id=RSS-Feed&WT.rss_f=project&WT.rss_a=93713&WT.rss_ev=a |editore=European Commission, CORDIS EU research results |accesso=10 dicembre 2019}}</ref>
* LIDER. Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe (5 paesi europei, 2013–2015)<ref>{{Cita web|titolo=LIDER: Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe |url=https://cordis.europa.eu/project/rcn/111151/factsheet/en |editore=European Commission, CORDIS EU research results |accesso=10 dicembre 2019}}</ref>
* QTLeap. Quality Translation by Deep Language Engineering Approaches (6 paesi europei, 2013–2016)<ref>{{Cita web|titolo=Quality Translation by Deep Language Engineering Approaches |url=https://cordis.europa.eu/project/rcn/110559/en |editore=European Commission, CORDIS EU research results |accesso=10 dicembre 2019}}</ref>
* LiODi. Linked Open Dictionaries (BMBF eHumanities Early Carreer Research Group, Goethe University Frankfurt, Germany, 2015-2020)<ref>{{Cita web |titolo=Linked Open Dictionaries (LiODi) |url=http://www.acoli.informatik.uni-frankfurt.de/liodi.html |accesso=10 dicembre 2019 |dataarchivio=17 gennaio 2020 |urlarchivio=https://web.archive.org/web/20200117111249/http://www.acoli.informatik.uni-frankfurt.de/liodi.html |urlmorto=sì }}</ref>
* FREME. Open Framework of E-Services for Multilingual and Semantic Enrichment of Digital Content (6 paesi europei, 2015-2017)<ref>{{Cita web|titolo=Open Framework of E-Services for Multilingual and Semantic Enrichment of Digital Content |url=https://cordis.europa.eu/project/rcn/194243/factsheet/en |accesso=10 dicembre 2019}}</ref>
* POSTDATA. Poetry Standardization and Linked Open Data (ERC Starting Grant, UNED, Spain, 2016-2021)<ref>{{Cita web|titolo=POSTDATA – Poetry Standardization and Linked Open Data |url=http://postdata.linhd.uned.es/ |accesso=10 dicembre 2019}}</ref>
Line 83 ⟶ 81:
{{Cita web|url=https://cordis.europa.eu/project/rcn/220250/factsheet/en |titolo=Pret-a-LLOD |editore= European Commission, CORDIS EU research results|accesso=10 dicembre 2019}}
</ref>
* NexusLinguarum. European network for Web-centred linguistic data science (COST Action, 35 paesi COST, 2 paesi vicini, un paese partner internazionale, 2019-2023)
=== Risorse ===
A partire da ottobre 2018, le dieci risorse maggiormente connesse nel diagramma LLOD sono (in base
* Ontologies of Linguistic Annotation (OLiA, connesse con 74 dataset) riferimento terminologico per le annotazioni linguistiche e I metadata grammaticali;
* [[WordNet]] (connesso con 51 dataset), database lessicale per l’inglese e fulcro per lo sviluppo di database simili in altre lingue, con diverse versioni (la versione di Princeton connessa con 36 dataset; la versione W3C connessa con 8 dataset; la versione VU connessa con 7 dataset);
* [[DBpedia]] (connessa con 50 dataset) [[base di conoscenza]] multilingue basata su Wikipedia;
* lexinfo.net (connesso con 36 dataset) riferimento terminologico per risorse lessicali;
* [[BabelNet]], realizzato da [[Roberto Navigli]] presso L'[[Università degli Studi di Roma "La Sapienza"]], (connesso con 33 dataset) [[semantic network]] multilingue lessicalizzato, basato sulla aggregazione di risorse diverse ed eterogenee
* lexvo.org (connesso con 26 dataset) fornisce identificativi per le lingue e altri dati relative alle lingue. Soprattutto, lexvo fornisce una rappresentazione RDF dei codici a 3 lettere dell’[[ISO 639-3]] per gli identificativi delle lingue e delle informazioni su queste lingue;
* L’[[ISO 12620]] Data Category Registry (ISOcat; versione RDF, connesso con 10 dataset) fornisce un archivio semi-strutturato per diversa terminologia relativa alle lingue. ISOcat è ospitato da The Language Archive, precisamente dal progetto [[DOBES]], presso il [[Max Planck Institute for Psycholinguistics]], ma attualmente in transizione verso [[CLARIN]];
*
* [[Glottolog]] (connesso con 7 dataset) fornisce identificativi a grana fine di lingue meno diffuse, in particolare quelle non comprese in lexvo.org;
* [[Wiktionary]]-[[DBpedia]] links (''wiktionary.dbpedia.org'', linked with 7 datasets), Wiktionary-based lexicalizations for DBpedia concepts.
Line 102 ⟶ 100:
{{Portale|internet|linguistica}}
[[Categoria:
[[Categoria:
[[Categoria:Elaborazione del linguaggio naturale]]
[[Categoria:Linguistica]]
|