Linguistic Linked Open Data: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
EnzoBot (discussione | contributi)
m Impiego dei LLOD: |date ----> |data
Pil56-bot (discussione | contributi)
m smistamento lavoro sporco e fix vari
Riga 28:
*per la modellazione di annotazioni linguistiche (nei corpora o nell’elaborazione del linguaggio naturale)
**[[Web annotation|Web Annotation]], uno standard W3C per l’annotazione di risorse Web (testuali e non solo) <ref>{{Cita web|titolo=Deliverables of W3C’s Web Annotation Working Group|url=https://w3c.github.io/web-annotation/|accesso=5 giugno 2020|sito=w3c.github.io}}</ref>
**NLP Interchange Format (NIF), uno standard comunitario per l’annotazione grammaticale dei testi<ref>{{Cita pubblicazione|cognome=Hellmann|nome=Sebastian|cognome2=Lehmann|nome2=Jens|cognome3=Auer|nome3=Sören|cognome4=Brümmer|nome4=Martin|data=2013|curatore-cognome=Alani|curatore-nome=Harith|curatore-cognome2=Kagal|curatore-nome2=Lalana|curatore-cognome3=Fokoue|curatore-nome3=Achille|curatore-cognome4=Groth|curatore-nome4=Paul|curatore-cognome5=Biemann|curatore-nome5=Chris|curatore-cognome6=Parreira|curatore-nome6=Josiane Xavier|curatore-cognome7=Aroyo|curatore-nome7=Lora|curatore-cognome8=Noy|curatore-nome8=Natasha|curatore-cognome9=WeltyAlani|curatore-nome9=Chris|titolo=Integrating NLP Using Linked Data|url=https://link.springer.com/chapter/10.1007/978-3-642-41338-4_7|rivista=The Semantic Web – ISWC 2013|serie=Lecture Notes in Computer Science|lingua=en|città=Berlin, Heidelberg|editore=Springer|pp=98–113|doi=10.1007/978-3-642-41338-4_7|isbn=978-3-642-41338-4|doi-access=free}}</ref>
**CoNLL-RDF, un vocabolario basato su NIF per la rappresentazione in RDF dei corpora in format TSV ("CoNLL")<ref>{{Cita pubblicazione|cognome=Chiarcos|nome=Christian|cognome2=Fäth|nome2=Christian|data=2017|curatore-cognome=Gracia|curatore-nome=Jorge|curatore-cognome2=Bond|curatore-nome2=Francis|curatore-cognome3=McCrae|curatore-nome3=John P.|curatore-cognome4=Buitelaar|curatore-nome4=Paul|curatore-cognome5=Chiarcos|curatore-nome5=Christian|curatore-cognome6=Hellmann|curatore-nome6=SebastianGracia|titolo=CoNLL-RDF: Linked Corpora Done in an NLP-Friendly Way|url=https://link.springer.com/chapter/10.1007/978-3-319-59888-8_6|rivista=Language, Data, and Knowledge|serie=Lecture Notes in Computer Science|lingua=en|città=Cham|editore=Springer International Publishing|pp=74–88|doi=10.1007/978-3-319-59888-8_6|isbn=978-3-319-59888-8}}</ref>
**POWLA, un vocabolario per le strutture dei dati linguistici generali che può integrare NIF, CoNLL-RDF o Web Annotation<ref>{{Cita pubblicazione|cognome=Chiarcos|nome=Christian|data=2012|curatore-cognome=Elena Simperl|curatore-nome=Elena|curatore-cognome2=Cimiano|curatore-nome2=Philipp|curatore-cognome3=Polleres|curatore-nome3=Axel|curatore-cognome4=Corcho|curatore-nome4=Oscar|curatore-cognome5=Presutti|curatore-nome5=Valentina|titolo=POWLA: Modeling Linguistic Corpora in OWL/DL|url=https://link.springer.com/chapter/10.1007/978-3-642-30284-8_22|rivista=The Semantic Web: Research and Applications|serie=Lecture Notes in Computer Science|lingua=en|città=Berlin, Heidelberg|editore=Springer|pp=225–239|doi=10.1007/978-3-642-30284-8_22|isbn=978-3-642-30284-8|doi-access=free}}</ref>
 
* per le categorie dei dati linguistici
**[[Ontologies of Linguistic Annotation|Ontologies of Linguistic Annotation (OLiA)]] per le annotazioni linguistiche<ref>{{Cita pubblicazione|cognome=Chiarcos|nome=Christian|cognome2=Sukhareva|nome2=Maria|data=1º gennaio 2015|titolo=OLiA – Ontologies of Linguistic Annotation|url=https://content.iospress.com/articles/semantic-web/sw167|rivista=Semantic Web|lingua=en|volume=6|numero=4|pp=379–386|doi=10.3233/SW-140167|issn=1570-0844}}</ref>
Line 42 ⟶ 41:
**[[Dublin Core]], uno standard comunitario di termini che possono essere utilizzati per descrivere risorse Web
** Data Catalog Vocabulary (DCAT), uno standard W3C per i cataloghi di dati pubblicati sul Web<ref>{{Cita web|titolo=Data Catalog Vocabulary (DCAT) - Version 2|url=https://www.w3.org/TR/vocab-dcat-2/|accesso=5 giugno 2020|sito=www.w3.org|lingua=en}}</ref>
**METASHARE-OWL, vocabolario per I metadata delle risorse linguistiche<ref>{{Cita pubblicazione|cognome=McCrae|nome=John P.|cognome2=Labropoulou|nome2=Penny|cognome3=Gracia|nome3=Jorge|cognome4=Villegas|nome4=Marta|cognome5=Rodríguez-Doncel|nome5=Víctor|cognome6=Cimiano|nome6=Philipp|data=2015|curatore-cognome=Fabien Gandon|curatore-nome=Fabien|curatore-cognome2=Guéret|curatore-nome2=Christophe|curatore-cognome3=Villata|curatore-nome3=Serena|curatore-cognome4=Breslin|curatore-nome4=John|curatore-cognome5=Faron-Zucker|curatore-nome5=Catherine|curatore-cognome6=Zimmermann|curatore-nome6=Antoine|titolo=One Ontology to Bind Them All: The META-SHARE OWL Ontology for the Interoperability of Linguistic Datasets on the Web|url=https://link.springer.com/chapter/10.1007/978-3-319-25639-9_42|rivista=The Semantic Web: ESWC 2015 Satellite Events|serie=Lecture Notes in Computer Science|lingua=en|città=Cham|editore=Springer International Publishing|pp=271–282|doi=10.1007/978-3-319-25639-9_42|isbn=978-3-319-25639-9|doi-access=free}}</ref>
A partire dalla metà del 2020, molti di questi standard comunitari sono diventati oggetto di diverse attività. In particolare, l’esistenza di molteplici standard per le annotazioni linguistiche che risultano incompatibili tra di loro appare problematica. All’inizio del 2020, la W3C Community Group Linked Data for Language Technology ha iniziato a lavorare per consolidare e uniformare questi (e altri) vocabolari per l’annotazione linguistica sul Web.<ref>{{Cita pubblicazione|titolo=ld4lt/linguistic-annotation|data=19 maggio 2020|url=https://github.com/ld4lt/linguistic-annotation|editore=ld4lt|accesso=5 giugno 2020}}</ref>
 
Line 61 ⟶ 60:
== Impiego dei LLOD ==
I Linguistic Linked Open Data sono stati applicati in diverse aree di ricerca scientifica:
In tutte le aree della linguistica empirica, della filologia computazionale e nell’[[elaborazione del linguaggio naturale]], l’annotazione linguistica e l’utilizzo di markup (in italiano marcature) linguistici rappresentano un elemento centrale di analisi. Tuttavia, il progresso in tale campo è stato ostacolato dal problema dell’[[interoperabilità]], soprattutto a causa delle differenze nei vocabolari e negli schemi di annotazione usati per differenti risorse e strumenti. L’uso dei Linked Data per connettere le risorse linguistiche e le banche dati di [[Ontologia_Ontologia (informatica)|ontologie]]/[[terminologia]] facilita il ri-uso di vocabolari condivisi e l’interpretazione degli stessi rispetto ad una base comune.
* Nella [[Corpus#Linguistica_dei_CorporaLinguistica dei Corpora|linguistica dei corpora]] e nella filologia computazionale, la [[Overlapping_markupOverlapping markup|sovrapposizione delle marcature]] rappresenta un problema riconosciuto per i formati [[XML]]. Per questo motivo, modelli di dati basati sui grafi sono stato proposti a partire dalla fine degli anni ’90. <ref>{{Cita web|cognome1=Bird|nome1=Steven|cognome2=Liberman|nome2=Mark|titolo=Towards a formal framework for linguistic annotations|url=http://www.ldc.upenn.edu/sb/home/papers/icslp98.pdf|editore=In: Proceedings of the International Conference on Spoken Language Processing, Sydney, 1998|accesso=25 maggio 2016}}{{Collegamento interrotto|data=Decemberdicembre 2017 |bot=InternetArchiveBot |fix-attempted=yes }}</ref>. Tali modelli sono tradizionalmente rappresentati attraverso molteplici file XML interconnessi (standoff XML),<ref>{{Cita web|cognome1=ISO 24612:2012|titolo=Language resource management -- Linguistic annotation framework (LAF)|url=http://www.iso.org/iso/catalogue_detail.htm?csnumber=37326|editore=ISO|accesso=25 maggio 2016}}</ref> che non sono adeguatamente supportati dalla tecnologia XML standard.<ref>{{Cita libro|cognome1=Eckart|nome1=Richard|titolo=Choosing an XML database for linguistically annotated corpora|data=2008|editore=SDV. Sprache und Datenverarbeitung 32.1/2008: International Journal for Language Data Processing, Workshop Datenbanktechnologien für hypermediale linguistische Anwendungen (KONVENS 2008), Universitätsverlag Rhein-Ruhr, Berlin, Sep 2008|pp=7–22|url=http://cat.inist.fr/?aModele=afficheN&cpsidt=20680853}}</ref> Modellare tali complesse annotazioni come Linked Data rappresenta un formalismo semanticamente equivalente all’utilizzo dell’XML (standoff XML),<ref>{{Cita web|cognome1=Chiarcos|nome1=Christian|titolo=Interoperability of Corpora and Annotations (draft version)|url=http://acoli.cs.uni-frankfurt.de/bibtex/papers/chiarcos2012-ldl-corpora.pdf|editore=In: Christian Chiarcos, Sebastian Nordhoff, and Sebastian Hellmann (eds.) Linked Data in Linguistics. Representing and Connecting Language Data and Language Metadata, 2012|accesso=25 maggio 2016}}</ref> che elimina il bisogno di una tecnologia specifica (special purpose technology) e, invece, si basa sull’esistente ecosistema RDF.
* Problemi relativi al multilinguismo, incluso il collegamento di risorse lessicali come nel caso di [[WordNet]] nell'indice interlinguale della Global WordNet Association e l'interconnessione di risorse eterogenee come WordNet e Wikipedia, come è stato fatto in [[BabelNet]].
* Favorire il dibattito sulla standardizzazione delle informazioni relative alle risorse linguistiche.
Line 102 ⟶ 101:
 
{{Portale|internet|linguistica}}
 
[[Categoria:Dati_aperti]]
[[Categoria:Web_semanticoDati aperti]]
[[Categoria:Elaborazione_del_linguaggio_naturaleWeb semantico]]
[[Categoria:Elaborazione del linguaggio naturale]]
[[Categoria:Linguistica]]