Lexical Markup Framework: differenze tra le versioni

Naviga nella cronologia in modo interattivo

← Differenza precedente

Contenuto cancellato Contenuto aggiunto

VisualeWikitesto

Versione delle 00:02, 1 giu 2011 modifica DnaX (discussione \| contributi) Utenti autoverificati 17 964 modifiche + tmp Standard ISO ← Differenza precedente		Versione attuale delle 18:42, 29 gen 2025 modifica annulla Paolomacina (discussione \| contributi) 4 001 modifiche mNessun oggetto della modifica
(12 versioni intermedie di 9 utenti non mostrate)
Riga 1: '''Lexical Markup Framework''' ('''LMF''') è ~~il nome di~~ un progetto in corso ~~all’interno~~all'interno ~~dell’Organizzazione~~dell'Organizzazione Internazionale per la Standardizzazione (International Organisation for Standardisation - ISO), e più in particolare ~~all’interno~~all'interno di [[ISO]]/TC37, allo scopo di definire uno standard per la rappresentazione di [[dizionario\|dizionari]] elettronici e [[lessico\|lessici]] computazionali per il trattamento automatico della lingua (TAL). Scopo del progetto è la standardizzazione dei principi e dei metodi relativi alle risorse linguistiche nel contesto della comunicazione multilingue e della [[diversità culturale]]. ==Obiettivi di LMF== Gli scopi di LMF sono: fornire un modello comune per la creazione e ~~l’uso~~l'uso di risorse lessicali; gestire lo scambio di dati tra queste risorse; consentire la fusione di risorse elettroniche singole per formare una vasta rete a livello globale. Tipi di singole istanziazioni di LMF possono includere risorse lessicali monolingui, bilingui o multilingui. Le stesse specifiche possono essere usate per lessici di piccole o grandi dimensioni, semplici o complessi, e per rappresentazioni lessicali scritte o parlate. Le descrizioni linguistiche comprendono informazioni [[morfologia (linguistica)\|morfologiche]], sintattiche, semantiche e multilingui. Le lingue coperte non si limitano alle lingue europee ma coprono tutte le lingue naturali. La gamma di applicazioni di NLP non è limitata. LMF è in grado di rappresentare la maggior parte dei lessici, inclusi WordNet, EDR e PAROLE. ==Storia di LMF== In passato, la standardizzazione dei lessici è stata studiata e sviluppata da una serie di progetti come GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE e ISLE. Successivamente, le delegazioni nazionali di ISO/TC37 hanno deciso di trattare standards dedicati alla rappresentazione di lessici elettronici e per TAL. Il lavoro su LMF è cominciato ~~nell’estate~~nell'estate 2003 per mezzo di una nuova proposta di lavoro (New work Item Proposal) avanzata dalla delegazione statunitense. ~~Nell’autunno~~Nell'autunno 2003, la delegazione francese ha emanato una proposta tecnica per un modello di dati dedicato ai lessici per TAL. ~~All’inizio~~All'inizio del 2004, il comitato ISO/TC37 ha deciso di formare un progetto comune ISO con Nicoletta Calzolari (Italia) come convenor e Gil Francopoulo (Francia) e Monte George (US) come editori. Da allora 13 versioni sono state scritte, inviate agli esperti nazionali, commentate e discusse durante varie riunioni tecniche ISO. ==Stato attuale== Il numero ISO è 24613. La specifica di LMF è attualmente (Dicembre 2007) allo stato di DIS (Draft for International Standard). Il programma prevede di raggiungere lo stadio di FDIS (Final Draft for International Standard) in ~~Febbraio~~febbraio 2008 e la pubblicazione finale in ~~Settembre~~settembre 2008. LMF e gli altri membri della famiglia di standard ISO/TC37 Gli standard ISO/TC37 sono attualmente elaborati come specifiche di alto livello e trattano la segmentazione delle parole (ISO 24614), annotazioni (ISO 24611 o MAF, ISO 24612 o LAF, ISO 24615 o SynAF, e ISO 24617-1 o SemAF/Time), feature structures (ISO 24610), contenitori multimediali (ISO 24616 o MLIF), and lessici (ISO 24613). Questi standard sono basati su specifiche di basso livello dedicate a costanti, ovvero data categories (revisione di ISO 12620), codici linguistici (ISO 639), scripts codes (ISO 15924), country codes (ISO 3166) e [[Unicode]] (ISO 10646). Questa organizzazione a due livelli costituisce una famiglia coerente di standard con regole comuni e semplici: 0. La specifica di alto livello fornisce gli elementi strutturali che sono integrati dalle costanti standardizzate; 0. Le specifiche di basso livello forniscono le costanti standardizzate come metadati. ==Standard usati da LMF== Le costanti linguistiche come /feminine/ (“femminile”) o /transitive/ (“transitivo”) non sono definite ~~all’interno~~all'interno di LMF ma sono registrate nel Registro di Data Categories (Data Category Registry, DCR), che viene mantenuto come risorsa globale da ISO/TC37 in conformità con ISO/IEC 11179-3:2003 [1]. Queste costanti sono usate per integrare gli elementi strutturali di alto livello. La specifica LMF è conforme ai principi di modellazione di UML ([[Unified Modeling Language]]), così come definiti da OMG ([[Object Management Group]]). La struttura è specificata per mezzo di diagrammi di classi UML. Gli esempi sono presentati da diagrammi di esempi (o oggetti) UML. Una DTD XML è inoltre fornita in un annesso del documento LMF. ==Modello strutturale== LMF è formato dai componenti seguenti: 0. Un pacchetto centrale che rappresenta lo scheletro strutturale che descrive la gerarchia di base ~~dell’informazione~~dell'informazione in ~~un’entrata~~un'entrata lessicale. 0. Estensioni del pacchetto centrale, espresse in un sistema che descrive il riutilizzo dei componenti centrali in unione con i componenti aggiuntivi richiesti per una risorsa lessicale specifica. Le estensioni sono dedicate alla morfologia, dizionari elettronici (MRD), sintassi NLP, semantica NLP, annotazioni multiligui NLP, schemi di paradigma NLP, espressioni polirematiche, e constraint expression patterns. ==Un esempio== ~~Nell’esempio~~Nell'esempio seguente, ~~l’entrata~~l'entrata lessicale è associata ad un lemma (clergyman) e a due forme flesse (clergyman e clergymen). La codifica della lingua è effettuata per ~~l’intera~~l'intera risorsa lessicale. Il valore scelto per descrivere la particolare lingua trattata è fissato per ~~l’intero~~l'intero lessico, come indicato nel seguente diagramma UML. [[Immagine:LMFMorphoClergymanInflected.svg]] Riga 35 ⟶ 36: Con alcune informazioni aggiuntive come dtdVersion e feat, gli stessi dati possono essere espressi dal seguente frammento XML: <~~source~~syntaxhighlight lang="xml"> <LexicalResource dtdVersion="14"> <GlobalInformation> Riga 58 ⟶ 59: </Lexicon> </LexicalResource> </syntaxhighlight> ~~</source>~~ Nonostante questo esempio sia piuttosto semplice, LMF può rappresentare descrizioni linguistiche molto più complesse; in tal caso, la rappresentazione XML cresce in complessità. Riga 64 ⟶ 65: ==Collegamenti esterni== ===Siti web correlati=== [{{cita web \| 1 = http://www.lexicalmarkupframework.org/ \| 2 = Sito web di LMF] \| accesso = 23 gennaio 2008 \| urlarchivio = https://web.archive.org/web/20170715122452/http://www.lexicalmarkupframework.org/ \| dataarchivio = 15 luglio 2017 \| urlmorto = sì }} [{{cita web\|http://lirics.loria.fr/ \|Sito web di LIRICS]}} ===Comunicazioni scientifiche ~~recenti~~ su LMF=== Gesellschaft für linguistische Datenverarbeitung GLDV-2007/Tubingen: Lexical Markup Framework ISO standard for semantic information in NLP lexicons [2] Language Resources and Evaluation LREC-2006/Genoa: Lexical Markup Framework (LMF) [3] Riga 75 ⟶ 76: [[Categoria:XML]] [[Categoria:Standard informatici basati su XML]] [[Categoria:Standard ISO]] ~~[[en:Lexical Markup Framework]]~~ ~~[[es:Lexical Markup Framework]]~~ ~~[[fr:Lexical markup framework]]~~ ~~[[ko:어휘 마크업 틀]]~~ ~~[[th:Lexical Markup Framework]]~~ ~~[[zh:詞彙標示框架]]~~