Lexical Markup Framework: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
+ tmp Standard ISO
Paolomacina (discussione | contributi)
mNessun oggetto della modifica
 
(12 versioni intermedie di 9 utenti non mostrate)
Riga 1:
'''Lexical Markup Framework''' ('''LMF''') è il nome di un progetto in corso all’internoall'interno dell’Organizzazionedell'Organizzazione Internazionale per la Standardizzazione (International Organisation for Standardisation - ISO), e più in particolare all’internoall'interno di [[ISO]]/TC37, allo scopo di definire uno standard per la rappresentazione di [[dizionario|dizionari]] elettronici e [[lessico|lessici]] computazionali per il trattamento automatico della lingua (TAL).
Scopo del progetto è la standardizzazione dei principi e dei metodi relativi alle risorse linguistiche nel contesto della comunicazione multilingue e della [[diversità culturale]].
 
==Obiettivi di LMF==
Gli scopi di LMF sono: fornire un modello comune per la creazione e l’usol'uso di risorse lessicali; gestire lo scambio di dati tra queste risorse; consentire la fusione di risorse elettroniche singole per formare una vasta rete a livello globale.
Tipi di singole istanziazioni di LMF possono includere risorse lessicali monolingui, bilingui o multilingui. Le stesse specifiche possono essere usate per lessici di piccole o grandi dimensioni, semplici o complessi, e per rappresentazioni lessicali scritte o parlate. Le descrizioni linguistiche comprendono informazioni [[morfologia (linguistica)|morfologiche]], sintattiche, semantiche e multilingui. Le lingue coperte non si limitano alle lingue europee ma coprono tutte le lingue naturali. La gamma di applicazioni di NLP non è limitata. LMF è in grado di rappresentare la maggior parte dei lessici, inclusi WordNet, EDR e PAROLE.
 
==Storia di LMF==
In passato, la standardizzazione dei lessici è stata studiata e sviluppata da una serie di progetti come GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE e ISLE. Successivamente, le delegazioni nazionali di ISO/TC37 hanno deciso di trattare standards dedicati alla rappresentazione di lessici elettronici e per TAL. Il lavoro su LMF è cominciato nell’estatenell'estate 2003 per mezzo di una nuova proposta di lavoro (New work Item Proposal) avanzata dalla delegazione statunitense. Nell’autunnoNell'autunno 2003, la delegazione francese ha emanato una proposta tecnica per un modello di dati dedicato ai lessici per TAL. All’inizioAll'inizio del 2004, il comitato ISO/TC37 ha deciso di formare un progetto comune ISO con Nicoletta Calzolari (Italia) come convenor e Gil Francopoulo (Francia) e Monte George (US) come editori. Da allora 13 versioni sono state scritte, inviate agli esperti nazionali, commentate e discusse durante varie riunioni tecniche ISO.
 
==Stato attuale==
Il numero ISO è 24613. La specifica di LMF è attualmente (Dicembre 2007) allo stato di DIS (Draft for International Standard). Il programma prevede di raggiungere lo stadio di FDIS (Final Draft for International Standard) in Febbraiofebbraio 2008 e la pubblicazione finale in Settembresettembre 2008.
LMF e gli altri membri della famiglia di standard ISO/TC37
Gli standard ISO/TC37 sono attualmente elaborati come specifiche di alto livello e trattano la segmentazione delle parole (ISO 24614), annotazioni (ISO 24611 o MAF, ISO 24612 o LAF, ISO 24615 o SynAF, e ISO 24617-1 o SemAF/Time), feature structures (ISO 24610), contenitori multimediali (ISO 24616 o MLIF), and lessici (ISO 24613). Questi standard sono basati su specifiche di basso livello dedicate a costanti, ovvero data categories (revisione di ISO 12620), codici linguistici (ISO 639), scripts codes (ISO 15924), country codes (ISO 3166) e [[Unicode]] (ISO 10646).
Questa organizzazione a due livelli costituisce una famiglia coerente di standard con regole comuni e semplici:
0. La specifica di alto livello fornisce gli elementi strutturali che sono integrati dalle costanti standardizzate;
0. Le specifiche di basso livello forniscono le costanti standardizzate come metadati.
 
==Standard usati da LMF==
Le costanti linguistiche come /feminine/ (“femminile”) o /transitive/ (“transitivo”) non sono definite all’internoall'interno di LMF ma sono registrate nel Registro di Data Categories (Data Category Registry, DCR), che viene mantenuto come risorsa globale da ISO/TC37 in conformità con ISO/IEC 11179-3:2003 [1]. Queste costanti sono usate per integrare gli elementi strutturali di alto livello.
La specifica LMF è conforme ai principi di modellazione di UML ([[Unified Modeling Language]]), così come definiti da OMG ([[Object Management Group]]). La struttura è specificata per mezzo di diagrammi di classi UML. Gli esempi sono presentati da diagrammi di esempi (o oggetti) UML. Una DTD XML è inoltre fornita in un annesso del documento LMF.
 
==Modello strutturale==
LMF è formato dai componenti seguenti:
0. Un pacchetto centrale che rappresenta lo scheletro strutturale che descrive la gerarchia di base dell’informazionedell'informazione in un’entrataun'entrata lessicale.
0. Estensioni del pacchetto centrale, espresse in un sistema che descrive il riutilizzo dei componenti centrali in unione con i componenti aggiuntivi richiesti per una risorsa lessicale specifica.
Le estensioni sono dedicate alla morfologia, dizionari elettronici (MRD), sintassi NLP, semantica NLP, annotazioni multiligui NLP, schemi di paradigma NLP, espressioni polirematiche, e constraint expression patterns.
 
==Un esempio==
Nell’esempioNell'esempio seguente, l’entratal'entrata lessicale è associata ad un lemma (clergyman) e a due forme flesse (clergyman e clergymen). La codifica della lingua è effettuata per l’interal'intera risorsa lessicale. Il valore scelto per descrivere la particolare lingua trattata è fissato per l’interol'intero lessico, come indicato nel seguente diagramma UML.
 
[[Immagine:LMFMorphoClergymanInflected.svg]]
Riga 35 ⟶ 36:
Con alcune informazioni aggiuntive come dtdVersion e feat, gli stessi dati possono essere espressi dal seguente frammento XML:
 
<sourcesyntaxhighlight lang="xml">
<LexicalResource dtdVersion="14">
<GlobalInformation>
Riga 58 ⟶ 59:
</Lexicon>
</LexicalResource>
</syntaxhighlight>
</source>
 
Nonostante questo esempio sia piuttosto semplice, LMF può rappresentare descrizioni linguistiche molto più complesse; in tal caso, la rappresentazione XML cresce in complessità.
Riga 64 ⟶ 65:
==Collegamenti esterni==
===Siti web correlati===
*[{{cita web | 1 = http://www.lexicalmarkupframework.org/ | 2 = Sito web di LMF] | accesso = 23 gennaio 2008 | urlarchivio = https://web.archive.org/web/20170715122452/http://www.lexicalmarkupframework.org/ | dataarchivio = 15 luglio 2017 | urlmorto = sì }}
*[{{cita web|http://lirics.loria.fr/ |Sito web di LIRICS]}}
===Comunicazioni scientifiche recenti su LMF===
*Gesellschaft für linguistische Datenverarbeitung GLDV-2007/Tubingen: Lexical Markup Framework ISO standard for semantic information in NLP lexicons [2]
*Language Resources and Evaluation LREC-2006/Genoa: Lexical Markup Framework (LMF) [3]
Riga 75 ⟶ 76:
 
[[Categoria:XML]]
[[Categoria:Standard informatici basati su XML]]
[[Categoria:Standard ISO]]
 
[[en:Lexical Markup Framework]]
[[es:Lexical Markup Framework]]
[[fr:Lexical markup framework]]
[[ko:어휘 마크업 틀]]
[[th:Lexical Markup Framework]]
[[zh:詞彙標示框架]]