Lexical Markup Framework: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Botcrux (discussione | contributi)
m Siti web correlati: Bot: fix citazione web (v. discussione)
m apostrofo tipografico
Riga 1:
'''Lexical Markup Framework''' ('''LMF''') è un progetto in corso all’internoall'interno dell’Organizzazionedell'Organizzazione Internazionale per la Standardizzazione (International Organisation for Standardisation - ISO), e più in particolare all’internoall'interno di [[ISO]]/TC37, allo scopo di definire uno standard per la rappresentazione di [[dizionario|dizionari]] elettronici e [[lessico|lessici]] computazionali per il trattamento automatico della lingua (TAL).
Scopo del progetto è la standardizzazione dei principi e dei metodi relativi alle risorse linguistiche nel contesto della comunicazione multilingue e della diversità culturale.
 
==Obiettivi di LMF==
Gli scopi di LMF sono: fornire un modello comune per la creazione e l’usol'uso di risorse lessicali; gestire lo scambio di dati tra queste risorse; consentire la fusione di risorse elettroniche singole per formare una vasta rete a livello globale.
Tipi di singole istanziazioni di LMF possono includere risorse lessicali monolingui, bilingui o multilingui. Le stesse specifiche possono essere usate per lessici di piccole o grandi dimensioni, semplici o complessi, e per rappresentazioni lessicali scritte o parlate. Le descrizioni linguistiche comprendono informazioni [[morfologia (linguistica)|morfologiche]], sintattiche, semantiche e multilingui. Le lingue coperte non si limitano alle lingue europee ma coprono tutte le lingue naturali. La gamma di applicazioni di NLP non è limitata. LMF è in grado di rappresentare la maggior parte dei lessici, inclusi WordNet, EDR e PAROLE.
 
==Storia di LMF==
In passato, la standardizzazione dei lessici è stata studiata e sviluppata da una serie di progetti come GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE e ISLE. Successivamente, le delegazioni nazionali di ISO/TC37 hanno deciso di trattare standards dedicati alla rappresentazione di lessici elettronici e per TAL. Il lavoro su LMF è cominciato nell’estatenell'estate 2003 per mezzo di una nuova proposta di lavoro (New work Item Proposal) avanzata dalla delegazione statunitense. Nell’autunnoNell'autunno 2003, la delegazione francese ha emanato una proposta tecnica per un modello di dati dedicato ai lessici per TAL. All’inizioAll'inizio del 2004, il comitato ISO/TC37 ha deciso di formare un progetto comune ISO con Nicoletta Calzolari (Italia) come convenor e Gil Francopoulo (Francia) e Monte George (US) come editori. Da allora 13 versioni sono state scritte, inviate agli esperti nazionali, commentate e discusse durante varie riunioni tecniche ISO.
 
==Stato attuale==
Riga 17:
0. Le specifiche di basso livello forniscono le costanti standardizzate come metadati.
==Standard usati da LMF==
Le costanti linguistiche come /feminine/ (“femminile”) o /transitive/ (“transitivo”) non sono definite all’internoall'interno di LMF ma sono registrate nel Registro di Data Categories (Data Category Registry, DCR), che viene mantenuto come risorsa globale da ISO/TC37 in conformità con ISO/IEC 11179-3:2003 [1]. Queste costanti sono usate per integrare gli elementi strutturali di alto livello.
La specifica LMF è conforme ai principi di modellazione di UML (Unified Modeling Language), così come definiti da OMG (Object Management Group). La struttura è specificata per mezzo di diagrammi di classi UML. Gli esempi sono presentati da diagrammi di esempi (o oggetti) UML. Una DTD XML è inoltre fornita in un annesso del documento LMF.
 
==Modello strutturale==
LMF è formato dai componenti seguenti:
0. Un pacchetto centrale che rappresenta lo scheletro strutturale che descrive la gerarchia di base dell’informazionedell'informazione in un’entrataun'entrata lessicale.
0. Estensioni del pacchetto centrale, espresse in un sistema che descrive il riutilizzo dei componenti centrali in unione con i componenti aggiuntivi richiesti per una risorsa lessicale specifica.
Le estensioni sono dedicate alla morfologia, dizionari elettronici (MRD), sintassi NLP, semantica NLP, annotazioni multiligui NLP, schemi di paradigma NLP, espressioni polirematiche, e constraint expression patterns.
 
==Un esempio==
Nell’esempioNell'esempio seguente, l’entratal'entrata lessicale è associata ad un lemma (clergyman) e a due forme flesse (clergyman e clergymen). La codifica della lingua è effettuata per l’interal'intera risorsa lessicale. Il valore scelto per descrivere la particolare lingua trattata è fissato per l’interol'intero lessico, come indicato nel seguente diagramma UML.
 
[[Immagine:LMFMorphoClergymanInflected.svg]]