Apache OpenNLP: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Terramargia (discussione | contributi)
mNessun oggetto della modifica
OpenNLP fornisce ora modelli pre-addestrati per un totale di 36 lingue per categoria di modello: adattati di conseguenza. Cfr.: https://opennlp.apache.org/models.html
 
(18 versioni intermedie di 10 utenti non mostrate)
Riga 1:
{{F|software|ottobre 2024|}}
{{Software
|Logo = Apache OpenNLP Logo.svg
|Screenshot =
|Sviluppatore = Apache Software Foundation
|DataPrimaVersione = 19 Luglio 2004; 20 anni fa
|UltimaVersione = 2.4.0 / 20 luglio 2024; 2 mesi fa
|SistemaOperativo =
|Linguaggio = Java
Riga 17:
}}
 
La libreria '''Apache OpenNLP''' è un toolkit che sfrutta [[Apprendimento automatico|l'apprendimento automatico]] per l'[[Elaborazione del linguaggio naturale|elaborazione dei testi in linguaggio naturale]]. Supporta i compiti più comuni in ambito NLP, come il rilevamento della lingua, [[Analisi lessicale|la tokenizzazione]], la sentence segmenntationsegmentazione, l'etichettatura delle parti del discorso, la named entity extraction, il chunking, il [[parsing]] e la coreference resolution. Questo genere di compiti sono solitamente necessari per sviluppare servizi di elaborazione testuale più avanzati.
 
La libreria è scritta in [[Java (linguaggio di programmazione)|Java]] e può essere facilmente integrata in progetti Java o in progetti che utilizzano la [[Java Virtual Machine]] (JVM).<ref>{{Cita web|url=https://opennlp.apache.org/building.html|titolo=Apache OpenNLP - Building from Source}}</ref>
== Vedi anche ==
{{Portale|Free and open-source software}}
 
== Dettagli ==
* [[Apache UIMA]] (Unstructured Information Management Architecture)
* Identificazione della lingua: il “LanguageDetector” richiede un modello addestrato. OpenNLP stesso offre il modello completamente addestrato ''langdetect-183.bin'' come download. Questo è in grado di identificare 103 lingue.<ref>{{Cita web|url=https://opennlp.apache.org/models.html#language_detection|titolo=Modello di rilevamento delle lingue di Apache OpenNLP}}</ref>
* General Architecture for Text Engineerin
* Riconoscimento delle frasi: il “SentenceDetector” riconosce se un punto fermo segna la fine di una frase o se ha un significato diverso. Anche in questo caso è necessaria la specifica di un modello addestrato. OpenNLP fornisce modelli per varie lingue, ad esempio ''opennlp-it-ud-vit-sentence-1.3-2.5.4.bin'' per il riconoscimento delle frasi nei testi italiani.<ref>{{Cita web|url=https://opennlp.apache.org/models.html#sentence_detection|titolo=Modelli di rilevamento delle frasi di Apache OpenNLP}}</ref>
* cTAKES
* Tokenizzazione: il tokenizer divide una stringa di caratteri in token. I token sono solitamente parole, segni di punteggiatura, numeri, ecc.
* Etichettatura part-of-speech: OpenNLP dispone di una selezione di modelli pre-addestrati per 36 lingue (tedesco, inglese, spagnolo, portoghese, danese, ecc.). Questi modelli possono essere utilizzati per etichettare automaticamente un corpus di testo in una di queste lingue.<ref>{{Cita web|url=https://stanbol.apache.org/docs/trunk/components/enhancer/engines/opennlppos.html|titolo=Apache Stanbol - OpenNLP POS Tagging Engine}}</ref>
* Estrazione di entità denominate: Il “TokenNameFinder” può riconoscere le entità denominate e i numeri nel testo. Per riconoscere le entità è necessario un modello. Il modello dipende dalla lingua e dal tipo di entità per cui è stato addestrato. Il progetto OpenNLP offre una gamma di modelli pre-addestrati che sono stati addestrati su vari corpora liberamente disponibili. Possono essere scaricati dalla pagina di download dei modelli.
 
== RiferimentiNote ==
<references />
{{References}}
 
<references responsive="1"></references>
== Voci correlate ==
* [[Apache UIMA]] (Unstructured Information Management Architecture)
* [[Apache Software Foundation]]
* [[Licenza Apache]]
 
== Collegamenti esterni ==
{{Collegamenti esterni}}
 
* [https://opennlp.apache.org/index.html Sito Web di Apache OpenNLP]
{{Apache}}
{{Portale|informatica}}
 
[[Categoria:Software del 2004]]
[[Categoria:Software multipiattaforma]]