Apache OpenNLP è un toolkit che sfrutta l'apprendimento automatico per l'elaborazione dei testi in linguaggio naturale. Supporta i compiti più comuni in ambito NLP, come il rilevamento della lingua, la tokenizzazione, la sentence segmentazione, l'etichettatura delle parti del discorso, la named entity extraction, il chunking, il parsing e la coreference resolution. Questo genere di compiti sono solitamente necessari per sviluppare servizi di elaborazione testuale più avanzati.

Apache OpenNLP
software
Logo
Logo
GenereElaborazione del linguaggio naturale
SviluppatoreApache Software Foundation
Data prima versione19 Luglio 2004; 20 anni fa
Ultima versione2.5.5 (23 luglio 2025)
Sistema operativo
LinguaggioJava
Licenzalicenza Apache 2.0
(licenza libera)
Sito webopennlp.apache.org

La libreria è scritta in Java e può essere facilmente integrata in progetti Java o in progetti che utilizzano la Java Virtual Machine (JVM).[1]

Dettagli

modifica
  • Identificazione della lingua: il “LanguageDetector” richiede un modello addestrato. OpenNLP stesso offre il modello completamente addestrato langdetect-183.bin come download. Questo è in grado di identificare 103 lingue.[2]
  • Riconoscimento delle frasi: il “SentenceDetector” riconosce se un punto fermo segna la fine di una frase o se ha un significato diverso. Anche in questo caso è necessaria la specifica di un modello addestrato. OpenNLP fornisce modelli per varie lingue, ad esempio opennlp-it-ud-vit-sentence-1.3-2.5.4.bin per il riconoscimento delle frasi nei testi italiani.[3]
  • Tokenizzazione: il tokenizer divide una stringa di caratteri in token. I token sono solitamente parole, segni di punteggiatura, numeri, ecc.
  • Etichettatura part-of-speech: OpenNLP dispone di una selezione di modelli pre-addestrati per 36 lingue (tedesco, inglese, spagnolo, portoghese, danese, ecc.). Questi modelli possono essere utilizzati per etichettare automaticamente un corpus di testo in una di queste lingue.[4]
  • Estrazione di entità denominate: Il “TokenNameFinder” può riconoscere le entità denominate e i numeri nel testo. Per riconoscere le entità è necessario un modello. Il modello dipende dalla lingua e dal tipo di entità per cui è stato addestrato. Il progetto OpenNLP offre una gamma di modelli pre-addestrati che sono stati addestrati su vari corpora liberamente disponibili. Possono essere scaricati dalla pagina di download dei modelli.

Voci correlate

modifica

Collegamenti esterni

modifica
  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica