Apache OpenNLP: differenze tra le versioni

Naviga nella cronologia in modo interattivo

← Differenza precedente

Contenuto cancellato Contenuto aggiunto

VisualeWikitesto

Versione delle 20:01, 4 gen 2025 modifica 2a02:3038:600:8cdd:15b6:17ca:a1b3:606d (discussione) Riferimenti esterni integrati e migliorati Etichetta: Modifica visuale: commutato ← Differenza precedente		Versione attuale delle 18:47, 17 giu 2025 modifica annulla 2a02:3038:607:7503:e1b9:1dec:a82a:cce8 (discussione) OpenNLP fornisce ora modelli pre-addestrati per un totale di 36 lingue per categoria di modello: adattati di conseguenza. Cfr.: https://opennlp.apache.org/models.html Etichetta: Modifica visuale
(6 versioni intermedie di 4 utenti non mostrate)
Riga 1: {{OF\|software\|~~novembre~~ottobre 2024\|}} ~~{{F\|informatica\|ottobre 2024\|}}~~ {{Software \|Screenshot = \|Sviluppatore = Apache Software Foundation \|DataPrimaVersione = 19 Luglio 2004; 20 anni fa \|UltimaVersione = ~~2.5.2 / 27 dicembre 2024~~ \|SistemaOperativo = \|Linguaggio = Java Riga 18 ⟶ 17: }} '''Apache OpenNLP''' è un toolkit che sfrutta [[Apprendimento automatico\|l'apprendimento automatico]] per l'[[Elaborazione del linguaggio naturale\|elaborazione dei testi in linguaggio naturale]]. Supporta i compiti più comuni in ambito NLP, come il rilevamento della lingua, [[Analisi lessicale\|la tokenizzazione]], la sentence ~~segmenntation~~segmentazione, l'etichettatura delle parti del discorso, la named entity extraction, il chunking, il [[parsing]] e la coreference resolution. Questo genere di compiti sono solitamente necessari per sviluppare servizi di elaborazione testuale più avanzati. La libreria è scritta in [[Java (linguaggio di programmazione)\|Java]] e può essere facilmente integrata in progetti Java o in progetti che utilizzano la [[Java Virtual Machine]] (JVM).<ref>{{Cita web\|url=https://opennlp.apache.org/building.html\|titolo=Apache OpenNLP - Building from Source}}</ref> == Dettagli == * Identificazione della lingua: il “LanguageDetector” richiede un modello addestrato. OpenNLP stesso offre il modello completamente addestrato ''langdetect-183.bin'' come download. Questo è in grado di identificare 103 lingue.<ref>[{{Cita web\|url=https://opennlp.apache.org/models.html#language_detection \|titolo=Modello di rilevamento delle lingue di Apache OpenNLP]}}</ref> * Riconoscimento delle frasi: il “SentenceDetector” riconosce se un punto fermo segna la fine di una frase o se ha un significato diverso. Anche in questo caso è necessaria la specifica di un modello addestrato. OpenNLP fornisce modelli per varie lingue, ad esempio ''opennlp-it-ud-vit-sentence-1.23-2.5.04.bin'' per il riconoscimento delle frasi nei testi italiani.<ref>[{{Cita web\|url=https://opennlp.apache.org/models.html#sentence_detection \|titolo=Modelli di rilevamento delle frasi di Apache OpenNLP]}}</ref>. * Tokenizzazione: il tokenizer divide una stringa di caratteri in token. I token sono solitamente parole, segni di punteggiatura, numeri, ecc. * Etichettatura part-of-speech: OpenNLP dispone di una selezione di modelli pre-addestrati per 3236 lingue (tedesco, inglese, spagnolo, portoghese, danese, ecc.). Questi modelli possono essere utilizzati per etichettare automaticamente un corpus di testo in una di queste lingue.<ref>[{{Cita web\|url=https://stanbol.apache.org/docs/trunk/components/enhancer/engines/opennlppos.html \|titolo=Apache Stanbol - OpenNLP POS Tagging Engine]}}</ref> * Estrazione di entità denominate: Il “TokenNameFinder” può riconoscere le entità denominate e i numeri nel testo. Per riconoscere le entità è necessario un modello. Il modello dipende dalla lingua e dal tipo di entità per cui è stato addestrato. Il progetto OpenNLP offre una gamma di modelli pre-addestrati che sono stati addestrati su vari corpora liberamente disponibili. Possono essere scaricati dalla pagina di download dei modelli. Riga 38 ⟶ 39: {{Collegamenti esterni}} {{Apache~~\|open~~}} {{Portale\|informatica}}