Versione delle 19:07, 4 gen 2025 modifica 2a02:3038:600:8cdd:15b6:17ca:a1b3:606d (discussione) Aggiunta di dettagli e riferimenti ai modelli OpenNLP, in particolare l'adattamento dell'ultimo modello di Sentence Detection, dato che il modello SourceForge non è più mantenuto o raccomandato. OpenNLP è passato a modelli basati su UD, vedere la notizia: https://opennlp.apache.org/news/news-2024-11-23.html Etichetta: Modifica visuale: commutato ← Differenza precedente		Versione delle 19:30, 4 gen 2025 modifica annulla 2a02:3038:600:8cdd:15b6:17ca:a1b3:606d (discussione) Migliore raggruppamento e presentazione dei riferimenti esterni ai modelli implementati, voci correlate anche riassunte. Etichetta: Modifica visuale: commutato Differenza successiva →
Riga 21: == Dettagli == * Identificazione della lingua: il “LanguageDetector” richiede un modello addestrato. OpenNLP stesso offre il modello completamente addestrato ~~“langdetect~~''langdetect-183.~~bin”~~bin'' come download. Questo è in grado di identificare 103 lingue.<ref>[https://opennlp.apache.org/models.html#language_detection Modello di rilevamento delle lingue di Apache OpenNLP]</ref> * Riconoscimento delle frasi: il “SentenceDetector” riconosce se un punto fermo segna la fine di una frase o se ha un significato diverso. Anche in questo caso è necessaria la specifica di un modello addestrato. OpenNLP fornisce modelli per varie lingue, ad esempio ''opennlp-it-ud-vit-sentence-1.2-2.5.0.bin'' per il riconoscimento delle frasi nei testi italiani.<ref>[https://opennlp.apache.org/models.html#sentence_detection Modelli di rilevamento delle frasi di Apache OpenNLP]</ref>. * Tokenizzazione: il tokenizer divide una stringa di caratteri in token. I token sono solitamente parole, segni di punteggiatura, numeri, ecc. * Etichettatura part-of-speech: OpenNLP dispone di una selezione di modelli pre-addestrati per 32 lingue (tedesco, inglese, spagnolo, portoghese, danese, ecc.). Questi modelli possono essere utilizzati per etichettare automaticamente un corpus di testo in una di queste lingue.<ref>[https://stanbol.apache.org/docs/trunk/components/enhancer/engines/opennlppos.html Apache Stanbol - OpenNLP POS Tagging Engine]</ref> * Estrazione di entità denominate: Il “TokenNameFinder” può riconoscere le entità denominate e i numeri nel testo. Per riconoscere le entità è necessario un modello. Il modello dipende dalla lingua e dal tipo di entità per cui è stato addestrato. Il progetto OpenNLP offre una gamma di modelli pre-addestrati che sono stati addestrati su vari corpora liberamente disponibili. Possono essere scaricati dalla pagina di download dei modelli. == Voci correlate ==▼ * [[Apache UIMA]] (Unstructured Information Management Architecture)▼ == Collegamenti esterni == * {{Collegamenti esterni}} == Collegamenti specifiche == {{Apache}}▼ <references /> {{Portale\|informatica}}▼ ▲== Voci correlate == ▲* [[Apache UIMA]] (Unstructured Information Management Architecture) ▲* {{Apache}} ▲* {{Portale\|informatica}} [[Categoria:Software del 2004]]

Apache OpenNLP: differenze tra le versioni