Apache OpenNLP: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m →top: sistemazione fonti, smistamento lavoro sporco e fix vari |
OpenNLP fornisce ora modelli pre-addestrati per un totale di 36 lingue per categoria di modello: adattati di conseguenza. Cfr.: https://opennlp.apache.org/models.html |
||
Riga 23:
== Dettagli ==
* Identificazione della lingua: il “LanguageDetector” richiede un modello addestrato. OpenNLP stesso offre il modello completamente addestrato ''langdetect-183.bin'' come download. Questo è in grado di identificare 103 lingue.<ref>{{Cita web|url=https://opennlp.apache.org/models.html#language_detection|titolo=Modello di rilevamento delle lingue di Apache OpenNLP}}</ref>
* Riconoscimento delle frasi: il “SentenceDetector” riconosce se un punto fermo segna la fine di una frase o se ha un significato diverso. Anche in questo caso è necessaria la specifica di un modello addestrato. OpenNLP fornisce modelli per varie lingue, ad esempio ''opennlp-it-ud-vit-sentence-1.
* Tokenizzazione: il tokenizer divide una stringa di caratteri in token. I token sono solitamente parole, segni di punteggiatura, numeri, ecc.
* Etichettatura part-of-speech: OpenNLP dispone di una selezione di modelli pre-addestrati per
* Estrazione di entità denominate: Il “TokenNameFinder” può riconoscere le entità denominate e i numeri nel testo. Per riconoscere le entità è necessario un modello. Il modello dipende dalla lingua e dal tipo di entità per cui è stato addestrato. Il progetto OpenNLP offre una gamma di modelli pre-addestrati che sono stati addestrati su vari corpora liberamente disponibili. Possono essere scaricati dalla pagina di download dei modelli.
|