Text categorization
La Text Categorization o text classification (abbreviata come TC) è, in ambito di intelligenza artificiale, un'attività che si occupa di classificare testi in linguaggio naturale assegnando in maniera automatica collezioni di documenti ad una o più classi appartenenti ad un insieme detto "set di classi" predefinito.
Per realizzare ciò si utilizzano solitamente degli approcci di apprendimento automatico di tipo supervisionato, dove è necessario addestrare il sistema tramite autoapprendimento ad esempi (anche chiamate istanze) da cui generare un modello generale per la classificazione automatica. Esistono tuttavia altri approcci, come quello non supervisionato o semi-supervisionato, ma solitamente con risultati peggiori.
Applicazioni
Tipica applicazione per questa tecnica e' l'interpretazione di e-mail, andando a segnalare possibili mail indesiderate (spam).