Training e test set
Nell'apprendimento automatico un training set (o insieme di addestramento) è un insieme di dati che vengono utilizzati per addestrare un sistema supervisionato (come una rete neurale o un classificatore probabilistico). Il sistema addestrato viene quindi messo alla prova sul test set.[1] Questi ultimi sono utilizzati in diverse aree dell'informatica quali intelligenza artificiale, apprendimento automatico, programmazione genetica, sistemi intelligenti e nell'area della statistica.
Il training set spesso consiste di un vettore di input a cui è associata una risposta o una determinata classificazione. Una volta eseguito, l'algoritmo apprende, in base alla risposta o alla classificazione, quali caratteristiche discriminano gli elementi appartenenti alle differenti categorie.
Motivazione
L'apprendimento di un classificatore supervisionato è tipicamente effettuato a partire da un insieme di addestramento (training set). Molti approcci alla supervisione cercano relazioni empiriche tra i dati dell'insieme di addestramento che tendono a generare il fenomeno del cosiddetto sovradattamento (overfitting). Ciò significa che tendono a identificare relazioni nell'insieme di addestramento che non valgono in generale. Per verificare se le relazioni empiriche apprese dal classificatore sono realmente generali, si valuta il classificatore su un test set, tipicamente disgiunto dall'insieme di addestramento.
Note
- ^ T. Mitchell, Machine Learning. McGraw-Hill, 1997.