Apprendimento d'insieme

In statistica e apprendimento automatico, con apprendimento d'insieme (in inglese ensemble learning) si intendono una serie di metodi che usano molteplici modelli o algoritmi per ottenere una migliore prestazione predittiva rispetto a quella ottenuta dagli stessi modelli applicati singolarmente.^[1]^[2]^[3] A differenza dell'insieme della meccanica statistica, che si ritiene infinito, tale insieme di modelli alternativi è concreto e finito.

Tipologie

L'apprendimento d'insieme prevede alcune tecniche classiche:

Bagging: Questa tecnica mira a creare un insieme di modelli aventi la stessa importanza. All'atto della predizione, ciascun modello voterà circa l'esito finale e l'output complessivo sarà il valore medio o la moda (in base al tipo di problema).
- varianti: Random Forest, Pasting ^[4], Random Subspace^[5], Random Patch ^[6].
Boosting: A differenza del bagging, ciascun modello influisce sulla votazione finale con un certo peso. Tale peso sarà calcolato in base all'accuratezza di ciascun modello misurata in fase di addestramento.
Stacking: Mentre nel bagging l'output era il risultato di una votazione, nello stacking viene introdotto un ulteriore classificatore (detto meta-classificatore) che utilizza le predizioni di altri sotto-modelli per apprendere l'ulteriore meta-modello (su dati separati).

Altre tecniche sono le seguenti:^[1]

Voting ^[7]^[8]: combina modelli di apprendimento concettualmente diversi e utilizza il voto a maggioranza o la media delle probabilità delle predizioni dei singoli modelli (moda) per predire l'output.
Arcing (da adaptively resample and combine): variante del bagging con votazione degli esempi pesata in base a errori commessi su di essi. ^[9]
Cascading: modelli di complessità crescente collegati in cascata.
Modelli ECOC (error correcting output codes)^[10]: modelli binari di classificazione specializzati in regioni diverse per la predizione di codici binari, messi in corrispondenza con le diverse classi. Ogni classe è rappresentata tramite un codice binario (possibilmente univoco). la matrice che memorizza la posizione/il codice per ciascuna classe costituisce un cifrario progettato per ottimizzare l'accuratezza della classificazione. In fase di addestramento si impara un classificatore per ogni bit del codice. In fase di predizione, i classificatori proiettano i nuovi esempi nello spazio delle classi e si sceglie, infine, quella più vicina (distanza di Hamming).
Modelli di inferenza bayesiana:^[11] Bayesian model averaging (BMA), Bayesian model Combination (BMC) basati sulle probabilità a posteriori ottenuta considerando tutti i modelli possibili, al variare dei parametri.

Note

^ ^a ^b (EN) Ethem Alpaydin, Ch.18 - Combining Multiple Learners, in Introduction to machine learning, collana Adaptive computation and machine learning series, Fourth edition, The MIT Press, 2020, ISBN 978-0-262-04379-3.
^ Andrea De Mauro, Big data analytics : guida per iniziare a classificare e interpretare dati con il machine learning, Apogeo, 2019, ISBN 9788850334780, OCLC 1065010076.
^ (EN) Cha Zhang, Yunqian Ma (a cura di), Ensemble Machine Learning, in SpringerLink, 2012, DOI:10.1007/978-1-4419-9326-7. URL consultato il 19 agosto 2025.
^ (EN) Leo Breiman, Pasting Small Votes for Classification in Large Databases and On-Line, in Machine Learning, vol. 36, n. 1, 1º luglio 1999, pp. 85–103, DOI:10.1023/A:1007563306331. URL consultato il 19 agosto 2025.
^ Tin Kam Ho, The random subspace method for constructing decision forests, in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 20, n. 8, 1998-08, pp. 832–844, DOI:10.1109/34.709601. URL consultato il 19 agosto 2025.
^ (EN) Gilles Louppe e Pierre Geurts, Ensembles on Random Patches, in Peter A. Flach, Tijl De Bie, Nello Cristianini (a cura di), Machine Learning and Knowledge Discovery in Databases, Springer, 2012, pp. 346–361, DOI:10.1007/978-3-642-33460-3_28. URL consultato il 19 agosto 2025.
^ (EN) 1.11. Ensembles: Gradient boosting, random forests, bagging, voting, stacking, su scikit-learn. URL consultato il 19 agosto 2025.
^ (EN) 1.11. Ensembles: Gradient boosting, random forests, bagging, voting, stacking, su scikit-learn. URL consultato il 19 agosto 2025.
^ Leo Breiman, Arcing classifier (with discussion and a rejoinder by the author), in The Annals of Statistics, vol. 26, n. 3, 1º giugno 1998, DOI:10.1214/aos/1024691079. URL consultato il 19 agosto 2025.
^ (EN) T. G. Dietterich e G. Bakiri, Solving Multiclass Learning Problems via Error-Correcting Output Codes, in Journal of Artificial Intelligence Research, vol. 2, 1994, pp. 263–286, DOI:10.1613/jair.105. URL consultato il 19 agosto 2025.
^ Kevin P. Murphy, Probabilistic machine learning: an introduction, collana Adaptive computation and machine learning, The MIT Press, 2022, §4.6, ISBN 978-0-262-04682-4.

Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica

[:0-1] (EN) Ethem Alpaydin, Ch.18 - Combining Multiple Learners, in Introduction to machine learning, collana Adaptive computation and machine learning series, Fourth edition, The MIT Press, 2020, ISBN 978-0-262-04379-3.

[2] Andrea De Mauro, Big data analytics : guida per iniziare a classificare e interpretare dati con il machine learning, Apogeo, 2019, ISBN 9788850334780, OCLC 1065010076.

[3] (EN) Cha Zhang, Yunqian Ma (a cura di), Ensemble Machine Learning, in SpringerLink, 2012, DOI:10.1007/978-1-4419-9326-7. URL consultato il 19 agosto 2025.

[4] (EN) Leo Breiman, Pasting Small Votes for Classification in Large Databases and On-Line, in Machine Learning, vol. 36, n. 1, 1º luglio 1999, pp. 85–103, DOI:10.1023/A:1007563306331. URL consultato il 19 agosto 2025.

[5] Tin Kam Ho, The random subspace method for constructing decision forests, in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 20, n. 8, 1998-08, pp. 832–844, DOI:10.1109/34.709601. URL consultato il 19 agosto 2025.

[6] (EN) Gilles Louppe e Pierre Geurts, Ensembles on Random Patches, in Peter A. Flach, Tijl De Bie, Nello Cristianini (a cura di), Machine Learning and Knowledge Discovery in Databases, Springer, 2012, pp. 346–361, DOI:10.1007/978-3-642-33460-3_28. URL consultato il 19 agosto 2025.

[7] (EN) 1.11. Ensembles: Gradient boosting, random forests, bagging, voting, stacking, su scikit-learn. URL consultato il 19 agosto 2025.

[8] (EN) 1.11. Ensembles: Gradient boosting, random forests, bagging, voting, stacking, su scikit-learn. URL consultato il 19 agosto 2025.

[9] Leo Breiman, Arcing classifier (with discussion and a rejoinder by the author), in The Annals of Statistics, vol. 26, n. 3, 1º giugno 1998, DOI:10.1214/aos/1024691079. URL consultato il 19 agosto 2025.

[10] (EN) T. G. Dietterich e G. Bakiri, Solving Multiclass Learning Problems via Error-Correcting Output Codes, in Journal of Artificial Intelligence Research, vol. 2, 1994, pp. 263–286, DOI:10.1613/jair.105. URL consultato il 19 agosto 2025.

[11] Kevin P. Murphy, Probabilistic machine learning: an introduction, collana Adaptive computation and machine learning, The MIT Press, 2022, §4.6, ISBN 978-0-262-04682-4.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]