Algoritmo apriori

In informatica e in data mining, l'algoritmo Apriori è un classico algoritmo di ricerca delle associazioni. E' utlizzato per la generazione degli itemset frequenti, per approssimazioni successive, a partire dagli itemset con un solo elemento. In sintesi, il presupposto teorico su cui si basa l’algoritmo parte dalla considerazione che se un insieme di oggetti (itemset) è frequente, allora anche tutti i suoi sottoinsiemi sono frequenti, ma se un itemset non è frequente, allora neanche gli insiemi che lo contengono sono frequenti (principio di monotonicità).^[1]^[2]

Un ambito dove questo algoritmo trova grande applicabilità è il market/basket problem.^[3] Per ricavare le associazioni viene impiegato un approccio bottom up, dove i sottoinsiemi frequenti sono costruiti aggiungendo un item per volta (generazione dei candidati); i gruppi di candidati sono successivamente verificati sui dati e l'algoritmo termina quando non ci sono ulteriori estensioni possibili. In questo processo, il numero delle iterazioni è $k_{max}+1$ , dove $k_{max}$ indica la cardinalità massima di un itemset frequente.

Vi sono altri algoritmi con finalità analoghe (Winepi e Minepi), e che tuttavia sono più diffusi in ambiti dove i dati sono privi di timestamp (ad esempio le sequenze di DNA).^[4]

Apriori, anche se storicamente significativo, soffre di molte inefficienze o trade-off, che hanno influenzato altri algoritmi successivi. La generazione dei candidati crea molti sottoinsiemi. L'esplorazione Bottom-up dei sottoinsiemi (in modo breadth-first trasversale sul reticolo dei sottoinsiemi) trova tutti i sottoinsiemi S massimali solo dopo aver trovato tutti i $2^{|S|}-1$ sottoinsiemi propri.

Esempio

Questo esempio mostra il processo di selezione o di generazione di una lista di candidati itemset ordinati. Il compito consiste nella costruzione di un insieme di $k$ nodi itemset ordinati in modo seriale a partire da itemset di lunghezza $k-1$ . Ad esempio, con $k=4$ , supponiamo che ci siano due di tali insiemi di lunghezza $k-1$ ...

A\rightarrow B\rightarrow C

,

e

A\rightarrow B\rightarrow D

,

i due candidati item sets sono generati

A\rightarrow B\rightarrow C\rightarrow D

e

A\rightarrow B\rightarrow D\rightarrow C

.

Algoritmo

L'algoritmo Apriori trova gli insiemi frequenti $L$ nel Database $D$ .

Ricerca di insiemi frequenti $L_{k-1}$ .
Passo di Join.
- $C_{k}$ generato con un join di $L_{k-1}$ con se stesso
Passo di pruning.
- Qualunque $(k-1)$ -itemset non frequente non può essere un sottoinsieme frequente $k$ -itemset, perciò sarà rimosso.

dove

( $C_{k}$ : candidato itemset di lunghezza $k$ )
( $L_{k}$ : itemset frequente di lunghezza $k$ )

Pseudocodice per l'Apriori

Apriori $(T,\varepsilon )$

L_{1}\gets \{

large 1-itemsets

\}

k\gets 2

while

L_{k-1}\neq \varnothing

C_{k}\gets

Generate

(L_{k-1})

for transactions

t\in T

C_{t}\gets

Subset

(C_{k},t)

for candidates

c\in C_{t}

\mathrm {count} [c]\gets \mathrm {count} [c]+1

L_{k}\gets \{c\in C_{k}|~\mathrm {count} [c]\geq \varepsilon \}

k\gets k+1

return

\bigcup _{k}L_{k}

Riferimenti

Agrawal R, Imielinski T, Swami AN. "Mining Association Rules between Sets of Items in Large Databases." SIGMOD. June 1993, 22(2):207-16, pdf.
Agrawal R, Srikant R. "Fast Algorithms for Mining Association Rules", VLDB. Sep 12-15 1994, Chile, 487-99, pdf, ISBN 1-55860-153-8.
Mannila H, Toivonen H, Verkamo AI. "Efficient algorithms for discovering association rules." AAAI Workshop on Knowledge Discovery in Databases (SIGKDD). July 1994, Seattle, 181-92, ps.

[1] Regole associative, CNR pdf

[2] Regole associative, UNIFE pdf

[3] DataMining For Dummies

[4] Data Mining, Univ. Helsinki ppt

[1]

[2]

[3]

[4]