Classificazione ordinata

relazione fra elementi di un insieme

Una classificazione ordinata (o ranking) è una relazione tra un insieme di elementi, spesso raccolti in un elenco, tale che, per ogni coppia di elementi, il primo è “classificato più in alto”, “classificato più in basso” o “classificato alla pari” rispetto al secondo. [1] In matematica, questa è nota come relazione d'ordine debole o preordine totale degli oggetti. Essa non è necessariamente un ordine totale in quanto due oggetti diversi possono avere la stessa posizione. Le stesse graduatorie sono totalmente ordinate. Ad esempio, i materiali sono totalmente preordinati in base alla durezza, mentre i gradi di durezza sono totalmente ordinati. Quando due elementi hanno lo stessa posizione, questo viene considerato un caso di parità.

Riducendo misure dettagliate a una sequenza di numeri ordinali, le graduatorie consentono di valutare informazioni complesse secondo determinati criteri. Ad esempio, un motore di ricerca su Internet può ordinare le pagine che trova in base a una stima della loro pertinenza, consentendo all'utente di selezionare rapidamente le pagine che probabilmente desidera visualizzare.

L'analisi di dati ottenuti tramite ordinamento richiede solitamente statistiche non parametriche.

Metodi automatizzati per l'apprendimento di ranking, utili al ritrovamento di informazioni o nella raccomandazione, sono investigati in intelligenza artificiale e, in particolare, nell'ambito dell'apprendimento automatico. A differenza dei regressori e dei classificatori, si apprendono funzioni che associano a ciascuna istanza una posizione in graduatoria.

Strategie per gestire i casi di parità

modifica

Non è sempre possibile assegnare le posizioni in modo univoco. Ad esempio, due (o più) partecipanti a una gara o competizione potrebbero essere considerati a pari merito per un posto in classifica. [2] Quando si calcola una misura ordinale, due (o più) delle quantità da classificare potrebbero avere misure uguali. In tali casi, si può adottare una delle seguenti strategie per l'assegnazione delle posizioni.

Un modo breve tipicamente usato per distinguere queste strategie di classificazione è quello di indicare i numeri di posizione che verrebbero assegnati ai primi quattro elementi, con il primo elemento classificato davanti al secondo e al terzo (che sono pari), entrambi classificati davanti al quarto. [3] Di seguito saranno indicati tali nomi.

Strategia standard da competizione (classificazione "1224")

modifica

Nella graduatoria di una competizione, elementi di pari punteggio ricevono lo stesso numero di classifica, ma viene poi lasciata una posizione vuota nei numeri di posizione. Il numero di posizioni che rimangono fuori da questo spazio è inferiore di uno rispetto al numero di elementi che avevano uguale punteggio. Equivalentemente, la posizione di ciascun elemento è pari a 1 più il numero di elementi classificati al di sopra di esso. Questa strategia di classificazione è spesso adottata nelle competizioni, poiché comporta che se due (o più) concorrenti si classificano a pari merito in una data posizione in classifica, la posizione di tutti quelli classificati al di sotto di essi non viene influenzata (ad esempio, un concorrente arriva secondo solo se esattamente una persona ottiene un punteggio migliore, terzo se esattamente due persone ottengono un punteggio migliore, quarto se esattamente tre persone ottengono un punteggio migliore, ecc.).

Pertanto, se A si posiziona davanti a B e C (di pari valore), che sono entrambi posizionati davanti a D, allora A prende il posto numero 1 ("primo"), B prende il 2 ("secondo a pari merito") ma anche C prende il 2 ("secondo a pari merito") e D prende il 4 ("quarto").

Questo metodo è chiamato "Low" in IBM SPSS [4] e "min" dal linguaggio di programmazione R [5] nei rispettivi metodi per gestire i casi di parità.

Strategia da competizione modificata (classificazione "1334")

modifica

A volte, la graduatoria di una competizione viene stilata lasciando posizioni vuote prima dei gruppi di elementi di pari livello (piuttosto che dopo di essi come nella strategia standard). Il numero di posizioni lasciate vuote in questo spazio rimane inferiore di uno al numero di elementi di pari livello. Allo stesso modo, il numero di posizione di ciascun elemento è uguale al numero di elementi di pari livello o superiori. Questa graduatoria garantisce che un concorrente arrivi secondo solo se ottiene un punteggio superiore a tutti gli avversari tranne uno, terzo se ottiene un punteggio superiore a tutti gli avversari tranne due, ecc.

Pertanto, se A si posiziona davanti a B e C (che sono alla pari), entrambi posizionati davanti a D, allora A prende la posizione numero 1 ("primo"), B prende la numero 3 ("terzo a pari merito"), C prende anche lui la numero 3 ("terzo a pari merito") e D prende la numero 4 ("quarto"). In tal caso, nessuno prenderebbe la posizione numero 2 ("secondo") ed essa rimarrebbe vuota.

Questo metodo è chiamato "High" in IBM SPSS [4] e "max" nel linguaggio di programmazione R [5] nei rispettivi metodi per gestire i casi di parità.

Strategia densa (classificazione "1223")

modifica

In una graduatoria densa, gli elementi con la stessa misura ricevono lo stesso numero di posizione, mentre gli elementi successivi ricevono il numero di posizione immediatamente successivo. Equivalentemente, il numero di posizione di ciascun elemento è pari a 1 più il numero di elementi classificati al di sopra di esso che sono distinti rispetto all'ordine di graduatoria.

Pertanto, se A si classifica davanti a B e C (di pari livello), entrambi classificati davanti a D, allora A assume la posizione numero 1 ("primo"), B prende la numero 2 ("secondo a pari merito") e anche C prende la numero 2 ("secondo a pari merito") ma D guadagna la numero 3 ("terzo").

Questo metodo è chiamato "Sequenziale" in IBM SPSS [4] e "denso" nel linguaggio di programmazione R [6] nei rispettivi metodi per gestire i casi di parità.

Nella graduatoria ordinale, tutti gli elementi ricevono numeri ordinali distinti, inclusi gli elementi di pari valore. L'assegnazione di numeri ordinali distinti agli elementi di pari valore può essere effettuata in modo casuale o arbitrario. È generalmente preferibile utilizzare un sistema arbitrario ma coerente, per fornire risultati stabili anche allorché la classificazione venga ripetuta. Un esempio di sistema arbitrario ma coerente sarebbe quello di incorporare altri attributi nell'ordine di graduatoria (come l'ordine alfabetico del nome del concorrente) per garantire che non vi siano due elementi esattamente corrispondenti.

Con questa strategia, se A si classifica davanti a B e C (che sono alla pari) che sono entrambi classificati davanti a D, allora A riceve la posizione numero 1 ("primo") e D riceve la numero 4 ("quarto") e B riceve la numero 2 ("secondo") mentre C prende la numero 3 ("terzo") oppure C riceve la numero 2 ("secondo") e B la numero 3 ("terzo").

Nell'elaborazione di dati informatici, la graduatoria ordinale è anche detta "numerazione per riga".

Questo metodo corrisponde ai metodi "first", "last" e "random" nel linguaggio di programmazione R [5] per gestire i casi di parità.

Strategia frazionaria (classificazione "1 2,5 2,5 4")

modifica

Gli elementi di pari valore ricevono lo stesso numero di classificazione, che è la media di quello che avrebbero con una graduatoria ordinale; equivalentemente, la posizione 1 più il numero di elementi classificati al di sopra di esso più metà del numero di elementi di pari livello. Questa strategia ha la proprietà che la somma dei numeri di posizione sia la stessa di quella con una graduatoria ordinale. Per questo motivo, viene utilizzata nel calcolo dei punteggi nel metodo Borda e nei test statistici (vedi più avanti).

Pertanto, se A si posiziona davanti a B e C (che sono alla pari), entrambi posizionati davanti a D, allora A riceve la posizione numero 1 ("primo"), B e C sono associati ciascuno al numero 2,5 (media di "secondo/terzo congiunto") e D riceve la numero 4 ("quarto").

Ad esempio, si supponga di avere l'insieme di dati 1,0, 1,0, 2,0, 3,0, 3,0, 4,0, 5,0, 5,0, 5,0.

Le posizioni ordinali sono 1, 2, 3, 4, 5, 6, 7, 8, 9.

Per v = 1,0, il numero di posizione frazionario è la media dei ranghi ordinali: (1 + 2) / 2 = 1,5. Allo stesso modo, per v = 5,0, il numero frazionario è (7 + 8 + 9) / 3 = 8,0.

Quindi i numeri frazionari sono: 1,5, 1,5, 3,0, 4,5, 4,5, 6,0, 8,0, 8,0, 8,0

Questo metodo si chiama "Media" in IBM SPSS [4] e "media" nel linguaggio di programmazione R [5] nei rispettivi metodi per gestire i casi di parità.

Statistica

modifica

In statistica, il ranking è una trasformazione dei dati nella quale valori numerici od ordinali sono sostituiti con la loro posizione allorché i dati sono ordinati.

Ad esempio, le posizioni dei dati numerici 2,4, 5,1, 2,6, 7,3, sono 2, 3, 1, 4.

Come altro esempio si potrebbero sostituire i dati ordinali bollente, freddo, caldo con 3, 1, 2.

In questi esempi le posizioni sono assegnate in ordine ascendente ma si possono usare anche posizioni decrescenti.

Le posizioni sono correlate alle liste indicizzate della statistica d'ordine la quale comprende il dataset originario riordinato in modo ascendente.

  1. ^ Definition of RANKING, su merriam-webster.com.
  2. ^ Sulich, The young people's labour market and crisis of integration in European Union, su academia.edu. URL consultato il 4 marzo 2017.
  3. ^ The Data School - How to Rank by Group in Alteryx - Part 1 - Standard Competition, Dense, Ordinal Ranking, su www.thedataschool.co.uk. URL consultato il 23 luglio 2023.
  4. ^ a b c d (EN) Rank Cases: Ties, su www.ibm.com. URL consultato il 23 luglio 2023.
  5. ^ a b c d rank function - RDocumentation, su www.rdocumentation.org. URL consultato il 23 luglio 2023.
  6. ^ R: Fast Sample Ranks, su search.r-project.org. URL consultato il 23 luglio 2023.