Bit

quantità minima di informazione necessaria a discernere tra due possibili eventi equiprobabili
Disambiguazione – Se stai cercando altri significati, vedi Bit (disambigua).
Multipli del bit
Prefissi SI Prefissi binari
Nome Simbolo Multipli Nome Simbolo Multipli
chilobit kbit 103 kibibit Kibit 210
megabit Mbit 106 mebibit Mibit 220
gigabit Gbit 109 gibibit Gibit 230
terabit Tbit 1012 tebibit Tibit 240
petabit Pbit 1015 pebibit Pibit 250
exabit Ebit 1018 exbibit Eibit 260
zettabit Zbit 1021 zebibit Zibit 270
yottabit Ybit 1024 yobibit Yibit 280

In informatica e nella teoria dell'informazione, il bit è l'unità standard di misura dell'entropia, meglio nota come quantità di informazione.

Il nome è una parola macedonia dei termini inglesi "binary" (binario) e "digit" (cifra).[1] Per questo motivo il termine bit viene colloquialmente utilizzato come sinonimo di cifra binaria, che però formalmente è un concetto distinto.

Complice delle occasionali confusioni tra bit e cifra binaria è anche il fatto che quest'ultima codifica esattamente 1 bit di informazione.

Definizione

  Lo stesso argomento in dettaglio: Autoinformazione e Teoria dell'informazione § Entropia.

Il concetto di bit è stato introdotto nel 1948 da Claude Shannon, fondando la teoria dell'informazione.

Nel suo articolo "A Mathematical Theory of Communication" Shannon fissa il problema fondamentale della comunicazione come quello di riprodurre ad certo punto, in modo esatto oppure approssimativo che sia, un messaggio selezionato ad un altro punto. In questo contesto egli evidenzia come l'aspetto significativo del problema dal punto di vista ingegneristico sia che il messaggio viene sempre selezionato da un set di possibili messaggi definito a priori. [2]
Da questa considerazione deriva l'intuizione della natura probabilistica dell'incertezza e quindi, dualmente, dell'informazione.

Dato il modello matematico di una sorgente di informazione discreta, risulta interessante poter misurare e quindi definire una grandezza per quanta informazione viene emessa da questa. Shannon affronta questo problema introducendo il concetto di quantità di informazione, o anche entropia per via della similarità con alcune formulazioni del concetto di entropia in meccanica statistica. [3]

 

Definizione dell'entropia. Convenzionalmente si assume   e  . [4] [5]

Nell'articolo Shannon non fissa in modo prescrittivo una definizione precisa dell'unità di informazione. Tuttavia si può banalmente ricavare come corollario che 1 bit è la quantità di informazione necessaria e sufficiente a rimuovere l'incertezza relativa al realizzarsi di uno tra due eventi equiprobabili e mutualmente esclusivi, come ad esempio l'esito del lancio di una moneta.[6] In simboli:

Sia   una coppia di eventi indipendenti equiprobabili (   )

 

Come quantità di informazione

In questo contesto, un bit rappresenta l'unità di misura della quantità d'informazione.

Questo concetto di bit è stato introdotto dalla teoria dell'informazione di Claude Shannon nel 1948, ed è usato nel campo della compressione dati e delle trasmissioni numeriche.

Intuitivamente equivale alla scelta tra due valori (sì/no, vero/falso, acceso/spento) quando questi hanno la stessa probabilità di essere scelti. In generale, per eventi non necessariamente equiprobabili, la quantità d'informazione di un evento rappresenta la "sorpresa" nel constatare il verificarsi di tale evento; per esempio, se un evento è certo, il suo verificarsi non sorprende nessuno, quindi il suo contenuto informativo è nullo; se invece un evento è raro, il suo verificarsi è sorprendente, quindi il suo contenuto informativo è alto.

Matematicamente, la quantità d'informazione in bit di un evento è l'opposto del logaritmo in base due della probabilità di tale evento. La scelta del numero 2 come base del logaritmo è particolarmente significativa nel caso elementare di scelta tra due alternative (informazione di un bit), ma è possibile usare anche   (numero di Nepero), usando dunque il logaritmo naturale; in tal caso l'unità di misura dell'informazione si dice "Nat".

Nel caso di due eventi equiprobabili, ognuno ha probabilità 0,5, e quindi la loro quantità di informazione è −log2(0,5) = 1 bit.

Se un evento è impossibile la probabilità è zero, cioè la sua quantità di informazione è infinita.

Se un evento è certo, la sua probabilità è uno e la sua quantità di informazione è −log2(1) = 0 bit.

Se ci sono due possibili eventi, uno con probabilità 25% e l'altro con probabilità 75%, il verificarsi del primo evento convoglia l'informazione di −log2(0,25) = 2 bit, mentre il verificarsi del secondo evento convoglia l'informazione di −log2(0,75) = ~0,415 bit.

Il contenuto informativo (o entropia) di un generatore di eventi (detto "sorgente") è la media statistica dei contenuti informativi di ogni possibile valore, ovvero la somma delle informazioni pesate per la probabilità del corrispondente valore.

Nel caso dei due valori con probabilità 25% e 75%, il contenuto informativo della sorgente è:

0,25 × (−log2(0,25)) + 0,75 × (−log2(0,75)) = ~0,811 bit.

Cioè la sorgente genera meno di un bit per ogni evento.

Nel caso di due eventi equiprobabili, si ha:

0,5 × (−log2(0,5)) + 0,5 × (−log2(0,5)) = 0,5 × 1 + 0,5 × 1 = 1 bit.

Cioè la sorgente genera esattamente un bit per ogni evento.

Come cifra binaria

In questo contesto il bit rappresenta l'unità di definizione di uno stato logico, definito anche unità elementare dell'informazione trattata da un elaboratore. La rappresentazione logica del bit è rappresentata dai soli valori {0, 1}. Ai fini della programmazione è comune raggruppare sequenze di bit in entità più vaste che possono assumere valori in intervalli assai più ampi di quello consentito da un singolo bit. Questi raggruppamenti contengono generalmente un numero di stringhe binarie pari a una potenza binaria, pari cioè a 2n; il più noto è il byte (chiamato anche ottetto), corrispondente a 8 bit, che costituisce l'unità di misura più utilizzata in campo informatico. Altri raggruppamenti di questo tipo sono i seguenti:

  • nibble 4 bit, la metà di un byte
  • word di lunghezza variabile, corrisponde a 16 o 32 o 64 bit a seconda del tipo di macchina.

(L'API di Windows definisce il tipo di dato WORD come un numero intero di 16 bit senza segno su tutte le piattaforme. Questa circostanza, unita alle normali esigenze di retrocompatibilità dei nuovi sistemi, fa sì che spesso la lunghezza di un word venga fissata pari a 16 bit indipendentemente dall'hardware.)

NB: Le espressioni word, double word e quad word vengono usate come tipo di dato in programmazione (prevalentemente in linguaggio assembly e in linguaggio C).

Note

  1. ^ Mackenzie 1980
  2. ^ Shannon 2001, p. 1
  3. ^ Shannon 2001, pp. 9-14
  4. ^ Il parametro   non ha significato intrinseco e viene proposto da Shannon come termine "ausiliario" per facilitare la definizione dell'unità di misura. (Shannon 2001, p. 10)
    Nella pratica non viene mai usato come parte della formula dell'entropia, ma compare spesso all'esterno come costante di conversione: ad esempio   per convertire da bit a byte.
  5. ^ La scelta di   determina l'uso del bit come unità di misura. (Shannon 2001, p. 1)
    Sebbene Shannon ipotizzi anche l'uso di basi e quindi di unità alternative, la scelta del bit risulta particolarmente sensibile poiché ben si adatta all'uso oramai universale della teoria dell'informazione applicata ai sistemi elettronici digitali.
  6. ^ Shannon 2001, p. 19

Bibliografia

Voci correlate

Altri progetti

Collegamenti esterni

Controllo di autoritàGND (DE4145760-2