Buffer overflow
In informatica il buffer overflow (o buffer overrun) è una condizione di errore che si verifica a runtime quando in un buffer di una data dimensione vengono scritti dati di dimensioni maggiori. Quando questo accade viene sovrascritta parte della zona di memoria immediatamente adiacente al buffer in questione, con diversi effetti possibili a seconda di dove è situato il buffer e di come è organizzata la memoria in quella particolare piattaforma software; in alcuni programmi software questo provoca delle vulnerabilità di sicurezza. I linguaggi managed, cioè basati su un modello di memoria gestito a runtime come Java, dovrebbero in teoria essere immuni da questo tipo di errore, ma in pratica la possibilità rimane presente in caso di chiamate a codice nativo, o a causa di bug del modulo manager (la JVM nel caso di Java) o del compilatore JIT.
Descrizione
Quando, per errore o per malizia, vengono inviati più dati della capienza del buffer destinato a contenerli (che per errore, malizia o superficialità non è stato progettato a dovere), i dati extra vanno a sovrascrivere le variabili interne del programma, o il suo stesso stack; come conseguenza di ciò, a seconda di cosa è stato sovrascritto e con quali valori, il programma può dare risultati errati o imprevedibili, bloccarsi, o (se è un driver di sistema o lo stesso sistema operativo) bloccare il computer. Conoscendo molto bene il programma in questione, il sistema operativo e il tipo di computer su cui gira, si può precalcolare una serie di dati malevoli che inviata per provocare un buffer overflow consenta ad un malintenzionato di prendere il controllo del programma (e a volte, tramite questo, dell'intero computer).
Questo tipo di debolezza dei programmi è noto da molto tempo, ma solo di recente la sua conoscenza si è diffusa tanto da permettere anche a dei cracker capaci di sfruttarla per bloccare o prendere il controllo di altri computer collegati in rete. Non tutti i programmi sono vulnerabili a questo tipo di inconveniente: perché un dato programma sia a rischio è necessario che:
- il programma preveda l'input di dati di lunghezza variabile e non nota a priori;
- li immagazzini entro buffer allocati nel suo spazio di memoria, dati vicini ad altre strutture, dati vitali per il programma stesso;
- il programmatore non abbia implementato alcun mezzo di controllo della correttezza dell'input in corso.
- l'area di memoria dello stack sia eseguibile, se si tenta di scrivere dello shellcode sullo stack; questo non è vero sui computer più recenti dotati di NX bit
La prima condizione è facilmente verificabile, dalle specifiche del programma; la seconda e la terza invece sono interne ad esso e riguardano la sua completezza in senso teorico.
Storia
Esempi di buffer overflow dovuti al data integrity model del linguaggio C furono rilevati già nel 1973, mentre il primo clamoroso esempio di attacco basato su buffer overflow fu il Morris Worm (noto anche come Internet Worm), che nel 1988 portò al crash di più di 6.000 sistemi connessi a Internet in poche ore, sfruttando il buffer overflow nel processo demone fingerd per propagare da macchina a macchina. [1]
Nonostante sia una delle vulnerabilità note da più tempo, ancora oggi il buffer overflow rappresenta una falla di sicurezza diffusa ed estremamente attuale: organizzazioni come CERT e SANS pubblicano ancora oggi avvisi relativi alla sicurezza informatica che includono un numero rilevante di exploit basati su buffer overflow; inoltre diversi elementi della lista “CWE/SANS Top 25 Most Dangerous Software Error” sono varianti del buffer overflow.[2]
Non tutti i programmi sono vulnerabili a questo tipo di inconveniente.
Per i linguaggi di basso livello, come l’assembly, i dati sono semplici array di byte, memorizzati in registri o in memoria centrale: la corretta interpretazione di questi dati (indirizzi, interi, caratteri, istruzioni ecc…) è affidata alle funzioni e alle istruzioni che li accedono e manipolano; utilizzando linguaggi di basso livello si ha dunque un maggiore controllo delle risorse della macchina, ma è richiesta una maggiore attenzione in fase di programmazione in modo da assicurare l’integrità dei dati (e quindi evitare fenomeni come il buffer overflow). I linguaggi di più alto livello, come il Java e il Python (e molti altri), che definiscono invece il concetto di tipo di una variabile e che definiscono un insieme di operazioni permesse a seconda della tipologia, non soffrono di vulnerabilità come il buffer overflow, perché non consentono di memorizzare in un buffer una quantità maggiore di dati rispetto alla sua dimensione. Fra questi due estremi si trova il linguaggio C che presenta alcune delle astrazioni tipiche dei linguaggi di alto livello insieme a elementi tipici dei linguaggi di basso livello, come la possibilità di accedere e manipolare indirizzi di memoria: ciò rende il linguaggio suscettibile ad usi inappropriati della memoria; se a questo si unisce il fatto che alcune librerie di funzioni molto diffuse (in particolare per l’input e la manipolazione di stringhe come la gets() ) non effettuano un corretto controllo della dimensione dei buffer su cui lavorano, e che il C è stato usato negli anni ’70 per scrivere il sistema operativo UNIX (e da questo sono poi derivati i sistemi come Linux) e molte delle applicazioni pensate per eseguire su di esso, ne consegue che ancora oggi è presente e circola una grande quantità di codice vulnerabile al buffer overflow. [3]
Tipi di buffer overflow e conseguenze
Il buffer overflow può essere indicato con diversi nomi a seconda della posizione occupata dal buffer all’interno della memoria allocata per il processo.
La posizione del buffer è importante in quanto gli effetti del buffer overflow sono principalmente legati a:
- cosa c’è vicino al buffer
- quali dati vanno a sovrascrivere le aree di memoria adiacenti al buffer
Gestione e allocazione della memoria virtuale per un processo in esecuzione
Quando viene eseguito un programma il sistema operativo normalmente genera un nuovo processo e alloca in memoria centrale uno spazio di memoria virtuale riservato al processo stesso.
Questo spazio di memoria in generale ha una struttura data da (partendo dall’alto verso il basso):
- Kernel
- Stack (cresce verso il basso)
- Memoria libera
- Heap (cresce verso l’alto)
- Dati globali
- Codice del programma
L’esecuzione del programma consiste a sua volta di diverse chiamate a funzioni: ciascuna chiamata genera uno stack frame all’interno dello stack (che man mano cresce verso il basso nella struttura descritta sopra, con politica LIFO); all’interno del frame la funzione chiamata memorizza le variabili locali, l’indirizzo dell’istruzione della funzione chiamante a cui dovrà restituire il controllo (return address) e il puntatore al frame della funzione chiamante; questi ultimi due in particolare giocano un ruolo fondamentale nell’assicurare il giusto flusso di esecuzione al programma fra una chiamata di funzione e l’altra, infatti:
- Il return address dice alla funzione chiamata a quale istruzione della funzione chiamante bisogna restituire il controllo;
- Il puntatore al frame della funzione chiamante consente di ripristinare il suo contesto di esecuzione prima di restituirle il controllo;
Lo stack cresce verso il basso ad ogni chiamata di funzione, e ciascun frame generato presenta dunque una struttura del tipo (sempre dall’alto verso il basso):
Return address |
Puntatore al frame della funzione chiamante |
Variabile locale 1 |
Variabile locale 2 |
... |
Stack Buffer Overflow
Quando il buffer è allocato nello stack, ovvero è una variabile locale di una funzione, l’eventuale immissione all’interno del buffer di una quantità di dati superiore alla sua portata prende il nome di stack buffer overflow (o stack smashing, o stack-based buffer overflow).
In questo caso i dati adiacenti al buffer sono il return address e il frame pointer: al termine dell’esecuzione la funzione tenta di restituire il controllo all’istruzione puntata dal return address che, se è stato sovrascritto dai dati in eccesso del buffer, può contenere:
- L’indirizzo di un’area di memoria non accessibile: i dati in eccesso sono casuali, il programma va in crash restituendo tipicamente un segmentation fault. E’ un esempio di come lo stack buffer overflow può essere utilizzato come attacco del tipo denial-of-service (DoS), compromettendo la disponibilità del servizio colpito.
- Un indirizzo di memoria ben preciso: i dati in eccesso sono calcolati in modo da sovrascrivere il return address con l’indirizzo di un’area di memoria a cui l’attaccante vuole avere accesso, o con l’indirizzo in cui si trova il codice che l’attaccante vuole eseguire.
E’ importante non confondere stack overflow e stack buffer overflow: il primo indica una situazione per cui si richiede una quantità troppo elevata di memoria nello stack, il secondo una situazione in cui (per varie ragioni) si inserisce in un buffer nello stack una quantità di dati più grande della capacità del buffer stesso.[4]
Heap overflow
L'heap overflow avviene quando vi è un eccesso di dati in ingresso nell'area heap della memoria. Solitamente i cracker generano volutamente degli heap overflow per perforare programmi scritti in modo non impeccabile.
Voci correlate
Controllo di autorità | GND (DE) 4752450-9 |
---|
- ^ Inside the Buffer Overflow Attack:Mechanism, Method, & Prevention, su sans.org.
- ^ CWE - 2011 CWE/SANS Top 25 Most Dangerous Software Errors, su cwe.mitre.org. URL consultato il 17 agosto 2016.
- ^ a b William Stallings, Lawrie Brown, Computer Security - Principles and Practice, Pearson, 2015, ISBN 978-0-133-77392-7.
- ^ Jon Erickson, Hacking - The Art of Exploitation, No Starch Press, 2008, ISBN 978-1-59327-144-2.