Analizzatore lessicale: differenze tra le versioni

Naviga nella cronologia in modo interattivo

← Differenza precedente

Contenuto cancellato Contenuto aggiunto

VisualeWikitesto

Versione delle 00:57, 7 nov 2015 modifica Tino (discussione \| contributi) Utenti autoverificati 16 073 modifiche m removed Category:Paradigmi di programmazione; added Category:Analisi lessicale usando HotCat ← Differenza precedente		Versione attuale delle 11:37, 31 dic 2024 modifica annulla Datolo12 (discussione \| contributi) Utenti autoverificati 17 666 modifiche sistemo prosa Etichetta: Modifica visuale
(3 versioni intermedie di 3 utenti non mostrate)
Riga 1: {{F\|programmazione\|febbraio 2013}} Un '''analizzatore lessicale'''~~, a volte chiamato~~ ({{Inglese\|'''~~scanner~~lexer'''}} o '''~~lexer~~''scanner'''',') è un programma~~, o una parte di un programma (vedi [[compilatore\|compilatori]] e [[parsing\|parser]]),~~ che ~~si occupa di~~effettua l'[[analisi lessicale~~\|analizzare lessicalmente~~]] di un dato ~~input~~testo, ~~genericamente~~generalmente il [[codice sorgente]] di un programma, producendo da esso una sequenza di ''[[Token (testo)\|token]]''. Il ''token'' è un elemento che ha un nome~~, il ''token name,''~~ e un valore, tipicamente il [[lessema]] ma può trattarsi anche di un insieme di informazioni elementari come il tipo del numero o il punto del programma in cui è definito. I ''token'' costituiscono gli elementi base su cui andrà ad operare un [[analizzatore sintattico]].▼ ~~Quindi il compito di un analizzatore lessicale è di analizzare uno stream di caratteri in input e produrre in uscita uno stream di ''token''.~~ == Funzionamento ==▼ ▲Il ''token'' è un elemento che ha un nome, il ''token name,'' e un valore, tipicamente il [[lessema]] ma può trattarsi anche di un insieme di informazioni elementari come il tipo del numero o il punto del programma in cui è definito. L'individuazione di ''token'' all'interno di ~~uno~~un ~~stream~~flusso di caratteri è effettuata attraverso modelli, definiti attraverso delle [[~~pattern~~espressioni regolari]]. ~~(schemi,~~I seguenti sono un esempio di questi modelli).:▼ ~~I ''token'' costituiscono gli elementi base su cui andrà ad operare un [[analizzatore sintattico]].~~ ▲L'individuazione di ''token'' all'interno di uno stream di caratteri è effettuata attraverso [[pattern]] (schemi, modelli). ▲== Funzionamento == ~~Come scritto prima l'analizzatore lessicale individua i ''token'' attraverso i pattern, definiti attraverso delle [[espressioni regolari]]. Prendiamo ad esempio questi pattern:~~ ~~<code>~~ cifra = 1 \| 2 \| 3 \| 4 \| 5 \| 6 \| 7 \| 8 \| 9 \| 0 numero = cifra cifra* operatore = + \| - \| x \| / ~~</code>~~ ~~Dove il simbolo <code>\|</code> indica l'[[operatore logico]] OR, l'alternativa.~~ Il simbolo '''', asterisco, indica che l'elemento che lo precede può essere ripetuto zero o più volte.▼ Dai modelli sopra riportati abbiamo che una cifra può essere 1 o 2 o 3 .. e così via; un numero è composto da almeno una cifra, e può essere seguito da più cifre. Gli operatori sono quelli classici della matematica. ~~Se noi diamo in input all'analizzatore lessicale la seguente espressione:~~ ▲Ildove il simbolo ~~''''~~<code>\|</code> indica la [[disgiunzione logica]] OR, mentre l'asterisco, indica che l'elemento che lo precede può essere ripetuto zero o più volte. ~~<code>123 + 141 / 725</code>~~ Il modello sopra specifica che una cifra è un numero da 1 a 0, mentre un numero è composto da una o più cifre; un operatore è invece il segno più, meno, per e diviso. Secondo questo modello, la stringa <code>123 + 141 / 725</code> produrrà la seguente sequenza di ''token'', trascurando gli spazi. ~~Ci aspetteremo che l'output sia formato dai seguenti ''token'':~~ {\| ! Tipo ~~''token''~~ ! Lessema (valore ~~del ''token''~~) \|- \| numero Riga 47 ⟶ 34: \|} Per effettuare questo lavoro gli analizzatori lessicali si basano su un [[automa a stati finiti deterministico]], strettamente collegati alle [[espressioni regolari]]. Si parte da uno stato iniziale, e ci si sposta negli altri stati in base al carattere in ingresso sino a quando non si raggiunge uno stato di accettazione nel quale si può inviare il ''token'' in ~~output~~uscita. Ad esempio per il nostro modello avremmo un automa simile al seguente:▼ ~~Da notare come gli spazi bianchi vengano saltati.~~ [[File:Automa di un analizzatore lessicale.png]] ▲Per effettuare questo lavoro gli analizzatori lessicali si basano su un [[automa a stati finiti deterministico]], strettamente collegati alle [[espressioni regolari]]. Si parte da uno stato iniziale, e ci si sposta negli altri stati in base al carattere in ingresso sino a quando non si raggiunge uno stato di accettazione nel quale si può inviare il ''token'' in output. ~~Ad esempio per il nostro modello avremmo un automa simile al seguente:~~ ~~[[File:analizzatorelessicale1.png]]~~ Si inizia dallo stato iniziale (1), e in base al carattere in arrivo ci si può spostare allo stato 2 o al 4. Se arriva una cifra ci si sposterà al 2, e rimarremmo qui finché non arriva qualcosa di diverso da una cifra, in tal caso passeremo allo stato 3. In questo stato, stato di riconoscimento, produrremmo il ''token'', in questo caso di tipo numero, e lo invieremo in uscita. Dopo il riconoscimento si tornerà allo stato iniziale sempre con lo stesso valore di prima. ~~Nel~~Nell'esempio ~~caso del nostro esempio~~precedente, <code>123 + 141 / 725</code>, gli spostamenti tra gli stati sarebbero stati i seguenti: {\| border="1" ! Carattere ! Stato ~~Attuale~~attuale ! Azione \|- Riga 120 ⟶ 104: [[Analisi sintattica]] [[Compilatore]] {{Portale\|informatica}} *[[Parsing]] [[Categoria:Analisi lessicale]]