Documento strutturato

Il documento strutturato è un documento digitale in cui viene utilizzato un qualche metodo di linguaggio di markup per identificare il documento nella sua interezza e le sue parti, assegnando loro significati oltre alla semplice formattazione.[1][2] Ad esempio, un documento strutturato può identificare una parte come "titolo del capitolo" (o "esempio di codice" o "quartina") invece di specificare semplicemente "Helvetica grassetto 24" o "Courier indentato". Queste parti sono generalmente chiamate "componenti" o "elementi" del documento.

Panoramica

modifica

I documenti strutturati si concentrano sull'etichettatura degli elementi per scopi di elaborazione, non solo per la formattazione. Ad esempio, etichettare un "titolo del capitolo" è più utile per i sistemi di accessibilità rispetto alla semplice formattazione. Una chiara etichettatura migliora anche l'integrazione con database e cataloghi online.[3]

I documenti strutturati supportano gerarchie come liste e sezioni, a differenza dei sistemi di pura formattazione. Sistemi avanzati permettono componenti multipli indipendenti o sovrapposti. Possono anche definire regole esplicite ("schemi") con linguaggi come XSD, Relax NG e Schematron.[4]

Lie e Saarela affermano che SGML ha introdotto i documenti strutturati,[5] ma sistemi precedenti come Scribe e Augment offrivano già funzionalità simili. Il suo successore, XML, è oggi il formato più diffuso.

Una delle rappresentazioni più comuni è HTML, definito dal W3C.[6] Tuttavia, HTML include sia tag semantici (paragrafo, titolo) sia di pura formattazione (corsivo, grassetto), e viene usato sia per strutturare documenti che per la formattazione.

Molti settori utilizzano schemi specifici basati su XML, come JATS per la pubblicazione scientifica, TEI per testi letterari, UBL ed EDI per il commercio e XTCE per la telemetria spaziale.

«XML è il formato universale per documenti strutturati e dati sul Web»

Semantica strutturale

modifica

Nei documenti strutturati, l'attenzione è sulla struttura logica anziché sulla presentazione visiva. Questo permette un'elaborazione più efficace per generare versioni derivate.

Ad esempio, Wikipedia genera automaticamente l'indice dalle intestazioni. La conversione in SGML dell'Oxford English Dictionary ha distinto i diversi usi del corsivo, migliorando la ricerca.[7][8]

L'uso di HTML semantico migliora l'accessibilità per gli ipovedenti.[9][10] Anche le agenzie di viaggio traggono vantaggio dai documenti strutturati, permettendo un'integrazione più facile con calendari e sistemi di gestione.

In HTML, la struttura include elementi come <body>, <h1> e <p>:

<body>
<h1>Documento strutturato</h1>
<p>Un <strong class="selflink">documento strutturato</strong> è un <a href="/wiki/Documento_elettronico" title="Documento elettronico">documento elettronico</a> che utilizza il <a href="/wiki/Linguaggio_di_markup" title="Linguaggio di markup">markup</a> per identificare il contenuto.</p>  
</body>

Uno dei vantaggi principali è la possibilità di riutilizzare i documenti in vari contesti e dispositivi.

Altra semantica

modifica

Alcuni elementi testuali, pur non essendo strutturali in senso tradizionale, esprimono informazioni sulla natura delle sezioni del documento anziché sulla loro presentazione.[11]

Ad esempio, <strong> indica enfasi, che può essere resa graficamente in grassetto o tramite inflessione vocale. Il markup semantico esclude tag come <b>, che hanno solo una funzione visiva.

HTML offre tag strutturali come <abbr>, <cite>, <del>, <dfn>, <ins>, <kbd>, e <q>, mentre schemi come DocBook e TEI ne ampliano la gamma.[12]

Il tag <a> crea una struttura di collegamento, essenziale quanto la divisione sezionale, e può essere sostituito dalla transclusione.

Contesto e intento

modifica

La distinzione tra "strutturale" e "non strutturale" dipende dal contesto. Ad esempio, in un libro sulla tipografia, etichette come "corsivo" o "grassetto" sono centrali per la discussione e devono essere rese in modo coerente, così come nelle analisi grammaticali o in altri ambiti.[13]

  1. ^ Introduzione al funzionamento del markup dei dati strutturati | Google Search Central | Documentazione, su Google for Developers. URL consultato il 19 febbraio 2025.
  2. ^ Accessibility 103: Structure What and Why, su www.d.umn.edu. URL consultato il 19 febbraio 2025.
  3. ^ Proceedings of Extreme Markup Languages®, su conferences.idealliance.org. URL consultato il 19 febbraio 2025 (archiviato dall'url originale il 28 giugno 2018).
  4. ^ (EN) Comparing Schema Languages, su learn.microsoft.com, 27 ottobre 2016. URL consultato il 19 febbraio 2025.
  5. ^ Multi-purpose publishing using HTML, XML, and CSS, su www.w3.org. URL consultato il 19 febbraio 2025 (archiviato dall'url originale il 16 aprile 2013).
  6. ^ (EN) HTML: HyperText Markup Language | MDN, su developer.mozilla.org, 3 febbraio 2025. URL consultato il 19 febbraio 2025.
  7. ^ (EN) Heather Fawcett, The "New Oxford English Dictionary" Project, in Technical Communication, vol. 40, n. 3, 1993, pp. 379-82, ISSN 0049-3155 (WC · ACNP). URL consultato il 19 febbraio 2025.
  8. ^ (EN) Laura Elliot, How the Oxford English Dictionary Went Online, in Ariadne, n. 24, 2000, ISSN 1361-3200 (WC · ACNP). URL consultato il 19 febbraio 2025.
  9. ^ Semantic HTML: Enhancing Accessibility and SEO, su www.nobledesktop.com. URL consultato il 19 febbraio 2025.
  10. ^ (EN) HTML: A good basis for accessibility - Learn web development | MDN, su developer.mozilla.org, 23 gennaio 2025. URL consultato il 19 febbraio 2025.
  11. ^ (EN) What Is Semantic Markup and Why You Should Use It, su DEV Community, 22 luglio 2021. URL consultato il 19 febbraio 2025.
  12. ^ (EN) Naomi Truan e Laurent Romary, Building, Encoding, and Annotating a Corpus of Parliamentary Debates in TEI XML, in Journal of the Text Encoding Initiative, Issue 14, 17 marzo 2021, DOI:10.4000/jtei.4164. URL consultato il 19 febbraio 2025.
  13. ^ Understanding the Importance of Context in Grammar Usage, su www.nobledesktop.com. URL consultato il 19 febbraio 2025.