HTML, de même que XHTML, permet de structurer une page Web selon les principes d'un langage à balises. Les différentes balises indiquent de manière hiérarchique le rôle joué par chaque portion d'information dans le contexte de la page Web.
Ainsi, la structure d'un document HTML, comme tout document XML, ne décrit pas le contenu/le message de la page Web, mais reflète la structure de la page Web en elle-même. C'est pourquoi il me semble erroné de parler de « sémantisation », lorsqu'on encode en HTML ou, plus généralement, en XML.
Par exemple, soient les deux portions de code HTML suivants :
<div class="contenu">
<p class="normal">
Le <a href="http://barcamp.org/SemanticCampParis">SemanticWeb camp</a> se déroule à Paris
le samedi 16 février 2008 à partir de 9h30.
</p>
</div>
<div class="description">
<ul>
<li>
Le <strong>SemanticWeb camp</strong> se déroule à Paris
le <em>samedi 16 février 2008 à partir de 9h30</em>.
</li>
</ul>
</div>
Ces deux bouts de code HTML ne sont pas identiques du point de vue de la structure, pourtant, du point de vue du contenu, ils délivrent la même information, le même message. Si certains pourraient y voir une limitation de XML, il n'en est rien. Ce n'est tout simplement pas son rôle.