Modéliser un document

La modélisation d’un document consiste à le découper en éléments abstraits constituant autant de “noeuds” (dans une représentation arborescente) et à définir les relations structurelles entre ces éléments (par exemple un élément est inclus dans un autre, un élément est avant un autre, etc).

Il y a en général plusieurs façons de modéliser un document en fonction de ce qu'on souhaite en faire. Par exemple, un document de type “livre” ne sera pas modélisé de la même façon si l’on cherche à conserver les informations nécessaires à sa localisation dans une bibliothèque ou si l’on cherche à en avoir une visualisation du contenu sur le web. De nombreux critères doivent être pris en compte, par exemple :

  • la définition claire du type de document à modéliser ;
  • l'existence de schémas standards pour le type de document à modéliser ;
  • les usages prévisibles ;
  • le temps et le budget disponibles ;
  • les processus de production ;
  • ...

Les éléments peuvent être des containers, c-à-d. des éléments contenant uniquement d’autres éléments, ou des éléments terminaux

À chaque élément est associé :

  • un nom ;
  • une cardinalité (le nombre d’occurrence minimal et maximale) ;
  • éventuellement, des attributs, permettant de noter des propriétés de l‘élément (par ex: la langue).

Pour les éléments terminaux, il faut associer le type de données qu’il contient. Cela peut être du texte, un mélange de texte et d‘éléments (contenu mixte), des chiffres, une année, une date, etc.