Skip to content
Lou edited this page Sep 27, 2017 · 4 revisions

Sur Théâtre Classique, la numérotation des vers d'un prologue se prolonge en continu sur le texte de l'acte ou des actes qui suivent, est-ce la meilleurs solution ?

Est-ce utile de poser des identifiants sur tous les composants textuels d’une pièce de théâtre ?

IG

//Sur les projets anglais que j'ai regardés, j'ai toujours trouvé des numérotations en continu. Mon sentiment est qu'on peut faire deux choses: utiliser n pour le nombre de vers depuis le début de la pièce (donc en continu) et des xml:id différenciés pour la numérotation des vers dans le prologue, le corps de la pièce et l'épilogue.

Exemple

<l n="13" xml:id="P02-13">: ce qui se lit "vers 13 depuis le début de la pièce et 13e vers du prologue" (à ce sujet, pourquoi désigner prologue par a et épilogue par z, et non pas par P et E, plus intuitifs? Ceci d'autant plus que la TEI propose des div spéciales "prologue" et "épilogue", et que j'ai demandé à Lou Burnard s'il n'était pas possible de créer aussi une div "interlude") <l n="231" xml:id="l3">: ce qui se lit comme 231 vers depuis le début de la pièce et 2e vers de la pièce proprement dite.//

S’il s’agissait de les poser à la main, le profit ne vaudrait pas la peine, mais il s’agit ici de fixer des règles automatisables pour qu’un programme puisse étiqueter les composants textuels. Quelques avantages :

  • Automatisation — Assurer un patron consistant d’identification permet d’automatiser la transformation d’une référence en identifiant (ex : Acte III scène 4 => III04)
  • Vérification — Par comparaison avec une édition de référence, la numérotation automatique des vers permet de détecter du texte perdu, d’assurer que tous les vers rompus sont bien notés (le marquage des vers rompus avec l’attribut @part="I" 1 vers initial, @part="M" 0 ou + vers médian, @part="F" vers final).
  • Citation — Certaines éditions, par exemple le Molière de l’OBVIL, sont reliées à d’autres corpus comme de la critique littéraire. Établir les identifiants permet d’assurer les liens de retour au texte depuis sa citation.

Quelques idées de consignes

  • Les identifiants sont inscrits en XML dans l’attribut @xml:id.
  • Un identifiant doit être strictement unique à l’échelle d’un fichier. La casse est significative (“a” différent de “A”), mais, il ne faut surtout pas créer des identifiants qui ne se différencie que par la casse, sous peine de confusions. Comme un identifiant peut devenir un nom de fichier (ex: chapitre dans un epub ou sur un site) on adoptera les mêmes consignes évitant les confusions entre les systèmes : pas de lettres accentuées.
  • Dans l’idéal, un patron identifiant doit être compréhensible par un humain, se ranger automatiquement en ordre alphabétique selon la séquence de la pièce, mais, ne pas être un pur numéro séquentiel qui résiste mal aux suppressions et insertions. Attention, la casse, certains systèmes (ex: MS.Windows) refuse de distinguer
  • L’acte I <div type="act" xml:id="I" n="1"> portera l’identifiant I, de même pour II, III, IV, V.
  • Les intermèdes pourront être distingués par l’ajout d’une lettre minuscule au patron d’acte <div type="interlude" xml:id="Ia">, en essayant de conserver l’ordre naturel. Distinguer les intermèdes est important pour les traitements, les paroles inscrites sont souvent destinées à être chantées, et non dites, ce qui change le type de langue. De même, les personnages qui apparaissent ne sont généralement pas liés à l’intrigue principale, ce que doit savoir un moteur de graphe.
  • Un prologue non numéroté portera la lettre minuscule a.
  • Un épilogue (exemple ballet à la fin du Bourgeois gentilhomme) portera la lettre petit z.
  • Dans un acte (ou intermède), les scènes sont numérotées séquentiellement sur deux chiffres <div type="scene" xml:id="II03" n="3"> « Acte II scène 3 ».
  • Dans une scène (ou dans certains prologues ou intermèdes courts), les répliques sont numérotées séquentiellement (pas de 0 initial, trop lourd, une scène pouvant comporter 0 à plus de 100 répliques) <sp xml:id="IV05-5" who="tartuffe"> « Acte IV scène 5, 5e réplique » (Tartuffe)
  • Les identifiants de vers sont construits à partir de leur numérotation. Conformément à la spécification xml, l’identifiant doit commencer par une lettre, car en effet, il n’y a pas de numéro naturel dans un texte (page ? vers ? paragraphe ? mot ?…)

Question à discuter, par quelle lettre faire commencer l’identifiant d’un vers ?

  • l ? logique TEI <l n="102" xml:id="l102">, ce qui assure qu’il n’y a pas de collision avec d’autre composants textuels (mot=<w>, paragraphe=<p>, page =<pb>…)
  • ou v ? pour vers ? (pas encore de collision TEI) IG: je vote pour l, parce que l'anglais est la langue de circulation TEI la plus répandue, mais je conçois que l'argument soit discutable... En tout cas, l assure une plus grande lisibilité par les non-francophones, qui peuvent avoir besoin d'interroger nos textes.

Remarque de Lou : A mon avis, c'est plus important d'assurer que les valeurs xml:id soient UNIQUES pour un corpus de textes extraits de votre magnifique collection. Pourquoi pas

  • inventer un code unique pour chacun des textes (3 lettres suffirait pour des milliers de documents!) et lui fournir comme identifiant de l'élément racine TEI

  • utiliser ce meme code comme préfix pour tout autre valeur d'un attribut xml:id

Oui c'est un peu plus verbose. Mais ce sont des valeurs a traiter automatiquement... Oui c'est chiant de faire une modification de tout le corpus déjà en ligne. mais github est construit pour faciliter cela... Et oui, d'autres solutions sont envisageables. Mais la possibilité de traiter ensemble une selection faite dans ce fonds de textes dans un environnement XML classique me semble assez importante!

Clone this wiki locally