[go: up one dir, main page]

Aller au contenu

Utilisateur:Andromelia/Brouillon

Une page de Wikipédia, l'encyclopédie libre.

Édition numérique[modifier | modifier le code]

Introduction[modifier | modifier le code]

Marin Dacos est ingénieur recherche au CNRS ; architecte des systèmes d’information, de formation historien.

Pierre Mounier est un des principaux acteurs des humanités numériques = les gens qui font un métier à cheval entre les sciences sociales et le numérique = les ornithorynques. C'est un tremplin important pour l’emploi, très peu de personnes qui maitrisent les deux domaines.

Marin Dacos est le directeur du CLEO (Centre pour l’édition électronique ouverte), créé en 1999 par lui-même. Le CLEO développe quatre grandes plateformes :

  • Revues.org : 439 revues en ligne ;
  • OpenEdition Books : plus de 3000 livres ;
  • Hypotheses : diffuse 1600 blogs appelés « carnets de recherche », blogs de chercheurs ;
  • Calenda : 33000 évènements scientifiques.

Derrière, il y a de nombreuses personnes, du juridique au commercial. Rôle européen assez important pour les revues et les livres, dans le secteur sciences humaines et sociales.

L’édition électronique[modifier | modifier le code]

On va parler du texte numérique et non pas du livre numérique : on ne s’enferme pas dans le concept de livre numérique et encore moins de « ebook ». On va donc parler de texte numérique ou texte électronique. On retrouve le texte électronique et l’édition électronique dans les revues scientifiques, la presse en ligne, les ebooks, les blogs, et Wikipedia, entre autres. On distingue également les livres numériques (trouvables sur les plateformes comme la FNAC, Ibooks, Amazon, etc.) et les livres numérisés (qu’on trouve sur Google Books, Galica, Persée...).

Sept caractéristiques du texte électronique[modifier | modifier le code]

  • Première caractéristique

Le texte numérique est quasiment immatériel. L’empreinte écologique de l’édition numérique est considérable ; si c’était complètement immatériel, on n’aurait pas besoin de matériel. Il y a toujours besoin d’un support + les câbles qui passent sous la mer qui fournissent l’accès + les data center = grands bâtiments dans lesquels on entrepose des dizaines de milliers de serveurs dont le travail est de répondre à des requêtes d’autres ordinateurs ou d’utilisateurs. Ces data center demandent beaucoup d’énergie (pour alimenter les machines et pour les refroidir) et c’est très coûteux. La consommation mondiale d’électricité serait différente si on n’avait pas les data center. Donc ce n’est pas un environnement immatériel.

De plus, les environnements sont de moins en moins « bidouillables », c'est-à-dire qu’on a de moins en moins de contrôle dessus. On le voit beaucoup sur les voitures, avant on pouvait changer les pièces nous-mêmes, maintenant il y a tellement d’électroniques qu’il faut le faire faire par des professionnels. Cela coûte cher et on n’est pas dépendant ; on est de plus en plus dans une situation de location que de disposition de la propriété du produit.

Mais effectivement, le livre numérique ne pèse rien, pas d’encombrement en plus si je mets 10 ou 100 livres numériques (contrairement aux livres physiques), donc en ce sens-là c’est immatériel.

  • Seconde caractéristique

Le livre numérique circule avec une très grande fluidité. On peut envoyer très facilement un livre électronique.

  • Troisième caractéristique

En tant que quasiment immatériel, il est reproductible quasiment sans coût spécifique. Là encore, le mot important est le « quasiment » car deux raisons : d’abord, il y a un coût spécifique liée à l’impact écologique des emails. Les études là-dessus montrent que le fait d’avoir des emails dans notre boîte mail consomme de l’énergie. En fait, les emails ne sont pas sur notre ordinateur mais dans le data center, qui consomme donc de l’énergie. Pour que les données numériques vivent, il faut tout le temps les ranimer, donc ça coûte de l’énergie. Pour économiser, il faut détruire les mails inutiles.

L’autre coût spécifique concerne les grandes échelles. Ils le voient bien sur Open Edition sur lequel il y a 64 millions de visites par an ; chaque visite crée des messages ou des fichiers de logs. Il y a des centaines d’interactions chaque minute entre le serveur et l’internaute. Il faut donc qu’il y ait plusieurs machines en même temps qui travaillent sur la même chose pour que le service soit optimal. Le site récupère tous les messages et les stocke pour un historique : s’il y a un problème, on a une sauvegarde. Donc le coût spécifique de la reproduction d’un texte numérique est quand même là : ça fait émerger ce qu’on appelle l’âge des plateformes. L’idée générale est qu’il est nécessaire de rejoindre des grosses plateformes (Google, Amazon, Facebook...) pour avoir une grosse puissance. Sans les grosses plateformes, les sites qui génèrent beaucoup de visites ne tiendraient pas.

  • Quatrième caractéristique

Le texte numérique se dote de couches successives (mais on ne le voit pas toujours). Dans les couches successives, on trouve les métadonnées (titre, auteur, collection, ISBN, couverture, table des matières, etc.) ; les annotations individuelles, en dessous du texte (surlignage par exemple ou commentaires sur les PDF, commentaires et notes sur Amazon, commentaires sur les blogs et sur YouTube par exemple, commentaires et notes sur les réseaux de lecteurs). Ce sont des couches publiques ou privées. On peut aussi faire des commentaires sur des unités documentaires (paragraphe, mot, etc.). Tout ça ajoute des couches documentaires au livre lui-même.

On est dans un univers totalement éclaté : une note sur une plateforme ne nous permet pas de voir la note sur une autre plateforme = silos isolés. Celui qui détient le silo de données le plus important détient le pouvoir : il détient une information qui a été crowdsourcée (comme le crowdfunding mais sans argent et parfois pas conscient) c'est-à-dire que les données sont alimentées par la foule (et en fait on fait ça toute la journée).

Parenthèse

L’adresse IP correspond à un identifiant normalement unique pour chaque personne, mais l’IP est donnée par notre FAI = fournisseur d’accès internet (ici AMU par exemple), le fournisseur peut passer par un proxy qui a une seule adresse IP (adresse qui nous est attribuée) donc on peut être plusieurs derrière une même IP. Les FAI classiques (Free, Orange...) ont un nombre d’IP moins important que le nombre d’abonnés, on a donc la plupart du temps une IP provisoire. Si on se connecte sur différents FAI on a donc différentes IP sur une même journée (exemple : une IP au moment où je suis connectée à la fac, une autre le soir chez moi avec Free, etc.). On peut donc être plusieurs personnes avec une même adresse IP à un moment donné, comme une seule personne avec plusieurs adresses IP dans une journée par exemple.

Or, le site que l’on visite (qui connait notre adresse IP au moment où on le visite) aimerait savoir s’il a un seul utilisateur sous différentes IP ou plusieurs sur une seule IP. Le site utilise donc les cookies (cookie = ce que le site écrit sur nous), à chaque fois qu’on demande une nouvelle page le site demande l’accès aux cookies (aux siens) et donc il peut vérifier si c’est toujours la même personne ou non. Si on les supprime, on repart à zéro, comme s’il ne nous connaissait pas, mais si c’est un site sur lequel on a un compte, tout est stocké quand même. Il existe des cookies de régies publicitaires qui fonctionnent avec plusieurs sites donc les cookies sont transmis de site en site et tous les sites qui fonctionnent avec la même régie nous afficheront des informations liées à nos activités sur les autres sites.

  • Cinquième caractéristique

Le texte numérique est hypertextuel, c'est-à-dire liable. Pour comprendre ça, il faut faire un retour en arrière.

Tim Berners Lee est l’inventeur du WEB. Le Web est un tout petit bout d’Internet. Dans les années 1970, les chercheurs avaient besoin d’échanger les données entre eux, ils en avaient marre de la diligence et cie, ils commençaient à avoir des ordinateurs et donc ils ont inventé ARPANET (un des réseaux inventés à cette époque). Dans les années 80, des gens ont voulu relié tous les réseaux existants, ce qui a été fait grâce à Internet, le réseau des réseaux. La technologie utilisée est TCP/IP. Le principe = transmission de paquets de données (la commutation de paquets de données) : l’idée est que l’envoi d’un fichier d’une machine à une autre est compliqué (notamment s’il y a une coupure sur la ligne, il faudra renvoyer, etc.) donc on a décidé de découper le fichier en tout petits paquets, envoyés au lieu d’un gros fichier. Les paquets se baladent sur le réseau jusqu’à atteindre leur destination, sans prendre tous la même route. Les routeurs font transiter les données, ils mènent les données d’un point vers l’autre. Quand tous les paquets sont arrivés, ils se réassemblent en un fichier final. Le système supporte les pannes puisqu’il y a de nombreuses routes, des ramifications, etc. C’est donc difficile de détruire le réseau.

Deux autres couches ont été construites par-dessus TCP/IP : la deuxième couche est le DNS (« domain name system »). À partir du moment où on a multiplié le nombre d’utilisateurs, on a inventé le DNS, qui gère la conversion entre le nom et les adresses d’une part et des IP d’autre part. C’est tout simplement un tableau : d’un côté le domaine (Yahoo) et de l’autre l’adresse IP (77.238.184.24). C’est quand même plus pratique de retenir le nom du site que son adresse IP. Quand on tape « yahoo.fr », le système interroge un DNS et donne l’adresse IP. On a également une capacité de changer l’IP du serveur, sachant qu’il y a une latence DNS de 24 à 48h : pour que le système fonctionne, il faut des serveurs DNS de proximité (il existe 12 serveurs DNS matrices = racines, et il y en a des milliers qui copient ce qu’il y a dans les racines) ; lorsque les serveurs DNS se passent l’information, ça peut prendre jusqu’à 48h pour que ça arrive partout. Lorsqu’on change de serveur DNS, 48h après tout le monde est sur le même serveur, mais entre-temps on peut avoir accès à des sites web différents selon où on se trouve (Marseille vs Pékin par exemple ou même AMU vs Orange par exemple).

Dans la couche DNS il existe un système URL : il faut apprendre à les lire, de droite à gauche puis de gauche à droite.

Exemple : www.marsactu.fr/gaudin.html on lit d’abord la partie en gras de droite à gauche.

.fr = TLD (« top level domain », .com, etc., chaque TLD est géré par une instance différente). A gauche du .fr, on comprend donc que l’état français a donné l’autorisation au site de s’appeler marsactu.

Marsactu = domaine (loué). Le domaine devient la marque visible du site.

www.blog.marsactu.fr = blog. = sous-domaine. C’est marsactu qui a le droit de donner tout ce qui a à la gauche, il contrôle tout ce qui est à sa gauche.

A gauche on a http ou https:// = le protocole.

Ensuite on se met à lire de la gauche vers la droite = adresse plus fine. Là on est sur une page qui concerne Gaudin.

Comme c’est le site en question qui choisit tout ce qui est à gauche, le site peut mettre n’importe quoi : c’est comme ça qu’on croit n’importe quoi, et c’est comme ça qu’on fait du phishing. Il faut donc se méfier, d’où l’intérêt de bien lire une URL. De plus, il faut aussi se méfier du lien vers lequel le site envoie (ce qui s’affiche lorsqu’on passe la souris sur le lien), des fois le lien ne correspond pas à ce qu’il renvoie vraiment (là réside le piège).


La dernière couche est le web, qui s’appuie sur le protocole http, sur le navigateur web et sur le langage html. Mais on peut faire d’autres choses avec d’autres protocoles, etc. Le web est donc une toute petite partie de ce qu’on trouve sur Internet (le web c’est la navigation qu’on fait tous les jours). Exemple quand on fait du bittorrent, on est pas du tout sur du web (on a un logiciel à part, etc.). On utilise aussi d’autres protocoles tous les jours comme IMAP lorsqu’on échange des mails (vu que c’est sur Internet, ce ne sont pas des logiciels à part). Dans certains pays, on peut contourner la censure Internet en déclarant d’autres serveurs que les serveurs DNS dédiés. On peut également se connecter via des tuyaux pour faire semblant d’être dans un pays différent. On peut appeler le web la toile dans le sens où tout est lié. Il y a au moins 10 % du web qui disparait ou change d’adresse. Le web est structurellement instable.

Du coup, à partir du moment où on sait lire une URL, on sait faire un lien hypertexte. Avec tout ça, on peut comprendre que le texte électronique est hypertextuel.

  • Sixième caractéristique

Le texte numérique est indexable, la plupart du temps. L’indexabilité c’est essentiellement des outils comme Google, mais pas seulement. Un moteur de recherche peut également chercher dans nos fichiers présents sur notre disque dur. L’indexabilité est une caractéristique fondamentale, avec de nombreuses règles et fonctions.

Plusieurs notions sont importantes concernant l’indexabilité :

  1. Permet de dire au moteur de recherche ce qu’il a le droit d’indexer et ce qu’il n’a pas le droit d’indexer, on appelle ça le robots.txt. Chaque site a, à sa racine, un robots.txt qui donne aux moteurs de recherche les règles du site, ce qu’ils ont le droit de faire et ce qu’ils n’ont pas le droit de faire. On peut voir sur cette page également ceux qui sont interdits d’indexer (qui ont été bannis en quelque sorte).
  2. Les fermes de liens = vendent des liens massifs pour truquer le PageRank de Google. Ça marche aussi avec le spamdexing qui trompent les moteurs de recherche (fermes de contenu).
  3. L'indexabilité de l’ebook. Derrière le mot « ebook » il y a deux notions : les fichiers epub ou PDF etc. d’une part et les livres-applications d’autre part. Les livres-applications sont fait pour les tablettes par exemple. Le livre-application est un logiciel et donc il n’est pas pérenne, n’est pas universel, n’est pas indexable. C’est donc un produit étrange à vendre car il n’a pas une espérance de vie technique incroyable (1 ou 2 ans), c’est un produit périssable alors que l’ebook est plus robuste. Les livres-applications sont donc problématiques car dépendants d’un environnement et c’est une boite noire dans laquelle on ne peut pas faire d’indexation.
  4. La fouille de textes, qui permet de parcourir et indexer des contenus et produire de nouvelles connaissances grâce à ça. Open Edition développent de la fouille de textes dans « Open Edition Lab ». Ils développent un algorithme ou un robot qui essaie de retrouver les références bibliographiques pour faire des liens vers ce à quoi cela renvoie pour créer un texte hypertextuel. Ils ont montré à un robot comment ils aimeraient que ce soit : 3000 références faites par un humain comme matière à imiter. Le robot écrit donc la référence en html et demande à CrossRef si cette référence existe en électronique, CrossRef va lui donner le DOI si elle existe et le robot va intégrer le DOI à la référence. Il va y avoir une résolution de nom (comme pour le tableau DNS) avec le DOI d’un côté et l’URL de l’autre. CrossRef s’occupe de changer l’URL si besoin, le DOI reste le même. Sur l’article, on aura donc un DOI cliquable qui renvoie vers la référence en question si le robot (Bilbo sur Open Edition) a trouvé un DOI (grâce à CrossRef).

Deuxième projet de fouille de textes, Review of Books : détecter automatiquement et relier les comptes rendus présents sur revues.org et sur hypotheses. Ils ont identifié la signature lexicale des comptes rendus face aux textes en eux-mêmes : différences de comportement entre le texte et le compte rendu. Ils ont réussi à trouver que sans lire le texte, on peut prédire à 92 % si le texte est un compte rendu ou pas. Ils ont donc des algorithmes qui travaillent sur le contenu et ils ont pour mission d’ajouter du sens à ce contenu et ensuite de créer des liens. Grâce à ça, ils peuvent également relier une référence à son compte rendu.

Ce sont deux exemples de fonctionnalités qu’offre la fouille de textes. Le pendant de la fouille de textes est la fouille de données. Les recommandations sur Spotify par exemple ne sont rien d’autres que de la fouille de données (TDM = Text and Data Mining). Ce sont des technologies de plus en plus utilisées dans le monde de la bibliothèque, de l’édition et de la librairie. Ce n’est pas forcément complexe mais long et coûteux dans la recherche et le développement.

  • Septième caractéristique

Le type d’économie à laquelle appartient l’édition électronique est l’économie de l’attention. On distingue le numérique du monde analogique. Le livre analogique s’oppose au livre numérique pour plusieurs raisons mais déjà car c’est un bien rival (le bien ne peut pas se démultiplier, je le donne = je le perds), alors qu’un fichier epub envoyé à quelqu’un = je l’ai toujours, le livre numérique est non rival (ce n’est pas en le donnant que je le perds).

Ce qui est paradoxal, c’est qu’historiquement, le livre propage de la connaissance et la connaissance a toujours été non rivale (on transmet la connaissance mais on ne la perd pas). Le livre transportait donc quelque chose de non rival dans quelque chose de rival, et il a construit toute son économie autour. La connaissance reste non rivale et avec le texte électronique les deux éléments ont les deux mêmes propriétés. L’inconvénient c’est que l’architecture selon laquelle on avait construit l’économie se dérobe : il n’y a plus de raison pour cette économie, ou bien cela devient compliqué. Du coup, on recrée de la rivalité dans l’édition des livres électroniques. Notamment avec le DRM (Digital Rights Management) = système de gestion des droits, en français on utilise le terme MTP (Mesure Technique de Protection).

Le DRM, à l’ouverture du texte, opère une vérification (un verrou est mis en place et le livre est crypté, le verrou va décrypter le texte une fois qu’il considère qu’on a les droits). On crée donc de l’illisibilité. Logiciels qui décryptent les DRM : iBooks, Adobe Digital Edition. On est obligé d’utiliser un logiciel spécifique pour lire les DRM, cela contraint l’usage. C’est donc une situation particulière puisqu’on achète un livre et en même temps l’éditeur nous soupçonne de vouloir le pirater et donc casse le rapport avec le lecteur. Il existe des solutions plus « soft » au DRM : le watermarking : à l’achat d’un livre, il va être légèrement modifié (le nom de l’acheteur est mis sur la couverture du livre par exemple), du coup s’il est propagé le lecteur est responsable avec son nom dessus, mais il reste lisible. Cela décourage mais n’est pas aussi contraignant que le DRM.

Les biens rivaux appartiennent à une économie de la rareté : les lecteurs sont en concurrence les uns par rapport aux autres pour trouver le livre voulu. Avec le numérique on inverse l’équation : on est dans une économie de l’attention = énormément de documents cherchent l’attention du lecteur (hypersollicitation, etc.). Difficile d’obtenir l’attention du lecteur car la production a augmenté et la rareté n’est plus au même endroit. Il faut donc tout repenser, notamment le modèle économique de la presse.

Aujourd’hui, il y a une profusion de contenus qui cherchent à attirer l’attention du lectorat. Un système d’abonnement peut être mis en place par les journaux, mais il y a quand même la concurrence car un bon nombre d’articles sont les mêmes (ou traitent le même sujet) sur plusieurs journaux. Donc coincé par les contraintes : besoin d’ouverture car besoin de visibilité mais besoin d’abonnés donc besoin de fermeture. Les deux sont en opposition. Une solution : les putaclics c'est-à-dire des articles qui, par leur nom (ou leur image de présentation) vont inciter le lecteur à cliquer (quelque chose qui attire l’œil, qui interroge la curiosité du lecteur) et donc à lire l’article. Une autre solution est le modèle de MediaPart qui dit « on restera toujours payant mais on aura toujours des articles inédits ». On trouve des solutions intermédiaires : le moving wall = barrière mobile, on décide un délai durant lequel seuls les abonnés ont accès au contenu puis passé ce délai le contenu est libre et tout le monde y a accès (ce peut être un délai de 24h, 2 mois, 2 ans...) ; ou encore le freemium, mis en place par Open Edition et par le New York Times. Le freemium, c’est d’avoir le plus possible d’utilisateurs gratuits et de convertir 5 à 10 % d’utilisateurs en premium en proposant un service complet (et réduit pour les gratuits). Donc ce n’est pas restreint sur le contenu ou sur le délai mais dans la capacité (comme dropbox par exemple) ou le service (avast par exemple), mais les utilisateurs gratuits ont quand même un service satisfaisant. Le New York Times a proposé une solution freemium adaptée à l’édition : étant en permanence en compétition avec le Guardian et le Metro News, il leur faut quelque chose qui soit satisfaisant pour les utilisateurs gratuits. Ils ont décidé de restreindre le nombre d’articles auxquels on peut accéder dans le mois : au bout de 10 articles dans le mois, ils bloquent l’accès et proposent de s’abonner. C’est astucieux, ce n’est pas agressif (marche avec les cookies, qui sont très soft), mais en revanche ça construit une relation avec l’utilisateur.

Le langage Wiki[modifier | modifier le code]

C’est le langage qu’on rencontre sur Wikipedia (qui, pour le prof est le parangon de l’édition numérique).

Sur wiki : utilisateur Andromelia.

Prévisualiser permet de voir le résultat de notre code : lien entre le code et l’interprétation.

Bleu = lien, rouge = inexistant.

L’outil qui permet de pas écrire en code partout = WYSIWYG = what you see is what you get.

Historique de l'édition électronique[modifier | modifier le code]

Faire un historique permet de replacer ce qu’on étudie dans certaines grandes catégories. L’histoire de l’édition électronique se décompose en trois grandes étapes : une étape n’a pas remplacé l’autre mais s’est ajoutée. Les trois étapes cohabitent aujourd’hui sans difficulté et n’ont pas été rendues obsolètes par de nouvelles technologies. Cela correspond un peu à l’histoire des médias : un média ne remplace pas l’autre, il y a cohabitation donc diversité des médias.

Exemples d’édition électronique : Google Books, Galica, et tout ce qu’on avait vu dans le cours précédent (presse en ligne, revues scientifiques, eBooks, blogs, Wikipedia). Dans cette liste, on peut distinguer trois étapes.

La numérisation[modifier | modifier le code]

Ce que fait Galica et Google Books = passage d’un support analogique à un support numérique. En général on scanne et on convertit le support.

Plusieurs types de numérisation :

  1. En mode image (stratégie de Galica) = pixels alignés pour former une image, ça correspond à ce qu’on appelle un fac-similé de l’édition originale. Cela pose un certain nombre de limites : on ne peut pas manipuler l’information (on peut changer le contraste par exemple et les couleurs, mais on ne peut pas faire de recherche dessus ou des copier-coller). Le mode image est donc assez limité.
  2. Reconnaissance Optique de Caractère (OCR en anglais) = permet de faire un traitement automatique sur l’image pour interpréter les pixels. Cela transforme l’alignement de pixels qui forme un « o » par exemple, en « o ». C’est une retranscription qui transforme les pixels en leur forme (l’ordinateur les reconnait). L’OCR convertit donc les images en texte ou en information (graphique, tableau, image, etc.). C’est ce que font maintenant Google Books et Galica, mais à l’origine c’était simplement en mode image. Persee.fr font de la bonne reconnaissance optique de caractères. On peut considérer que l’OCR relève du type de traitement des TDM (fouille de données).
  3. Captcha = reconnaissance optique de caractères avec nos propres yeux, on nous demande nous-même de transformer ce qu’on voit en texte. Sans le savoir, on travaille pour le système qui nous demande si on est humain (= digital labor). La plupart du temps, il nous demande de décrypter deux mots : l’ordinateur connait un des deux (nécessaire pour qu’il vérifie si on est bien humain) et le deuxième il ne le connait pas. En le décryptant, on alimente donc sa base de données / base de connaissance : on travaille pour l’ordinateur, gratuitement. Autre exemple de sous-traitance : Amazon Mechanical Turk = Amazon demande à des êtres humains des informations pour 0,01 centime et ensuite Amazon nous revend cette information : permet d’alimenter la base de données avec différentes informations que les intelligences artificielles ne peuvent pas collecter. Le mecanical turk est beaucoup utilisé pour créer des bases de connaissance.

Historique et utilisations

La numérisation a commencé autour des années 2000 avec Galica mais la plus ancienne date de 1949 : un prêtre, Roberto Busa, a voulu numériser les œuvres de St Thomas d’Aquin et il l’a fait avec l’aide d’IBM. Ils ont travaillé sur l’Index Thomisticus. Il s’agit d’un index et pas d’une numérisation page à page mais cela reste de la numérisation.

Au sens plus concret du terme, la première numérisation qui permet d’accéder à l’intégralité du texte date de 1971 : Mickael Hart crée le projet Gutenberg à l’université d’Illinois. Il avait accès à des ordinateurs dans son centre de recherche et a commencé à numériser la déclaration d’indépendance des Etats-Unis, à la main = il l’a recopiée sur son ordinateur. Ce projet s’est développé et existe toujours car il numérise plusieurs dizaines de milliers d’œuvres par les bénévoles du projet Gutenberg. Aujourd’hui, ils ont plus de 53 000 livres disponibles. Ce projet, très ancien, a survécu à tout un tas de développements technologiques.

Ensuite, il y a eu ABU = projet La Bibliothèque Universelle. Le projet n’existe plus mais le site est toujours en ligne. Même quand on saisit à la main c’est quand même de la numérisation.

Un autre projet important : les classiques des sciences sociales, projet canadien démarré en 2000 et toujours existant, dans lesquels il y a 6 000 œuvres de sciences sociales.

Enfin, le plus important et finalement le plus récent = Wikisource, projet de Wikipedia. Le but est toujours le même, de transformer des œuvres papiers en œuvres numériques et donner un accès à tous (gratuitement). Tous ces exemples fonctionnent bien car ce sont des œuvres qui se sont élevées dans le domaine public (ou dont ils ont les droits de publication). En s’élevant dans le domaine public, une œuvre gagne : les droits patrimoniaux sont abolis et tout le monde peut se saisir de l’œuvre.

Parenthèse sur le droit d’auteur

Dans le droit français, on distingue le droit moral et le droit patrimonial. Lorsque je crée une œuvre, même si personne ne le sait, cette œuvre est protégée par le droit d’auteur. On peut ici faire la distinction avec le brevet, qui protège une invention, mais seulement une fois que je le déclare (et il doit être secret avant cette communication ; on peut publier des articles etc. après mais seulement après, sinon ce n’est pas accepté). La seule chose qui distingue l’œuvre de quelque chose qui ne serait pas une œuvre c’est l’originalité : recopier l’annuaire n’est pas protégé par le droit d’auteur. Il faut que ce soit une nouvelle œuvre. Cette nouvelle œuvre est protégée par le droit moral et par le droit patrimonial. Le droit moral survit à la mort et on ne peut pas le céder (incessible), paternité ; le droit patrimonial est le droit d’exploitation de l’œuvre (qu’elle soit payante ou gratuite). On peut céder le droit patrimonial à un éditeur par exemple, dans certaines conditions (pour deux ans par exemple / sur deux ans et sur papier / sur deux ans mais qu’en français, etc.) et de manière non exclusive (je cède à Gallimard mais je peux céder à quelqu’un d’autre ou non). Si on signe un contrat comme quoi on cède sur tous supports, ce n’est pas légal : il faut que tous les supports soient inscrits sur le contrat (à la sortie d’un nouveau support, il faut donc refaire les contrats). Permet de céder à plusieurs personnes en même temps par exemple, selon les conditions. 70 ans après notre mort, les droits patrimoniaux ne nous appartiennent plus mais ils sont dans le domaine public : toute personne peut exploiter l’œuvre tout en respectant le droit moral, donc la paternité.

En vérité, c’est un peu plus complexe que cela, car les droits d’auteur peuvent être délicats. Exemple avec le Journal d’Anne Frank qui est normalement passé dans le domaine public puisqu’Anne Frank est morte en 1945, mais son père ayant réécrit le texte, la réédition a été considérée comme une nouvelle œuvre et donc elle n’est pas encore entrée dans le domaine public (son père étant mort il y a moins de 70 ans). Cela donne une idée de la complexité des droits d’auteur...

Wikisource : dans Wikipedia, on considère qu’il faut toujours sourcer les informations qu’on donne, et une source primordiale est les livres. Ils ont donc appelé Wikisource pour faire référence à cela. A ne pas confondre avec Wikibooks = les manuels écrits par les wikipédiens. Wikisource est née en 2003 et s’appeler à la base Sourceberg (métaphore avec iceberg). Ils ont plus de 200 000 livres.

En 2004, Google a lancé Google Print qui est devenu Google Books. Google s’est dit qu’il avait besoin d’une base de connaissance : quelle meilleure base de connaissance que les œuvres créées par l’humanité ? Google s’est associé à des bibliothécaires pour numériser. Il y a eu des problèmes avec les éditeurs car Google n’avait pas demandé leur avis.

Opt In vs Opt Out : l’opt in est un mécanisme dans lequel je fais intégrer dans mon projet les gens qui ont donné leur accord explicite d’adhérer au projet (ce qui est normalement la base du droit d’auteur) ; l’opt out est ce qu’a fait Google en numérisant tout et en donnant l’autorisation de déclarer la possibilité de sortir du système. Opt in = on est dans le système que si on a explicitement dit oui ; Opt out = on est dans le système automatiquement sauf si on dit explicitement non. Techniquement, du point de vue du droit, l’opt out n’est pas légal. Ils se sont appuyés sur le droit de courtes citations = la seule chose autorisée dans le droit patrimonial. On a le droit d’exploiter un extrait de petite taille pour une œuvre qui est normalement protégée. On peut discuter ce que veut dire « court », rien n’est précisé dans la loi. On considère que la courte citation est en proportion à l’œuvre entière (on peut citer une page entière si l’œuvre fait mille pages). Google Books utilise donc ce droit dans son utilisation, même si en vrai ils ont tout le texte : bizarrement, on tombe toujours sur la portion qu’on recherche... (Ils n’ont pas cherché à sélectionner une portion mais ont tout numériser et ne rendent accessible qu’une portion.)

Le projet RELIRE est porté par le SNE (+ CNL et BNF) et s’appuie sur un problème réel = les œuvres indisponibles. Les œuvres indisponibles ne sont plus exploitées mais pas encore libres (pas encore dans le domaine public) = zone grise, qui couvre des dizaines voire des centaines de milliers d’œuvres inexploitées mais protégées. La seule solution est de demander à l’ayant droit l’autorisation d’exploiter l’œuvre : sauf que les coûts de transaction sont importants. C’est la correspondance entre nous et l’ayant droit (trouver l’adresse, écrire un courrier, aller-retour, etc.), ça peut être très simple comme très compliqué, du contact jusqu’à la signature du contrat. Le coût de transaction peut être de quelques minutes comme de plusieurs mois et années selon le nombre d’œuvres que je veux numériser. Le temps que cela prend est converti en argent (le coût est compté en temps et en argent, c’est indifférencié). C’est aussi pour cela que Google a opté pour l’opt out à la base (compliqué et cher de trouver l’ayant droit et d’avoir les accords).

Le raisonnement du projet RELIRE = finalement, Google n’a pas été couillon d’opter pour l’opt out, donc on va faire pareil. Avec l’argent de l’Etat, on va numériser dans le fond de la BNF tout un tas de livres inexploités aujourd’hui mais qui sont probablement encore sous droits. On va ensuite publier cette liste d’ouvrages et dire aux auteurs / aux ayants droits qu’ils ont six mois pour s’opposer à la publication de leur œuvre sinon elle est publiée (mais ils ne préviennent pas les auteurs, ils font aussi de l’opt out). Claude Ponti s’est beaucoup énervé face à cette histoire. Ils ont commencé à numériser ses œuvres (à partir de 2000) sauf qu’il leur a dit qu’il ne voulait pas. Face à son refus, le projet RELIRE a demandé plein de procédures (prouver que c’est bien lui l’auteur, etc.). Les auteurs ont fini par faire des procès, qu’ils ont gagné face au projet, la Cour de Justice Européenne a condamné le projet RELIRE. Le projet est actuellement en stand-by.

Tout ça pour dire que la numérisation continue et que cela va continuer longtemps.

L’édition nativement numérique[modifier | modifier le code]

Elle a une petite trentaine d’années. L’édition nativement numérique peut alimenter l’édition papier, mais ce qui semble le plus important et le plus nouveau c’est le circuit qui mène l’édition numérique en ligne. La première phase de l’édition nativement numérique est la PAO (dont on parlera rapidement plus tard). Puis les CMS = content managing system.

Les CMS

Ce sont des logiciels qui alimentent les sites web : Wordpress (CMS le plus utilisé au monde), MediaWiki (le logiciel utilisé pour mettre nos notes sur Wikipedia) par exemple. Il en existe des centaines, mais ceux-là sont les plus utilisés au monde.

Les CMS offrent une chaine de publication qui débouche sur la possibilité de mettre en ligne des contenus. Cette chaine de publication respecte un workflow = un circuit de traitement de l’information. Les CMS permettent de séparer essentiellement la forme du contenu, le plus possible. Ils permettent également de structurer l’information : les métadonnées d’une part et les contenus d’autre part. Les CMS gèrent aussi, souvent, une interaction avec le lecteur (commentaires, notes, etc.). Sur notre blog, les commentaires doivent être validés pour apparaitre sur le site (a priori vs a posteriori = tout est publié et on peut supprimer ensuite). Les CMS permettent également de hiérarchiser les utilisateurs et de donner des droits. Le niveau le plus basique est l’identification : la personne identifiée peut lire, modifier, publier ; l’internaute non identifié peut lire et suggérer un commentaire / poster un commentaire selon si on est a priori / a posteriori. Les CMS gèrent en général des niveaux beaucoup plus compliqués que ça. Sur wordpress par exemple, on a l’administrateur qui a tous les droits, le rédacteur qui ne peut que créer un article mais pas le publier, etc.

Les CMS servent donc à publier des contenus sur Internet. De plus, ils génèrent des fichiers qui respectent un format. Le CMS produit essentiellement des pages internet pour l’utilisateur et des données XML pour les robots.

Plus rarement, les CMS permettent à plusieurs individus de travailler en même temps sur le même document (mais Google Doc n’est pas un CMS). Certains logiciels gèrent aussi la notion de version d’un document : il va numéroter chaque modification, permet de revenir en arrière et les logiciels les plus complexes permettent de créer des Fork = des versions différentes du même document.

Les grands principes des CMS

  • Séparation de la forme et du fond (+ interopérabilité).

Dans un même CMS, on a deux informations qui sont séparées : le texte au kilomètre, la base de données ; et la maquette qui gère l’apparence du contenu. Le CMS fusionne les deux pour que l’internaute voit la page web = un mélange de la forme et du fond. On peut donc avoir une action sur la forme sans avoir à modifier le contenu et vice versa. Dans les structures avec plusieurs employés, des spécifications opèrent pour que chaque personne soit en charge d’une partie. Dans le web, on parle d’intégrateur web (celui qui produit du code, construit les templates). En vertu de cette séparation, il va y avoir plusieurs formes conçues avec le même fond. Il y a également tout un tas de données cachées. On a parlé de versions destinées aux êtres humains, mais il existe d’autres versions à destination des machines.

Exemple de LODEL :

LODEL est un CMS développé à Open Edition, il produit des fichiers supplémentaires dédiés à des robots qui ont pour objectif de moissonner des contenus. Le moissonnage = harvesting, qui a pour vocation de rapatrier les pages web. On a besoin d’une interopérabilité plus importante que ce que fait Google. L’interopérabilité c’est l’idée que deux machines puissent opérer entre elles = communiquent entre elles. En faisant du moissonnage, on va pouvoir avoir un serveur web qui va donner une liste avec des informations structurées au moteur de recherche (communication). Le protocole de moissonnage qu’ils utilisent c’est le OAI-PMH = Open Access Initiative-Protocol for Metadata Harvesting : protocole construit pour les revues scientifiques, qui permet de collecter au minimum la liste des artistes avec les informations de date, etc. OAI-PMH = une règle de conversation spécifique entre le serveur et le moteur de recherche, c’est le protocole qui permet d’intégrer les échanges. LODEL est compatible OAI-PMH et donc on peut interroger un site web porté par LODEL et obtenir les informations collectées par le protocole de moissonnage.

Dans OAI-PMH il y a cinq verbes : Identify (dis-moi qui tu es) ; ListSets (liste des revues chez LODEL) ; ListMetadataFormats ; ListRecords (liste de tous les documents) x2 (le deuxième demande une pagination des résultats = resumptionToken). Le protocole OAI-PMH est très rudimentaire, et donc facilement déployable.

À l’intérieur du protocole, différents langages sont utilisés (formats) comme le Dublin Core qui est un format de métadonnées, que l’on va apprendre.

BookServer est un autre protocole de moissonnage appelé OPDS = Open Publication Distribution System (BookServer est le nom « humain » et OPDS est le nom « technique »). L’OPDS a été construit pour permettre de distribuer des catalogues de livres. Tout un tas d’acteurs vont pouvoir récupérer les catalogues pour les afficher sur des terminaux (ordinateur, tablette, etc.), les moteurs de recherche récupèrent ces catalogues et les rendent disponible pour la lecture sur différents terminaux.

Il existe de nombreux formats et de nombreux protocoles : soit parce que les besoins sont différents, soit parce que les personnes ne connaissent pas leur existence... Certaines personnes ont essayé de créer quelque chose qui pourrait normaliser le tout. C’est le cas de Tim Berners Lee qui a créé le W3C = un organe qui normalise les formats du web. Il joue un rôle d’harmonisation et de coordination.

Résumons :

On a un serveur web et un moteur de recherche. Le moteur de recherche (producteur de service) veut entrer en contact avec le serveur web pour pouvoir « attaquer » le service. Le moteur de recherche ne connait que le protocole et comment il fonctionne (ce peut être OAI-PMH ou OPDS, etc.). Il va donc poser les questions dont il a besoin la réponse au serveur grâce au protocole et il va recevoir des fichiers qu’il va pouvoir lire (dans un format qu’il peut lire).

1 site = 2 espaces, un pour l’intégrateur web (maquette) et un pour l’utilisateur (contenu). Le site va générer des contenus à destination de l’internaute et des contenus à destination des machines.

La source d’information est notre clavier dans certains CMS comme Wordpress, mais avec LODEL par exemple, il y a un document source (on part du principe que les éditeurs ont déjà leurs documents), on a juste à importer ces fichiers, qui donne la base de données qui, combinée à la maquette, donne le site internet que voit l’internaute.

Pour publier sur LODEL :

  • Première étape : le stylage

On a un fichier PAO, que l’on doit exporter et utiliser Orphan Notes pour que les appels de notes et les notes de bas de page se forment correctement. Ensuite, on a un fichier bureautique qu’il faut nettoyer et structurer. La maquette va faire beaucoup de travail pour s’adapter au contenu.

  • Deuxième étape : importation du fichier dans LODEL

Une fois importé, LODEL communique avec OpenText, un autre logiciel, pour convertir le texte en XML, qui lui renvoie ensuite.

LODEL convertit en XML les styles que l’on utilise dans Word, il est capable d’interpréter ces styles. Peu de CMS font ça. Dans Wordpress par exemple, on édite du HTML et on ne fait pas de stylage. Dans Word on ne fait que de la sémantisation, la CSS après LODEL régule l’apparence. Évidemment, dans Word les styles vont avoir une apparence mais ce que récupère Word c’est seulement l’information sémantique, le "titre 1". On a vraiment une séparation forme-fond. Et ensuite la CSS va mettre la forme.

Précision : XML = grande famille de format en général sémantique ; le HTML est une subdivision que l’on utilise pour faire des sites web. Mais en fait on a plein d’autres subdivisions XML pour faire d’autres choses. XTML est une variante du HTML conforme à XML. On a des milliers de formats spécialisés.

Autre exemple de CMS : OJS

OJS (Open Journal System) est un autre CMS, centré sur le workflow scientifique (soumission etc. des articles scientifiques). Le circuit de traitement d’OJS (son workflow) est particulièrement compliqué. Il a été décomposé en différentes étapes : une étape de soumission des articles, évaluation, édition, programmation, construction de la table des matières.

Les différences entre OJS et LODEL

OJS est un CMS, et LODEL est aussi un CMS. Ce sont deux CMS spécialisés en édition électronique, pour les revues scientifiques. Ils utilisent le même protocole qui est OAI-PMH. Ils sont donc proches, mais il y a deux grandes différences. La première est la gestion du workflow : OJS permet de soumettre en tant qu’auteur, le secrétaire le reçoit et transmet au comité de lecture, etc. ; LODEL ne gère pas ça. OJS est très en amont du processus éditorial (il s’occupe beaucoup de la première partir du workflow, sélection du travail etc.). LODEL ne le prévoie pas du tout : les auteurs ne soumettent rien à LODEL, ils envoient par mail. Pour avoir un équivalent sous LODEL on installe un OJS ou bien on souscrit à un site en ligne pour servir de porte d’entrée pour un workflow éditorial. La deuxième grande différence est qu’OJS ne traite pas un fichier Word qui arrive en vrac pour le convertir en XML ; OJS est plutôt spécialisé pour le dépôt et la communication de PDF. OJS publie du PDF en ligne, ce qui ne correspond pas au texte électronique idéal (mais facile à manipuler). LODEL a donc un workflow technique de la gestion du format XML. C’est en train d’évoluer (OJS va vers LODEL) mais actuellement c’est une différence existante.

LODEL et OJS sont des fournisseurs de données, de l’autre côté on a les fournisseurs de services qui sont les moteurs de recherche qui peuvent être compatibles avec LODEL (exemple : BASE, ISIDORE). Isidore, par exemple, utilise le protocole OAI-PMH et utilise 4 114 sources (notamment Persée, Open Edition...). L’OPDS est un autre protocole de moissonnage et ce sont d’autres types de logiciels qui vont l’utiliser, comme Aldiko (librairie en ligne-application). Amazon et Apple sont contre le moissonnage puisqu’ils font leur propre truc, ils ne sont pas pour la généralisation des données, ces protocoles vont contre leur envie de monopole. Tout cela est important à prendre en considération car la technique embarque beaucoup de politique avec elle, et donc c’est important.

Autre grand principe des CMS

  • Personnaliser graphiquement.

Les CSS = Cascading Style Sheets ou feuilles de style en cascade en français permettent de gérer les éléments complexes d’apparence. Dans le HTML on a le contenu avec des éléments de forme (gras, italique, etc.) et certains éléments sont dictés par la feuille de style. Les CSS ne gèrent que les éléments les plus complexes, ce qui montre bien qu’on a donc vraiment séparé le fond et la forme. Sur Wikipedia, dans les « préférences de mon compte » il nous propose un habillage, qui utilise la CSS. Les CSS sont extrêmement personnalisable et c’est là qu’on voit vraiment la séparation entre le fond et la forme car un même contenu peut être affiché et structuré de façon complètement différente selon la feuille de style choisie.

Outre les CMS, on trouve le SSP, au sein de l’édition nativement numérique.

SSP = Single Source Publishing : l’idée selon laquelle on ne va plus avoir qu’un seul fichier sur lequel on va travailler pour produire plein de sorties différentes : adopter un format pivot qui sera la matrice de toutes les sorties possibles de notre contenu = édition avec une seule source. Jusqu’à présent, c’était tout centré sur le web, le papier n’existe pas. Mais dans l’édition, le papier se porte bien. L’éditeur doit donc se préoccuper du papier et du numérique (web). Il a donc besoin de plein de formes, et ce qui va l’aider à faire ça c’est le SSP. Il se dit qu’il va produire une seule source pour gérer différentes finalités même si elles sont de nature différente (papier, numérique...).

La différence entre SSP et CMS

CMS = Content Managing System, c’est un logiciel de gestion de contenu (c’est une très grande famille de logiciels) ; alors que SSP = Single Source Publishing, c’est un principe de fonctionnement technique (techniquement il n’existe pas concrètement, c’est juste un principe). On ne parle donc pas du même registre. En théorie, les CMS pourraient être compatibles aux SSP, mais dans la pratique aucun CMS n’est conforme aux SSP aujourd’hui. Les CMS sont centrés sur la version finale dédiée au web, alors que le SSP est centré sur le multisupports, d’une certaine façon le CMS est un seul support (web). LODEL tend vers le SSP (essaie). Le principe du SSP est en avant du CMS qui est en aval (un des débouchés de la publication).

La chaîne METOPES

Dominique Roux de l’Université de Caen a mis en place une chaine SSP qui prévoit de la version auteur jusqu’aux diffusions : la chaine METOPES. La chaine METOPES est le seul exemple de dispositif-logiciel qui soit SSP. Cette chaîne alimente LODEL : on peut produire du contenu en utilisant la chaine METOPES qui envoie du XML directement (les partenaires produisent avec leurs propres chaines SSP). La chaine METOPES part de l’auteur, passe par l’édition, jusqu’à la communication. D’abord on a le texte de l’auteur sur lequel on applique une méthode de stylage pour faire un fichier XML TEI (Text Encoding Initiative = format) qui est la source unique du Single Sourcing (SSP). À partir de là on utilise une technologie de conversion qui va produire le fichier en format PAO et tous les formats numériques. Le format web, le format epub, le format Open Edition Books, etc. vont être générés. La PAO va faire également un format papier et PDF. Ce fichier central XML est fait par une machine, c’est un format pivot qui va produire toutes les versions. Pour passer du fichier auteur au fichier XML il y a des cas comme LODEL où le logiciel s’en occupe et des cas comme METOPES où le logiciel le fait mais il faut connaitre le langage XML pour vérifier que c’est bon et corriger si besoin. C’est une étape de plus vers une structuration de l’édition.

Notion de système d’information

Les systèmes d’information regroupent l’ensemble des informations dont une organisation dispose : les métadonnées et les données.

Dans le système d'information d'Open Edition, on a deux points de départ : production de données ou expérience de l’utilisateur (UX = User Experience). Si on part de l’expérience utilisateur, on a des interfaces web (Open Edition Books, Hypotheses...) c'est-à-dire ce que voit l’utilisateur. Sur Open Edition, le service premium permet d’obtenir des PDF et ePub, c’est traité au même endroit (expérience utilisateur). Produits finis = interfaces de consultation publiques et professionnelles, à destination des usagers. Ils sont produits par le système d’information non publique.

Si on repart de l’autre côté, à partir de la production de données : on a les interfaces d’édition avec la production et l’administration des contenus, en privé. Le contenu est alimenté par OpenText ou directement en HTML. Ces quatre interfaces (Open Edition Books, Calenda, Hypotheses, Revues.org) alimentent le centre du noyau qui sont les applications partagées (Core). Là, on a écrasé l’information de toutes les bases dans une seule pour qu’on puisse interroger le moteur et que toutes les bases soient interrogées en même temps. Les informations commerciales sont stockées dans le Core et sont utilisées par les interfaces de consultation publiques et professionnelles.

Le système d’information permet que les informations circulent, elles sont stockées et exploitées, redispatchées et utilisées.

Ce qui est important de retenir sur le système d’information que l’on a vu, ce sont les trois zones : la première correspond aux interfaces d’édition et ajout des contenus, la deuxième (le cœur) est les applications partagées, la troisième sont les interfaces de consultation publiques et professionnelles (l’important est de comprendre comment ça marche). Concrètement, le CMS se positionne au niveau de la première zone, il se base dans LODEL et il est aussi (pas toujours) dans la troisième zone, la zone d’exploitation pour le public, car il crée le contenu, il expose le contenu au public. Il est au cœur du système d’information, mais ce qui est autour ne relève pas du CMS (la deuxième zone). Le SI regroupe toutes les données et le CMS est à l’intérieur, dans les zones dans lesquelles il est spécialisé = saisie et exposition à l’internaute. En général, quand on travaille dans une structure d’édition électronique, on va souvent avoir affaire au CMS, mais il faut savoir qu’autour de lui il y a un SI qui fonctionne avec toutes les données (échanges internes).

L’édition mobile

Peut-être un débouché des SSP, peut-être éventuellement un débouché des CMS, et souvent c’est produit à la main (sous inDesign : enregistrer sous, en ePub, ce qui n’est pas recommandé). Une autre façon de faire de l’édition mobile est de créer un livre-application, mais ce n’est pas top.

Format ePub

Le PDF était très inadapté au format mobile, notamment parce que c’est un format complexe, donc on a inventé l’epub. Par ailleurs, le PDF est destiné à l’impression. L’epub est un format ouvert, c'est-à-dire que toute la documentation de l’epub est disponible (pas de secret), et il est très simple : on peut voir ça comme un site web qu’on aurait zippé et rendu téléchargeable. C’est un format détachable car on peut le télécharger. La coquille du format est autosuffisante. Outre sa simplicité et le fait qu’il soit détachable, le format epub est recomposable. Il est l’antithèse du PDF : sur le PDF, si mon écran est petit, je suis obligée de zoomer et de scroller pour lire. Le PDF est donc totalement inadapté au multi-supports. L’epub est nativement recomposable, il s’adapte à tous les écrans et est multi-supports. Si je veux zoomer sur un epub, la page se recompose sous mes yeux, je vois la ligne entière mais en plus gros. Cela implique le fait qu’il n’y a pas de composition initiale du texte : on laisse au terminal le soin et l’autorisation de recomposer les pages. C’est ce qu’on appelle « responsive design » sur les sites web : c'est-à-dire que les sites web se recomposent aussi selon l’écran, ils s’adaptent au support. On le voit très bien avec le site smashingmagazine.com.

Actuellement, le format Epub en est à sa troisième version (c’est l’IDPF qui le développe). Sur ce nouveau format, de l’audio et de la vidéo vont être encapsulés dans le livre, on va pouvoir ajouter du texte vertical, ajouter des polices embarquées, etc. Actuellement la majorité des livres tournent en epub 2 mais le 3 est connu quand même.

Pour le prof, il ne faut pas optimiser l’epub : si on commence à tester un rendu plus délicat sur un terminal, on ne pourra jamais atteindre tous les terminaux (et le rendu ne sera jamais bien sur tous les terminaux). Donc il ne faut pas ajouter de fioritures (car ça ne marchera pas partout, donc inutile). Par contre, selon le logiciel utilisé pour les lire, les annotations que l’on fait disparaissent si on ouvre le même fichier avec un autre logiciel (puisque les annotations sont inhérentes au logiciel et pas au fichier). Il faut donc être vigilant à ce propos.

En général, les epub sont de l’édition nativement numérique (ils naissent sur notre ordinateur). Les CMS peuvent produire de l’epub, mais ce n’est pas la fonction de base d’un CMS, c’est une fonction périphérique pas toujours présente. Dans l’édition mobile, il y a la version « epub » dont les CMS ne sont pas faits pour ça ; mais grâce au responsive design, les CMS bien construits s’adaptent à tous les environnements donc également les environnements mobiles. C’est l’autre version de l’édition mobile, le responsive design, donc les CMS font de l’édition mobile quand ils sont conformes au responsive design.

Dépôt légal électronique : comme pour les papiers, obligation de déposer à la BNF tout ce qu’on publie, sauf que le terme n’est pas exact car c’est la BNF qui vient chercher les fichiers pour l’électronique, c’est donc plutôt du moissonnage.

Quelques précisions sur les cours précédents[modifier | modifier le code]

  • Feedbooks promeut les standards ouverts.
  • Internet Archive : sur le site, on trouve la WaybackMachine qui garde une trace du web et qui nous fait remonter dans le temps : on trouve des captures d’écran de chaque site à certaines époques (ils font des captures régulièrement).
  • Le Sitemaps est une liste du nombre de page contenue dans notre site web, le Sitemaps est indiqué dans le fichier robots.txt. « Le protocole Sitemaps permet à un webmestre d'informer les moteurs de recherche quelles adresses d'un site web sont disponibles pour l'indexation automatique. »
  • Différence entre page/visiteur/visite : une visite est l’arrivée d’une personne sur le site qui parcourt puis qui s’en va ; le visiteur unique est identifié grâce à son adresse IP. Le visiteur unique peut venir plusieurs fois sur le site, il fait plusieurs visites mais c’est un seul visiteur. La page est chaque donnée sur le site (un billet est une page, la page des crédits est aussi une page...). Dans une visite on peut consulter plusieurs pages. On a toujours plus de visites que de visiteurs et toujours plus de pages que de visites. On mesure comme on peut : des robots peuvent être pris pour des visiteurs alors que ce sont des robots (ça fausse les stats mais on fait comme on peut, difficile d’être précis).

L’édition nativement en réseau[modifier | modifier le code]

C’est l’édition qui n’est pas née sur notre ordinateur mais elle naît en ligne, et plus que ça, elle naît en réseau. C’est ce qu’on fait dans Google Doc par exemple : on travaille en réseau ensemble, pas en local. Le parangon de ça c’est Wikipedia, ça se forme collectivement en réseau. Non seulement on écrit dans une interface en ligne mais en plus on n’est pas tout seul : le terme « en réseau » prend donc complètement son sens là-dessus. Le forum par exemple est nativement en réseau. On la pratique également sur les blogs quand on rédige directement sur le logiciel.

Le texte électronique idéal[modifier | modifier le code]

On va chercher les qualités électroniques idéales : trois grandes familles avec trois grands principes dans chacune d’elle.

Lisible[modifier | modifier le code]

  • A. Format ouvert

Il faut que le document soit décrit par un format ouvert = format dont la documentation est publique. L’epub est un format ouvert, mais il est simplement sémantisé. PDF est un format ouvert car il est documenté (il n’y a pas qu’Adobe qui peut l’ouvrir) mais il est très peu sémantisé. L’idéal est un format XML sémantisé dans lequel on a l’information sur la structure des données. Le format XML TEI est beaucoup utilisé en France (la chaine METOPES l’utilise). Sémantisé = beaucoup d’informations de fond et peu d’informations de forme.

  • B. Recomposable

Le PDF marche moins bien voire pas du tout car il est spécifique à une taille de papier, etc. L’epub est recomposable car il s’adapte aux supports.

  • C. Conservable

De nombreux vieux fichiers ne sont plus lisibles : problème de conservation. Le premier obstacle de la conservation est le DRM : si l’écosystème utile à la lisibilité du document protégé par DRM ne subsiste pas, mon document ne sera plus lisible. En cryptant le fichier, on ne le rend pas conservable. Le deuxième obstacle principal est le support physique. La seule façon d’augmenter ça c’est d’avoir le fichier sur plusieurs supports, mais rien nous dit que tous les supports survivront. Pour la conservation, c’est toujours l’obéissance aux standards qui prime : il faut être en contrôle des normes que l’on utilise.

En informatique, le langage est binaire, la conversion de ces 0 et 1 nous permet d’afficher d’autres choses sur notre écran. Au tout début, on avait 1 octet qui comporte 8 chiffres qui peuvent donner 256 variations. On a donné des chiffres aux caractères (lettres, etc.) : cela a donné le code ASCII qui normait tous les fichiers. Ils ont fait ensuite des plages variables dans les caractères pour obtenir les variations des langues (accents, etc.). Sauf qu’au moment où on a voulu faire cohabiter toutes les langues dans un seul code, cela dépassait les 256 caractères. On a donc inventé un code, UNICODE, qui unifie tous les caractères existants sur la planète. Il existe un consortium sur la planète qui se réunit régulièrement pour enrichir le code. Dans ce code, chaque caractère obtient un code unique. Unicode est universel. Word utilise maintenant Unicode, Wordpress aussi. C’est beaucoup plus pratique de parler avec les mêmes codes pour qu’on puisse tous se comprendre. Sur Internet, avec l’onglet Affichage et Encodage des données, on voit que par défaut on est en Unicode.

Doc est un format non documenté, mais docx est un format ouvert qui est documenté, mais Microsoft ne le respecte pas. C’est la raison pour laquelle docx n’est pas recommandé pour le stockage.

Manipulable[modifier | modifier le code]

  • A. Indexable et cherchable

Les livres avec DRM sont ni indexables ni cherchables. Les livres-applications sont des systèmes fermés sur eux-mêmes mais ne sont pas indexables ni cherchables.

  • B. Copiable et collable

Il existe des sites web où le copier-coller est interdit, pour nous empêcher de prendre les informations. Si on empêche le copier-coller, on diminue l’accessibilité (car la technologie qui nous permet de le faire nécessite à l’utilisateur une certaine configuration), donc soit on donne l’accès à tous, soit on empêche de copier-coller mais en réduisant l’accessibilité de notre site.

Un des compromis, c’est le Watermarking : on responsabilise le lecteur mais sans le dénoncer.

  • C. Annotable et inscriptible

À l’heure actuelle, beaucoup de dispositifs techniques nous permettent de faire ça (Calibre, iBooks, etc.) mais ils posent tous un problème : le stockage de l’information et son format. Lorsqu’on annote un livre sur une application donnée, cela fonctionnera mais dès qu’on passe sur un autre logiciel, les annotations disparaissent. Techniquement, ces annotations ne m’appartiennent pas et si je veux les conserver il faut que je reste dans le système dans lequel j’ai annoté mon livre. Calibre stocke les informations dans un fichier local mais mes annotations, au-delà de mon disque dur, ne sont pas stockées de façon fiable. Il manque donc des techniques et des écosystèmes auxquels on pourrait confier nos annotations.

Rétrolien : technologie qui permet de régler une partie du problème de l’annotation (= où sont mes données, selon quel format). Lorsqu’on commente un billet sur un blog par exemple, on ne sait pas si un autre commentaire commente le même billet mais ailleurs. Le rétrolien nous donne un ping qui s’affiche comme un commentaire dans notre CMS mais c’est un rétrolien, qui nous indique si notre article a été cité quelque part. C’est une technologie qui est satisfaisante et efficace.

Citable[modifier | modifier le code]

  • A. Identifiable

Le DOI est une solution élaborée pour résoudre le problème de l’identification du document. Il existe des solutions intermédiaires, soit parce qu’elles sont plus anciennes soit parce qu’elles sont moins sophistiquées. Les normes ISBN et ISSN sont obsolètes : elles sont très inadaptées au numérique, et restent rattachées au papier (et on les utilise toujours). On n’accède pas au document avec l’ISBN. Par la suite, on a utilisé l’URL qui permet d’accéder au document lui-même. L’URL permet aussi de décrire plus de documents que les livres ou les revues. En fait, l’URL a aussi ses défauts. Dans l’article, l’auteur nous propose huit façons de décrire un document, et cela montre qu’il y a beaucoup d’autres formats. Il a réalisé un tableau avec six critères qui permettent d’avoir une vue d’ensemble sur ce que chaque norme permet. L’URL n’est pas pérenne, au contraire de l’ISBN et l’ISSN (bureau qui attribuent les numéros uniques). Le Web change et bouge et les URL évoluent. De plus, on peut avoir plusieurs URL pour une même page (l’URL pour la page mobile et l’URL pour la page normale). Le DOI = Digital Object Identifier permet de désigner toute ressource documentaire, permet d’accéder à la ressource documentaire en ligne. Le DOI est régulé pour qu’il soit pérenne (même si l’URL change). Le DOI ne couvre pas le papier, seulement le numérique. Le DOI est unique pour toutes les versions du document. Le DOI est le plus solide, il appartient à la famille HDL = Handel. Notre carnet Monde du livre a un HDL par exemple. Avec le DOI ou le HDL, on peut en allant sur doi.org tomber sur la ressource directement en copiant-collant le HDL ou DOI.

  • B. Correctement décrit

On rentre là dans les métadonnées : sans métadonnées, on ne trouvera pas le document. Le document devra donc être correctement décrit selon la norme Dublin Core. Norme simple et efficace : avec 15 informations (= propriétés), on peut décrire l’ensemble des documents du monde. C’est donc très basique, mais c’est une de ces caractéristiques. Ils ont littéralement fait un cœur de métadonnées à Dublin, d’où son nom.

  1. La première propriété est le titre : titre principal du document. SI on veut entrer dans des finesses, on peut passer en dublin core qualifié qui ajoute 15 propriétés supplémentaires de deuxième niveau (à l’intérieur des propriétés principales, de premier niveau). Le Dublin Core qualifié n’obéit à aucune norme donc chacun peut faire ses propres normes.
  2. Ensuite, on a le creator : nom de la personne, de l’organisation ou du service à l’origine de la création du document.
  3. Puis le subject : sujet et mots-clefs, soit ce sont des éléments d’ordre libre soit on utilise un vocabulaire contrôlé (MESH par exemple pour le vocabulaire médical).
  4. La quatrième propriété est la description : c’est le champ qui nous permet de décrire le document, on a donc plein de descriptions possibles, on peut y mettre un résumé, etc. On sépare les informations en faisant plusieurs descriptions au lieu de tout mettre dans un même champ indifférencié (qui serait donc inexploitable par les machines).
  5. Puis le publisher : c’est le publicateur du document = société ou personne à l’origine de la publication du document. Il existe un vocabulaire contrôlé des organismes et noms de personnes = ISNI. L’ISNI a été créée par la BnF, mais on a aussi par exemple ORCID qui est aussi un identifiant pour chaque personne. La particularité d’ORCID c’est que le site permet aux auteurs de gérer eux-mêmes les publications associées à leur identifiant, ils peuvent eux-mêmes mettre à jour leurs travaux, etc. Chaque fois que le système trouve un nouvel article associé à un identifiant il l’ajoute à la page de l’auteur qui peut ensuite vérifier si c’est bien exact.
  6. Contributor : contributeur au document. Il est conseillé de mettre notre nom et de créer un autre champ contributor avec l’identifiant ISNI par exemple.
  7. Date : date d’un évènement dans le cycle de vie du document (date de création, date de mise à disposition...). Il est recommandé d’utiliser le format W3CDTF (AAAA-MM-JJ).
  8. Type : type du document (grande catégorie de document), on recommande d’utiliser le DCMIType.
  9. Format : format physique ou électronique du document. On peut utiliser les types MIME qui sont des types clairement définis.
  10. Identifier : identificateur non ambigu. Par exemple : DOI, ISBN, HDL... Le DOI est plus robuste que l’URL, l’URL peut changer alors que le DOI non. La résolution de noms convertit dans un sens ou dans l’autre (comme dans le cadre du DNS, mais utilisée aussi dans le cadre du DOI par exemple). L’identifiant unique est créé au moment de la création du document mais il est ensuite partout puisqu’il est utilisé pour le stockage et l’exposition à l’internaute, ainsi que la recherche du document.
  11. Source : ressource dont dérive le document. Dépend du contexte. L’idéal est de pointer vers un identifiant unique décrivant la source.
  12. Language : la langue du document. Il est recommandé d’utiliser la norme RFC4646.
  13. Relation : lien vers une ressource liée. Peut-être par exemple un lien vers le chapitre précédent et le chapitre suivant sur un livre. On peut aussi pointer vers la fiche du livre global par exemple.
  14. Coverage : portée du document, elle inclut un domaine géographique, un laps de temps ou une juridiction (nom d’une entité administrative). Il est recommandé d’utiliser des représentations normalisées de ces types de données (ex : W3CTDF pour le temps).
  15. Rights : droits relatifs à la ressource. Cela peut-être la présence d’un copyright, d’une licence Creative Commons, un lien vers le détenteur de droits, etc.

Parenthèse

Vocabulaire contrôlé = dans tous les formats et tous les langages, on a besoin de référentiels, le vocabulaire contrôlé sert de dictionnaire qui permet de décrire de façon non ambiguë. Pour bien comprendre, on peut comparer le mot-clé, qui est libre (on peut mettre ce qu’on veut, il n’y a pas de norme), et le hashtag, qui est un vocabulaire contrôlé (on se coordonne autour d’une étiquette précise). La MESH est aussi un vocabulaire contrôlé. Ils nous permettent de décrire dans des contextes (notamment le Dublin Core mais pas seulement), de communiquer entre nous et que les systèmes communiquent entre eux. Le but est donc l’interopérabilité, même au niveau international.

On est ici au niveau des métadonnées. On a donc des protocoles qui permettent aux machines de communiquer (ex : OAI-PMH, http...), elles échangent des fichiers qui obéissent à des formats (ex : Dublin Core, html...), pour que le document soit intelligible, on doit obéir également à des vocabulaires contrôlés. Ces trois niveaux s’imbriquent parfaitement. Les vocabulaires contrôlés sont utiles surtout aux machines. Le fichier obéit aussi à une norme d’encodage (UNICODE par exemple) pour pouvoir lire les caractères. Les vocabulaires contrôlés sont mieux quand ils sont publics. Pour le vocabulaire contrôlé MESH (médecine), on a le MESH browser qui nous permet de chercher les normes dédiées à tel ou tel sujet dans ce vocabulaire contrôlé.

Exemple : DCMI Period = vocabulaire contrôlé qui concerne les périodes de temps ; difficile à mesurer car spectres temporels très larges et des choses se superposent. Pour chaque zone de temps il y a un nom et une couverture temporelle.

Autre exemple de vocabulaire contrôlé : RFC 4646. C’est une norme pour définir les langues. RFC = Requests for Commands. Avec Internet, on chercher à mettre en place des systèmes qui se parlent entre eux et on cherche à tout normaliser. Tout n’existe pas, et lorsqu’on a besoin d’une norme, on peut faire une RFC que l’on publie sur un site spécialisé, et l’organisme en question regroupe toutes les normes déjà existantes et propose des commentaires. Chaque personne peut participer et les commentaires s’éteignent lorsque la norme est finalisée. On est sur un système avec une liste de discussion : tout le monde peut définir une norme s’il manque quelque chose, tout le monde peut publier la RFC mais vu la spécificité pour le faire ce sont plutôt des spécialistes. C’est horizontal. On a un sujet, on lance le sujet et on commente jusqu’à ce qu’on stabilise la norme. C’est assez rudimentaire, c’est un format txt et c’est du coup très lisible, durable et robuste (pas joli mais très bien, « low tech »). La RFC 4646 est donc utilisée pour décrire la langue du document du coup. Ils ont aussi prévu des variantes pour les dialectes. Une fois la RFC définie, tout le monde la respecte (les professionnels en ont l’habitude et les autres sont formés – comme nous – pour en prendre connaissance). La norme peut être mise à jour, et elle peut être enrichie d’une nouvelle norme, tout évolue en fonction des besoins. Il est toujours recommandé de donner le plus de finesse possible à une information car on peut toujours l’appauvrir alors qu’une information grossière ne peut pas être affinée. Plus c’est fin, plus c’est bien.

Le Dublin Core est un format, et la RFC est un vocabulaire contrôlé. On utilise le vocabulaire contrôlé dans le format. Tous les deux sont des normes (mais le terme « norme » est plus vague). Le terme RFC est une normalisation par consensus ; alors que par exemple la normalisation ISO est gérée par un organisme, une autorité. On n’est donc pas sur le même niveau (horizontal vs vertical).

Ceux qui ont inventé le Dublin Core ont inventé aussi des vocabulaires contrôlés, comme DCMIType qui est utilisé pour définir le type de document pour le Dublin Core. Ils recommandent l’utilisation de ces vocabulaires là à l’intérieur du Dublin Core. En fait, le Dublin Core n’est pas très précis car il est peu directif, on recommande mais on oblige pas.

Dans le Dublin Core, quand on parle de « scheme » on parle du vocabulaire contrôlé utilisé (RFC4646, ISNI, ORCID, DOI...).

Creative Commons

La licence, en France (pour laquelle le copyright n’est pas utilisé), produit un cas particulier à l’intérieur du droit d’auteur. La licence Creative Commons permet la réutilisation sans contrat. Si je possède les droits d’une œuvre, l’utilisation par une autre personne de ma création doit se faire sous contrat signé par les deux parties (et même si on cède les droits gratuitement, il y a le coût de transaction). La licence permet donc de supprimer le coût de transaction. L’utilisateur peut décider de façon unilatérale d’accorder plus de droits aux utilisateurs que ce que le droit d’auteur permet. La première caractéristique c’est que c’est une licence à la carte (on choisit les autorisations que l’on veut rendre accessible ou non) ; la deuxième c’est que c’est une licence qui prend toujours trois formes : une forme visible pour l’être humain, une forme dédiée aux tribunaux (juridique) et une forme dédiée aux machines et donc que l’on ne peut pas voir puisqu’elle est cachée à l’intérieur de la page et la machine qui communique avec cette page reçoit l’information. Les trois informations disent la même chose, elles sont redondantes, mais ne sont pas de la même forme car elles ne s’adressent pas à la même cible. C’est grâce à la forme dédiée aux machines que Google peut produire un service qui nous permet de choisir les droits des images que l’on cherche par exemple.

Par défaut, lorsqu’on poste du contenu en ligne sans rien déclarer, notre contenu est protégé. Lorsque les images sont « réutilisables et modifiables » c’est que le possesseur de droit a donné l’autorisation, par licence. Mais il faut quand même respecter la paternité. Cette licence ne fait pas disparaître le droit d’auteur. Et lorsqu’on dit « libre de droit », en fait cela signifie = domaine public, le terme « libre de droit » ne veut en fait pas vraiment dire libre de droit, ça veut simplement dire « gratuit ».

Choix de la licence : autoriser les adaptations de l’œuvre ou non (modification), autoriser les utilisations commerciales ou non, etc. Quoiqu’on choisisse, le nom de l’auteur reste toujours présent, sauf pour la CC0 = licence qui reproduit le domaine public, permet de ne pas être obligé de citer l’auteur. Les utilisations commerciales sont ambigües : difficile de définir ce qui est commercial ou non dans certains contextes. Du coup, si on met une licence « Non commercial » cela peut restreindre l’utilisation. Selon les choix, on a : CC by = licence avec reconnaissance de la paternité, modification et exploitation commerciale autorisées (à condition de citer l’auteur). Lorsqu’on interdit la modification et l’exploitation commerciale, on autorise quand même l’utilisation à l’identique sans demander l’autorisation (mais en citant l’auteur, toujours). C’est la plus libre après CC0. C’est ce qu’on a avec notre carnet MDL. Le site creativecommons.org nous donne le code HTML à inclure dans nos sites et pour afficher aussi le logo de la licence choisie.

  • C. Interopérable

La 9e caractéristique du texte idéal est l’interopérabilité = l’important est que tout soit contrôlé pour que les machines puissent communiquer entre elles. C’est une notion très importante. Il faut respecter les normes, les langages, les vocabulaires contrôlés et les protocoles pour que le texte soit interopérable.

Les bonnes pratiques du Web[modifier | modifier le code]

Tout ce qu’on doit produire doit respecter des bonnes pratiques. Elles sont toutes en général très simples et ont toujours une intention. Des critères ont été mis en place par OpQuast qui a défini des bonnes pratiques et ils ont sorti un livre qui contiennent toutes leurs bonnes pratiques. Ils ont découpé leurs critères en grandes familles : il y a 226 critères web = critères généraux ; 26 critères web mobile ; 80 critères SEO (Search Engine Optimization = optimisation du référencement) ; 41 critères de performance = rapidité des pages web ; et 115 pratiques d’eco-conception web = empreinte écologique, pour consommer moins (car Internet est très gourmand). Il y a quelques centaines de bonnes pratiques proposées par une centaine de professionnels qui les ont affinées, classées, etc. Toutes ces bonnes pratiques sont une question de bon sens. Dans chaque catégorie, ils ont créé des rubriques permettant de mieux se repérer dans les bonnes pratiques. Il faut prendre en compte toutes les expériences utilisateurs pour avoir des bonnes pratiques (ex : en Inde, Internet est facturé à l’octet donc forcément on n’active pas les images ou les vidéos si on ne veut pas payer trop cher). Chaque critère est expliqué sur le site.

Exemples :

  • Web/rubrique « Alternatives » :
    • « Chaque image décorative est dotée d’une alternative textuelle appropriée ». L’objectif est d’éviter aux utilisateurs qui ne perçoivent pas l’image (soit dû au support soit dû à l’utilisateur) d’être perturbés par des informations sur des images qui leur sont inutiles. On peut décrire simplement l’image. Il s’agit d’une question d’accessibilité.
    • « Chaque image lien est dotée d’une alternative textuelle appropriée. »
  • Rubrique « Code » : « Le codage de caractères utilisé est UTF-8 (UTF-8 = Unicode). »
  • Rubrique « Contact » : « Le site propose au moins un moyen de contact. » ; le niveau supérieur propose « Le site propose au moins un deux moyens de contact ».
  • Rubrique « Contenus » : « Les contenus publicitaires sont identifiés comme tels. »
  • Rubrique « E-commerce » : On peut faire un achat sans créer de compte.
  • Rubrique « Fichiers et multimédias » : « Les animations et clignotements peuvent être mis en pause. »
  • Rubrique « Hyperliens » : « Le soulignement est réservé aux hyperliens. »
  • Dans les bonnes pratiques pour les mobiles, on a des choses spécifiques, par exemple : « Chaque zone d’interaction tactile est de taille suffisante. » (Rubrique « interactions ») ; Ou « Les contenus ne sont téléchargés qu’à la demande explicite de l’utilisateur. » (Rubrique « multimédia »)
  • SEO : certaines pratiques se retrouvent dans différentes catégories et différentes familles, car une bonne pratique peut influencer plusieurs caractéristiques. Exemple : alternative textuelle appropriée pour chaque image, utile pour l’accessibilité mais aussi pour l’optimisation du moteur de recherche. Pour le SEO il y a des précisions sur des bonnes pratiques générales.

Il faut connaître et appliquer ces bonnes pratiques pour faire de l’édition électronique correcte. C’est un référentiel commun, qui est mis à jour régulièrement (on en est à la version 3 en ce moment), et affiné. Il faut donc s’en informer régulièrement.