Bannière EVEille EVEille

Bienvenue sur la chaîne du projet EVEille !

Le projet EVEille (Exploration et Valorisation Electroniques de corpus en SHS) vise à développer de nouvelles pratiques numériques au sein de l’Institut de recherche en Langues et Littératures Européennes (ILLE, UR 43 63), complémentaires des travaux de recherche déjà entrepris, afin de renforcer la valorisation numérique de ces travaux à l’échelle du laboratoire et de développer de nouvelles stratégies de production et de communication des résultats de la recherche en SHS.

L’ILLE (Institut de recherche en Langues et Littératures Européennes, UR 43 63) est un laboratoire interdisciplinaire dont la situation géographique a orienté les recherches ; il étudie l’émergence d’une identité européenne à travers les transferts et échanges qui se sont multipliés au cours des siècles en Europe, et plus particulièrement dans l’espace rhénan élargi à l’ensemble de l’axe Rhône-Rhin (Italie, Suisse, Autriche, Allemagne, Belgique et France). Il interroge aussi la question des contacts littéraires, culturels et linguistiques, à partir de points de vue divers mais en s’appuyant sur les synergies qui existent en son sein et avec les laboratoires de sciences humaines de l’UHA. C’est tout particulièrement autour de la notion d’interculturalité que nos recherches inter-laboratoires trouvent une dynamique commune. Cet ensemble constitue un point nodal auquel se rattachent les pôles de spécialités reconnus et institutionnels – liés aux spécialités de nos membres – que sont les littératures française, allemande, britannique, italienne, espagnole et scandinave, ainsi que des littératures moins connues (suisse, belge, autrichienne ou yiddish). Voir le site du laboratoire.

 

Voir le carnet de recherches du projet EVEille.

Pour consulter les enregistrements des journées EVEille 2021, voir la page Journées EVEille 2021.

Pour consulter les enregistrements des journées EVEille 2022, voir la page Journées EVEille 2022.

Pour consulter les enregistrements des journées EVEille 2023, voir la page Journées EVEille 2023.

 

Chapitres

    • Introduction à la session
    • eScriptorium et kraken vers une HTR ouverte
    • Après l’HTR : naviguer entre les formats
    • Q&R

    « Acquisition des données sur une chaîne éditoriale » (février 2022)

    11 février 2022
    Durée : 01:33:02
    Nombre de vues 101
    Nombre d’ajouts dans une liste de lecture 0
    Nombre de favoris 0

    J2. Acquisition

    Guillaume Porte

    Premier bout de la chaîne, l’acquisition peut aussi être l’un des plus frustrants entre les avancées technologiques sur les OCR/HTR et la réalité, bien souvent, des transcriptions manuelles. Si la première méthode promet des résultats toujours meilleurs, quels en sont les enjeux et les contraintes ? 

    eScriptorium et kraken vers une HTR ouverte 

    Peter Stokes (EPHE) 
    Daniel Stokl Ben Ezra (EPHE) 

    Ressources

    escripta.hypotheses.org

    kraken.re

    gitlab.inria.fr/scripta/escriptorium

    github.com/mittagessen/kraken

    zenodo.org/communities/ocr_models/

    ephenum.hypotheses.org/1412

    OCR et HTR arabe ttps://alraqmiyyat.github.io/OpenITI/

    Voir aussi des publications de S.Gabay, A.Pinche, A. Chagué, ...

    « From eScriptorium to TEI Publisher » hal.inria.fr/hal-03538115/

    « Mutualisons la VT » hal.archives-ouvertes.fr/hal-03398740/

     ________________

    Kraken = moteur HTR

    eScriptorium = interface web pour kraken

    (pensés pour être libre/gratuit/ouvert)

    ALTO (Analyzed Layout and Text Object) : schéma XML qui détaille les métadonnées techniques permettant de décrire la mise en page et le contenu des ressources textuelles physiques.

    PAGE (Page Analysis and Ground-Truth Elements) : cadre de représentation d’image de page basé sur XML qui enregistre des informations sur les caractéristiques de l’image, en plus de la structure de mise en page et du contenu de la page.

    Après l’HTR : naviguer entre les formats 

    Simon Gabay (Université de Genève)

    Ressources

    SegmOnto : vocabulaire contrôlé pour décrire la page manuscrite et imprimée. La collaboration entre les différents joueurs permet de créer des meilleurs modèles : https://lectaurep.hypotheses.org/documentation/prendre-en-main-escriptorium

    Passage par la TEI : https://tei-c.org https://tei-c.org/release/doc/tei-p5-doc/fr/html/index.html 

    IIIF (International Image Interoperability Framework) : outil qui désigne à la fois une communauté et un ensemble de spécifications techniques, dont l’objectif est de définir un cadre d’interopérabilité pour la diffusion d’images haute résolution sur le Web.

    RDF (Resource Description Framework) : format qui permet de mélanger deux documents XML en un seul, décrivant les relations dans les données.

    Bibliographie fournie par l'intervenant :

    1. Simon Gabay, Jean-Baptiste Camps, Ariane Pinche, Claire Jahan. “SegmOnto: common vocabulary and practices for analysing the layout of manuscripts (and more)”1st International Workshop on Computational Paleography (IWCP@ICDAR 2021), Sep 2021, Lausanne, Switzerland. hal-03336528
    2. Ariane Pinche, Jean-Baptiste Camps, Simon Gabay. SegmOnto : Un vocabulaire contrôlé pour décrire la page manuscrite et imprimée. 2021. hal-03481089

    Mise en ligne de la vidéo par Yanet Hernandez Pedraza

    Métadonnées et description par Yanet Hernandez Pedraza et Michela Lagnena

    Mots clés : acquisition chaine editoriale edition critique edition numerique fair formats htr iiif j2 ocr rdf session 2

     Informations