Intervenants
Victoria VAN HYNING
Assistant Professor of Library Innovation, University of Maryland, College of Information Studies (iSchool)
Victoria a rejoint l'iSchool en 2020 et elle est affiliée au département d'anglais. De 2018 à 2020, elle a occupé le poste de spécialiste senior de l'innovation pour le projet de crowdsourcing de la Library of Congress, By the People. Elle a obtenue une bourse postdoctorale de la British Academy en littérature anglaise à l'Université d'Oxford, où elle a également été PI en sciences humaines du programme de crowdsourcing Zooniverse.org (2015-2018). Ses intérêts en matière d'enseignement et de recherche visent à donner plus de place aux peuples marginalisés, que ce soit dans les archives historiques - comme les minorités religieuses, les femmes et les artistes noirs. Elle dirige le David C. Driskell Papers Project avec des collègues du Driskell Center, et est membre fondateur du Center for Archival Futures (CAFe), ainsi que du Data Rescue and Reuse (RRAD) Lab, où elle mène des recherches sur la préservation à long terme, l'utilisation et la réutilisation des données issues de la foule. Elle s'intéresse également à la bibliothéconomie et à l'éducation en milieu carcéral, ainsi qu'au soutien des citoyens de retour au pays.
Résumé
Multilingual collections, crowdsourcing, and staff expertise: unexpected upsides of the global pandemic
When large collections of materials such as presidential papers, the papers of society elites, merchants or activists are curated at large institutions such as the Library of Congress, the British Library or Bibliotèque Nationale, the scale of the collections makes it nearly impossible to capture item-level linguistic information or other details such as named entities, the presence of images, material type or indeed the text of the documents themselves. These challenges are present at most institutions of all sizes. Crowdsourcing is an invaluable tool for gathering many of these types of information not traditionally identified by staff, but not all “crowds” will include people with relevant specialist language knowledge to accurately transcribe or translate the languages in a collection. In this paper I will give an overview of a large crowdsourcing transcription project By the People (crowd.loc.gov) at the Library of Congress (LOC), in which members of the public are invited to transcribe and edit one another’s transcriptions of LOC materials. These transcriptions are published on the Library’s website (loc.gov) and make the collections both more discoverable to researchers and accessible for people who use screen readers. The project launched in October 2018 and by February 2020 volunteers had completed transcribed and reviewed 50,000 pages. By May the completed page count was over 100,000, and 200,000 by late August. These exponential increases were partly driven by a spike in media coverage of crowdsourcing projects all over the world, which encouraged people to partake in crowdsourcing while locked down to keep loneliness at bay, enable connection with other virtual volunteers as well as culture, keep their minds active or distracted from the news, learn a new skill, and more. It was also driven by the participation of LOC staff, who brought their specialist language and other skills to bear on the collections. This paper will discuss these unexpected upsides of the pandemic, and offer suggestions for longer-term uses of crowdsourcing to surface specialist materials from heterogeneous collections.
Fanny MION-MOUTON
Bibliothécaire, Bibliothèque Universitaire des Langues et Civilisations (BULAC), Paris
Fanny Mion-Mouton est responsable adjointe du pôle flux et données et responsable de l'équipe signalement et exposition des données à la BULAC. Archiviste paléographe de formation, elle a suivi la formation des conservateurs de bibliothèques à l'ENSSIB avant de rejoindre la BULAC en juillet 2013. Dans le cadre de ses fonctions, elle participe à différents projets liés à l’informatique documentaire (SIGB Koha) ou la gestion de la numérisation.
Résumé
350 langues, 80 alphabets: Multilinguisme et multiculturalisme en bibliothèque
La Bibliothèque universitaire des langues et civilisations, ouverte en décembre 2011, concentre dans ses murs des collections qui concernent l’ensemble des civilisations et langues du monde non occidental : 1,5 million de documents, 350 langues et 80 écritures. La particularité de ces fonds, d’une extrême variété, influe sur l’organisation du travail et induit des problématiques spécifiques, tant du point de vue de l’acquisition de la documentation, que de son traitement. Le développement et la communication des collections sur les domaines couverts par la BULAC supposent une adaptation des cadres habituellement utilisés en bibliothèque. L’acquisition de la documentation multilingue, qu’elle soit papier ou électronique, implique la mise en place de circuits adaptés à chaque fonds, l’insertion de l’établissement dans des réseaux et consortiums européens et internationaux aréaux, ou encore l’utilisation d’une classification spécifique. Le traitement catalographique de ces collections soulève également des enjeux particuliers, pour permettre la cohabitation de données multilingues et multi-écritures au sein d’un même catalogue, tout en s’insérant dans le réseau national de catalogage de l’Agence bibliographique de l’Enseignement supérieur (Sudoc). Dans le cadre de la mise en place de la Transition bibliographique, la qualité des données et leur interopérabilité sont autant d’enjeux majeurs, sur lesquels la BULAC s’efforce d’avancer, en tenant compte de ses spécificités. Ces dernières années, des projets importants ont ainsi été menés sur l’amélioration de l’indexation du catalogue, l’enrichissement et l’alignement des données, ou encore la réflexion sur les normes de translittération, afin de valoriser et d’exposer autant que possible une documentation riche et diversifiée.
Damien NOUVEL
Maitre de conférences en informatique, Institut National des Langues et Civilisations Orientales (INALCO), PARIS
Damien NOUVEL est maître de conférences en informatique à l'Inalco au sein du laboratoire ERTIM, et directeur de cette équipe depuis 2020. Il travaille dans le domaine du traitement automatique des langues (TAL) avec un intérêt plus particulier pour les modèles mathématiques et le multilinguisme, dont quelques langues enseignées à l'Inalco (quechua, arabe, bambara, chinois, etc.) pour des objectifs variés (translittération, désambiguisation lexicale, opinion, analyse textométrique, etc.).
Résumé
Doter les langues en ressources numériques (données et outils) : Un retour d'expérience de projets à l'INALCO
Multilingual considerations are much related to languages vitality, which raises several challenges, including technological issues that are undeniably a major concern, related to both Computer Sciences, Linguistics and Natural Language Processing. Challenges in this regard have evolved over the last decades. Raw data needs have continuously increased, both from written (texts) and oral (audio) sources. Robust automatic processings (OCR/ASR) now provide useful tools that can today be used and improved (learned) by non-NLP users, corresponding transcription and annotation efforts are thus reduced. Low level linguistic annotation (i.e. segmentation, POS) needs are still present, but are easier to implement using supervised (embeddings) or unsupervised methods and/or transfer learning. Syntax, semantic and understanding tasks are still major challenges. In this talk, I will present past and ongoing projects raising those questions and a more general overview of current trends, both in academics or contributive communities.
Ben W. BRUMFIELD
Partner, Brumfield Labs, Creators of FromThePage
Ben Brumfield travaille chez FromThePage, une plateforme collaborative pour la transcription, la traduction et l’indexation des manuscrits. Après ses premières expériences dans l’édition de Wikipédia et de Pepys Diary Online, il a développé un logiciel de crowdsourcing servant à transcrire une série de journaux familiaux en 2005, qu'il a publié en open-source en 2009. FromThePage a été adopté par les bibliothéques, les archives, et les chercheurs pour des matériaux allant des enregistrements financiers aux Codex Aztèques. Il a écrit a propos du crowdsourcing et d’encodage textuel sur le blog du projet FromThePage.
Résumé
Lessons from 5 years of indigenous language transcription projects
Over the last five years we've hosted transcription projects in non-dominant or indigenous languages including Nahuatl, Mixtec, Dakȟóta/Lakȟóta, Diyari, Jawi, Old French, Old English, Latin, Dutch, and Arabic. We've learned that multilingual transcription isn’t simple and indigenous communities have specialized needs. We bring tool-maker's perspective to the technical and collaborative challenges these projects present.
Sara BRUMFIELD
Partner, Brumfield Labs, Creators of FromThePage
Sara Brumfield travaille chez FromThePage, où elle conçoit des logiciels et aide les archives d'Etat et les archives nationales, les groupes de recherche, les biblithéques publiques, et les universités à mener des projets de crowdsourcing. Avant de travailler chez FromThePage, Sara a travaillé 17 ans en tant qu'ingénieur chez IBM. Elle a dirigé des équipes de développement et de support axées sur les produits de gestion de système et de réseau. Elle détient huit brevets techniques. Elle est titulaire d'un BA en informatique et d'un dîplome d'étude des Femmes et du Genre de Rice University.