Aller au contenu

Introduction

Description du projet

Creation d'un site web permettant de créer des scenarios à partir de vignettes et d'enregistrer les conversations audios correspondantes.

Contexte

Actuellement, les langues écrites et utilisées dans la vie publique ne représente qu'une infime minorité des langues parlées, qui se comptent en milliers. Un pays ne possède qu'une à trois langue officielle la plupart du temps, ce qui ne nous donne que moins de 500 langues potentiellement protégées. Ces langues sont issues la plupart du temps d'une tradition écrite, politique voire nationale ou d'auxiliaire de communication (français, anglais, russe, mandarin, etc). Les autres langues ne sont ainsi pas protégées et pour beaucoup en danger dû au manque d'écriture/littérature, leur emploi dans un contexte uniquement familier et, parfois, une répression sociale ou étatique.

Problématique

Un problème survient souvent. Les langues sous-dotées, sous-représentées et en danger sont en général :

  • à tradition orale uniquement ou principalement
  • parlées par des individus peu ou pas éduqués scolairement dans lesdites langues (il est donc difficile d'écrire d' autant plus que ce contexte est souvent très littéraire)
  • sont parlées par des communautés restreintes (Maasais, Pirahã, Iakoutes, etc)

Il est alors difficile de récupérer des données (pour la recherche où pour bâtir un environnement de vie dans lesdites langues), d'étudier ces langues et encore plus de les préserver.

De plus, lorsqu'on cherche à obtenir des données en faisant des traductions, nous sommes exposés à deux biais importants:

  • celui d'impliquer des caractéristiques culturelles qui n'appartiennent pas aux locuteurs concernés (ex. les Pirahã n'ont aucun concept de Dieu et étaient donc perplexes quand Everett leur demandait comment appeler cela)
  • celui de ne pas favoriser un contexte naturel qui permet d'avoir une performance spontanée et linguistiquement pertinente.

Proposition et objectifs

Ce projet s'inscrit ainsi dans une volonté de conservation et développement des langues sous-dotées, peu représentées ou à tradition principalement orale.

Nous cherchons donc à donner accès à une technologie permettant aux locuteurs d'archiver, conserver leur langue et, éventuellement, de s'en servir dans un contexte éducatif pour enseigner. Egalement, à long terme ce site web pourrait disposer d'une base de données assez importante, permettant ainsi plus facilement la recherche et description des langues concernées, et ce sans contrainte de déplacement (aller sur le terrain) ou de question orthographiques auprès des locuteurs, tout en restant naturel.

Ce projet propose ainsi un site web, accessible au plus grand nombre sans contrainte de téléchargement, peu ou prou de contrainte de hardware. Ce site permettra de créer des scenarios, décrits par des vignettes (petites images représentatives, au nombre de 1 à 6). Le scénario et les vignettes pourront ensuite être associés avec des enregistrements audio. Ainsi, il sera évité de faire des traductions implicites ou explicites lorsqu'on enregistre des audios en langue native, évitant les biais. De plus, ce type d'outil permet une centralisation des données, permettant de partager les scénarios et les idées au plus grand nombre, utiliser un outil d'éducation, etc.