Description
Le projet cherche à analyser la présence des langues de France dans l'Internet.
La méthode consiste à rechercher, analyser rapidement et paraméter des sites ou des pages web en relation avec la présence d'une langue de France donnée dans l'Internet. Bien que la recherche ne soit pas exhaustive il y a suffisamment de résultats por en tirer des enseignements à partrir de l'étude statistique de la répartition des paramètres (en particular les paramètres "initiative", "langues d'interface" et ceux qui caractérisent le type de ressource).
Deux axes de travail complémentaires ont été empruntés pour l’ensemble des langues traitées :
1) Une collecte systématique des liens pertinents pointant, soit vers des sites dans les langues étudiées, soit vers des sites faisant une référence substantielle aux langues en question et leur introduction dans la base de donnée.
2) A partir de cette collecte, l'élaboration de statistiques qui permettent de catégoriser, caractériser et comparer la présence dans l'Internet des langues traitées et d'en tirer des enseignements utiles qui peuvent dépasser le cadre du monde numérique.
- La méthode concernant la collecte systématique des liens se base sur la recherche, l’analyse et le paramétrage des sites ou des pages de la Toile qui:
- Concernent directement la langue étudiée (grammaires, lexiques, particularités de la langue, outils linguistiques, études sociolinguistiques, cours de langues, aménagement linguistique, études scientifiques sur la langue, articles concernant sa présence dans l'Internet, etc.);
- Ou dont la langue d'interface est, entièrement ou partiellement, la langue étudiée.
- Sur cette dernière sélection, il est prévu de ne garder que les sites réunissant ces conditions:
- Pour les langues où ces ressources étaient très nombreuses, seuls les sites les plus représentatifs et ayant à la fois de la pertinence avec les objectifs de l'étude et le plus d'audience avérée ont été gardés.
- Pour les autres langues disposant d'une faible quantité de ressources, une exhaustivité a été recherchée, même si ont été exclues les pages contenant très peu de textes ou ne présentant pas d'autre intérêt que de signaler de manière anecdotique la langue étudiée ou contenant finalement très peu d'information dans cette langue.
Bien que la recherche ne puisse pas être exhaustive, le matériel analysé apporte suffisamment de résultats pour en tirer des enseignements à partir de l'étude statistique.
Chaque site étudié est classifié selon plusieurs paramètres comme par exemple son origine, son contenu ou format, la langue traitée, les langues d'interface ou l'année supposée de création.
Une note a été systématiquement donnée à chaque site en fonction de la pertinence avec l'étude, la richesse des contenus ou l'intérêt supposé pour la communauté des locuteurs de la langue en question. Il est important de souligner que cette note ne prétend pas évaluer la qualité de la page ou du site mais sa pertinence par rapport à l'objectif fixé qui est de mesurer la présence des langues de France dans l'Internet. Également a été ajoutée une brève description du site ou, si l'ensemble du site n'est pas pertinent, de l'article, du livre ou de la ressource sur lesquels le lien pointe. Des commentaires complémentaires ont parfois été rajoutés. Ainsi, a été constituée une base de données (qui est téléchargeable au format XML) contenant l'ensemble des plus de mille sites retenus.
- La base de données est divisée en sections correspondant à chacune des langues étudiées ou, dans certains cas, à un regroupement naturel de langues (c'est le cas des langues d'oïl, des langues kanakes, des langues créoles et des langues de Mayotte). Elle a également trois sections complémentaires]:
- Générique sur les langues dans l'Internet : cette section rassemble les sites pouvant intéresser toutes les langues de la planète ou de grands groupements (langues d'Europe, langues d'Afrique, langues romanes, langues polynésiennes, etc.) et qui apportent une contribution notable à l'ensemble ou un sous-ensemble important des langues existantes, y compris, le cas échéant, à toutes ou certaines langues de France.
- Spécifique aux langues de France dans l'Internet: section concernant exclusivement l'ensemble ou un sous-ensemble des langues de France (pouvant ne concerner que les langues métropolitaines, par exemple, ou les langues d'outre-mer seules) apportant une contribution spécifique à l'ensemble ou à un sous-ensemble important des langues de France.
- Méta: cette section réunit des sites qui offrent des moyens de recherche qui permettent de localiser un nombre important de ressources pour l'ensemble ou un sous-ensemble des langues de France. Elle est nouvelle par rapport à la première étude et elle permet d'éviter la redondance de mention des mêmes sites pour chaque langue. Elle est aussi destinée à donner des pistes de recherche fructueuse aux personnes intéressées par une recherche encore plus étendue.