L'Observatoire PuntuEUS

L'OBSERVATOIRE PUNTUEUS

est une initiative de la Fondation PuntuEUS dont l’objectif est de mesurer la situation de la langue basque sur Internet. L’Observatoire réalise cette analyse tous les ans et publie ses résultats sur ce site web et le rapport annuel.

ANALYSE

la présence du basque sur Internet ainsi que la présence d’Internet au Pays basque, de manière quantitative et qualitative en se basant sur les mesures de trois domaines : Situation du domaine .EUS, Internet au Pays Basque et la situation du basque sur Internet

LE BUT FINAL

de l’Observatoire PuntuEUS est offrir à l’ensemble de la société basque l’outil indispensable pour définir les stratégies et politiques à mettre en œuvre pour renforcer la présence du basque sur le net.

SITUATION DU DOMAINE .EUS

L'analyse quantitative et qualitatif du domaine: le nombre de noms de domaines et la répartition par territoires, le type d’organisme et le taux de pénétration du domaine.

Filter Categories
Tout
2017
2016
2015

INTERNET AU PAYS BASQUE

Le nombre de noms de domaines enregistrés au Pays basque par les TLD principaux (domaines de premier niveau) et la distribution du marché

LANGUE BASQUE ET INTERNET AU PAYS BASQUE

Le degré de présence du basque sur le net, au travers des TLD principaux et les réseaux sociaux

DOCUMENTS

MÉTHODOLOGIE

Outre l'examen du taux de pénétration du domaine .EUS et des autres domaines majeurs du net au Pays basque, la présente étude a porté sur le degré de présence du basque et des autres langues dominantes.

Nous avons pour ce faire analysé tous les contenus des sites web de chaque domaine et les avons classés par langue. Nous avons pu de cette manière connaître le nombre de contenus en basque, en espagnol, en anglais, en français et dans d'autres langues dans chaque domaine. Nous avons utilisé deux stratégies pour réaliser cette analyse de domaines :

- Crawling au niveau du domaine : En premier lieu, les contenus html correspondant au domaine sont téléchargés automatiquement par le biais des techniques de crawling, y compris les contenus crées par JavaScript. Ce processus de crawling gère les redirections pouvant se trouver à l’intérieur d’un domaine de façon intelligente. Les pages parking aussi sont repérées et bloquées. À la suite de ce processus de crawling, le texte est extrait des contenus html, et les langues y sont automatiquement identifiées par le biais des modèles de langues statistiques. Le modèle de langue utilisé est en mesure d’identifier tous les textes pouvant se trouver dans un texte multilingue. Cette méthode génère un trafic important lors du traitement de sites Internet de gros volume. C’est pourquoi cette méthode a été utilisée seulement pour le traitement de sites Internet au contenu réduit.

- Exploration d'Internet au niveau du domaine : Le but de cette méthode est de mesurer la présence d’une langue sur un site Internet à travers les moteurs de recherche (comme Google, Bing). En effectuant une recherche dans les moteurs de recherche avec les mots caractéristiques d’une langue (mots filtres) dans un domaine précis, nous pouvons faire une estimation des contenus dans cette langue. Ainsi, nous évitons de télécharger les contenus du site. De ce fait, nous utilisons cette méthode pour traiter les sites ayant des contenus importants. Nous ne l’utilisons pas pour les sites au contenu peu important, car beaucoup ne sont pas totalement indexés dans les moteurs de recherche. Pour vérifier le nombre de pages obtenus par les moteurs de recherche selon les filtres linguistiques, nous classons les premiers résultats donnés par les moteurs de recherche selon la langue –en fonction des modèles statistiques–, pour valider le bon fonctionnement des mots filtres.

Il va sans dire que cette mesure est très complexe, et bien que les deux méthodes sont d'une grande précision, il existe une marge d’erreur. La mesure se fait en quelques étapes, et chacune de ces étapes à un taux d’erreur limité, qui s’accumulent tout au long de la chaîne. Selon nos estimations, l'exactitude des résultats et de 70 % à 80 %.

Nous apportons des améliorations au système afin de réduire le taux d'erreur dans les mesures, et ces améliorations ont un impact sur les résultats. Dans l’étude de 2017, par exemple, on a comptabilisé davantage de redirections dans le procédé de crawling, et de nombreuses pages parking de domaine ont été bloquées automatiquement. De même, nous avons utilisé un nouveau modèle de langue statistique afin d’identifier des extraits de texte en basque dans les textes multilingues, et des sites ayant des textes très courts ont aussi été pris en compte.

Dans le cas du domaine .EUS, la présence du basque a été mesuré manuellement, en plus des autres stratégies automatiques mentionnés, et nous avons obtenu un niveau de précision encore meilleur.

En ce qui concerne la classification des domaines, nous avons étudié les suivants :

- gTLD ou domaines génériques de premier niveau : .EUS, .COM, .NET, .INFO, .ORG et .BIZ

- ccTLD ou domaines de niveau supérieur de codes de pays : Nous avons analysé les domaines .ES et .FR. Pour le cas du domaine .EU, un certain nombre de données nécessaires pour effectuer les recherches de langue ne sont pas du domaine public, ce que précise notre étude lorsque cela est nécessaire.

Sponsors