L'Observatoire PuntuEUS

L'OBSERVATOIRE PUNTUEUS

est une initiative de la Fondation PuntuEUS dont l’objectif est de mesurer la situation de la langue basque sur Internet. L’Observatoire réalise cette analyse tous les ans et publie ses résultats sur ce site web et le rapport annuel.

ANALYSE

la présence du basque sur Internet ainsi que la présence d’Internet au Pays basque, de manière quantitative et qualitative en se basant sur les mesures de trois domaines : Situation du domaine .EUS, Internet au Pays Basque et la situation du basque sur Internet

LE BUT FINAL

de l’Observatoire PuntuEUS est offrir à l’ensemble de la société basque l’outil indispensable pour définir les stratégies et politiques à mettre en œuvre pour renforcer la présence du basque sur le net.

SITUATION DU DOMAINE .EUS

L'analyse quantitative et qualitatif du domaine: le nombre de noms de domaines et la répartition par territoires, le type d’organisme et le taux de pénétration du domaine.

Tout
2016
2015

INTERNET AU PAYS BASQUE

Le nombre de noms de domaines enregistrés au Pays basque par les TLD principaux (domaines de premier niveau) et la distribution du marché

LANGUE BASQUE ET INTERNET AU PAYS BASQUE

Le degré de présence du basque sur le net, au travers des TLD principaux et les réseaux sociaux

DOCUMENTS

MÉTHODOLOGIE

Outre l'examen du taux de pénétration du domaine .EUS et des autres domaines majeurs du net au Pays basque, la présente étude a porté sur le degré de présence du basque et des autres langues dominantes.

Nous avons pour ce faire analysé tous les contenus des sites web de chaque domaine et les avons classés par langue. Nous avons pu de cette manière connaître le nombre de contenus en basque, en espagnol, en anglais, en français et dans d'autres langues dans chaque domaine. Nous avons utilisé deux stratégies pour réaliser cette analyse de domaines :

- Crawling au niveau du domaine : Dans une première étape nous avons téléchargé automatiquement les contenus de HTML correspondant au domaine, dont ceux créés par JavaScript. Nous avons ensuite extrait les informations textuelles de ces contenus de HTML et identifié la langue automatique grâce à des modèles statistiques de langues. Cette stratégie garantit une précision de 0,77. Même si le traitement des domaines est effectué en parallèle, cette méthode peut générer un trafic important lors du traitement de sites web de gros volumes. C'est pourquoi cette stratégie a été utilisée uniquement pour traiter des sites web avec peu de contenus.

- Exploration d'Internet au niveau du domaine : Nous avons utilisé cette méthode qui se base sur les moteurs de recherche (par ex. Google, Bing…) pour traiter les sites web de gros volumes, car elle génère beaucoup moins de trafic que le procédé du crawling. Par ailleurs de nombreux sites web avec peu de contenu ne sont pas complètement indexés dans les explorateurs. En effectuant une recherche par mots-clés pour le contenu de chaque langue (mots filtre domaine de langue), nous estimons le volume de chacune des langues. L'explorateur d'Internet nous fournit le nombre de pages qui disposent de mots significatifs (mots filtre de langue) pour chaque langue. Nous classons automatiquement par langues les premiers résultats donnés par l'explorateur d'Internet pour confirmer le bon fonctionnement des mots filtre de langue. Cette stratégie apporte une précision de 0,82.

Dans le cas du domaine .EUS, la présence du basque a été mesuré manuellement, en plus des autres stratégies automatiques mentionnés, et nous avons obtenu un niveau de précision encore meilleur.

En ce qui concerne la classification des domaines, nous avons étudié les suivants :

- gTLD ou domaines génériques de premier niveau : .EUS, .COM, .NET, .INFO, .ORG et .BIZ

- ccTLD ou domaines de niveau supérieur de codes de pays : Nous avons analysé les domaines .ES et .FR. Pour le cas du domaine .EU, un certain nombre de données nécessaires pour effectuer les recherches de langue ne sont pas du domaine public, ce que précise notre étude lorsque cela est nécessaire.

Sponsors