Observatorio PuntuEUS

EL OBSERVATORIO PUNTUEUS

es una iniciativa de la Fundación PuntuEUS cuyo objetivo es medir la situación del euskera en internet. Este estudio se realiza anualmente, y los resultados se publican en esta web, así como en el informe anual.

ANALIZA

la presencia que el euskera tiene en internet así como la presencia que tiene internet en el País Vasco, de modo tanto cuantitativo como cualitativo, basándose en las mediciones de tres áreas: Situación del dominio .EUS, Internet en el País Vasco y La situación del euskera en internet.

EL OBJETIVO FINAL

del observatorio PuntuEUS es el de aportar a toda la sociedad vasca una herramienta útil para la definición de estrategias y políticas necesarias para fortalecer la presencia del euskera en Internet.

SITUACIÓN DEL DOMINIO .EUS

Análisis cuantitativo y cualitativo del dominio: número de nombres de dominio y su distribución tanto territorial como tipológica, así como el grado de penetración del dominio.

INTERNET EN EL PAÍS VASCO

El número de nombres de dominio registrados por los principales TLDs en el País Vasco y su distribución de mercado

EL EUSKERA EN INTERNET EN EL PAÍS VASCO

La presencia del euskera en Internet, tanto en los principales TLDs como en las redes sociales

DOCUMENTOS

METODOLOGÍA

En este estudio se analiza no solo el grado de penetración en el País Vasco tanto del dominio .EUS como de los principales dominios de internet, sino también la presencia del euskera y de los principales idiomas.

Para ello, hemos analizado todos los contenidos de los sitios web de cada dominio y los hemos clasificado según el idioma. De ese modo hemos podido conocer cuántos contenidos hay en euskera, español, inglés, francés y demás lenguas en cada dominio. Hemos utilizado dos estrategias para realizar este análisis de dominios:

- Crawling a nivel de dominio: En un primer paso, se descargan de manera automática los contenidos de HTML correspondientes al dominio, incluidos los creados por JavaScript. A continuación, se extrae la información textual de dichos contenidos de HTML y se identifica el idioma automáticamente por medio de modelos estadísticos de idiomas. Esta estrategia garantiza una precisión del 0,77. Este sistema puede generar mucho tráfico cuando se procesan sitios web demasiado grandes, incluso cuando el recuento de dominios se procesa en paralelo. Es por eso que dicha estrategia se ha utilizado únicamente para procesar sitios web de poco contenido.

- Exploración de internet a nivel de dominio: Hemos utilizado esta estrategia basada en los exploradores de internet como Google y Bing para procesar los sitios web grandes, porque genera mucho menos tráfico que el crawling. Asimismo, muchos sitios web con poco contenido no están completamente indexados en los exploradores. En cada dominio se hace una búsqueda de palabras representativas de cada idioma (palabras filtro de idioma), y se hace una estimación de contenidos en cada uno de ellos. El explorador de internet nos proporciona el número de páginas que disponen de palabras significativas (palabras filtro de idioma) por cada idioma. Clasificamos automáticamente por idiomas los primeros resultados arrojados por el explorador de internet, para confirmar el correcto funcionamiento de las palabras filtro de idioma. Esta estrategia proporciona una precisión del 0,82.

En el caso del dominio .EUS, la presencia del euskera se ha medido manualmente, además de con las mencionadas estrategias automáticas, y se ha obtenido un nivel de precisión aún mejor.

En cuanto a la clasificación de dominios, se han analizado los siguientes:

- gTLDs o dominios de nivel superior genéricos: .EUS, .COM, .NET, .INFO, .ORG y .BIZ

- ccTLDs o dominios de nivel superior de códigos de país: Se han analizado los dominios .ES y .FR. En el caso del dominio .EU, algunos de los datos necesarios para hacer análisis lingüísticos no son públicos, y así se indica en el análisis, siempre que proceda.

Patrocinadores