Observatorio PuntuEUS

EL OBSERVATORIO PUNTUEUS

es una iniciativa de la Fundación PuntuEUS cuyo objetivo es medir la situación del euskera en internet. Este estudio se realiza anualmente, y los resultados se publican en esta web, así como en el informe anual.

ANALIZA

la presencia que el euskera tiene en internet así como la presencia que tiene internet en el País Vasco, de modo tanto cuantitativo como cualitativo, basándose en las mediciones de tres áreas: Situación del dominio .EUS, Internet en el País Vasco y La situación del euskera en internet.

EL OBJETIVO FINAL

del observatorio PuntuEUS es el de aportar a toda la sociedad vasca una herramienta útil para la definición de estrategias y políticas necesarias para fortalecer la presencia del euskera en Internet.

SITUACIÓN DEL DOMINIO .EUS

Análisis cuantitativo y cualitativo del dominio: número de nombres de dominio y su distribución tanto territorial como tipológica, así como el grado de penetración del dominio.

Filter Categories
Todos
2017
2016
2015

INTERNET EN EL PAÍS VASCO

El número de nombres de dominio registrados por los principales TLDs en el País Vasco y su distribución de mercado

EL EUSKERA EN INTERNET EN EL PAÍS VASCO

La presencia del euskera en Internet, tanto en los principales TLDs como en las redes sociales

DOCUMENTOS

METODOLOGÍA

En este estudio se analiza no solo el grado de penetración en el País Vasco tanto del dominio .EUS como de los principales dominios de internet, sino también la presencia del euskera y de los principales idiomas.

Para ello, hemos analizado todos los contenidos de los sitios web de cada dominio y los hemos clasificado según el idioma. De ese modo hemos podido conocer cuántos contenidos hay en euskera, español, inglés, francés y demás lenguas en cada dominio. Hemos utilizado dos estrategias para realizar este análisis de dominios:

- Crawling a nivel de dominio: En un primer paso, se descargan automáticamente los contenidos html de la web correspondientes al dominio con técnicas de crawling, incluidos los creados por JavaScript. El proceso de crawling gestiona de manera inteligente los redireccionamientos que pueda haber dentro de un dominio. Las páginas de parking son también detectadas y bloqueadas. Después del proceso, se extrae el texto de los contenidos html recabados, y se identifican automáticamente los idiomas presentes por medio de modelos lingüísticos y estadísticos. El modelo lingüístico utilizado es capaz de identificar todos los idiomas que pueda haber en un texto multilingüe. Esta estrategia genera mucho tráfico cuando se procesan sitios web grandes. Es por eso que dicha estrategia se ha utilizado únicamente para procesar sitios web de poco contenido.

- Exploración de internet a nivel de dominio: La idea de esta estrategia es utilizar los exploradores de internet (por ejemplo, Google y Bing) para medir la presencia de un idioma concreto en una página web. La estimación de la cantidad de contenido de ese idioma se realiza mediante una búsqueda en los exploradores de internet de palabras representativas del idioma (palabras filtro de idioma) en un dominio en concreto. De ese modo, evitamos descargar el contenido de dicho sitio web. Por ello utilizamos esta estrategia para procesar sitios web de gran tamaño. No para sitios web de poco tamaño, ya que muchos de ellos no están completamente indexados en los exploradores. Para verificar el número de páginas obtenido por el buscador web en base a esas palabras filtro, clasificamos los primeros resultados devueltos por el buscador según el idioma —utilizando modelos estadísticos—, y asegurar así que las palabras filtro de idioma funcionan correctamente.

Sobra decir que es un complejo proceso de medición, por lo que, aunque la precisión de ambas estrategias sea alta, existe un margen de error. Al fin y al cabo, el proceso de medición consta de varios pasos, y cada uno de ellos tiene una pequeña tasa de error que se va acumulando en toda la cadena. Según nuestros cálculos, la precisión de los resultados de la medición es del 70-80 %.

En las mediciones anuales, incorporamos mejoras en el sistema para disminuir la tasa de error, y ello repercute en los resultados. En el análisis de 2017, por ejemplo, se han tenido en cuenta más casos de redireccionamiento en el proceso de crawling, y muchas páginas de parking de dominios se han bloqueado automáticamente. Asimismo, hemos utilizado un nuevo modelo estadístico de idiomas para identificar los fragmentos en euskera en textos multilingües, y en el recuento también se han tenido en cuenta los sitios web de poco texto.

En el caso del dominio .EUS, la presencia del euskera se ha medido manualmente, además de con las mencionadas estrategias automáticas, y se ha obtenido un nivel de precisión aún mejor.

En cuanto a la clasificación de dominios, se han analizado los siguientes:

- gTLDs o dominios de nivel superior genéricos: .EUS, .COM, .NET, .INFO, .ORG y .BIZ

- ccTLDs o dominios de nivel superior de códigos de país: Se han analizado los dominios .ES y .FR. En el caso del dominio .EU, algunos de los datos necesarios para hacer análisis lingüísticos no son públicos, y así se indica en el análisis, siempre que proceda.

REFERENCIAS

Principales fuentes de referencia e información

Patrocinadores