PuntuEUS Behatokia
PUNTUEUS BEHATOKIA
PuntuEUS Fundazioaren ekimena da eta euskarak Interneten duen egoera neurtzea du helburu. Neurketa urtean behin egiten da, eta emaitza webgune honetan eta urteko txostenean argitaratzen da.
.EUS DOMEINUAREN EGOERA
Domeinuaren neurketa kualitatibo eta kuantitatiboa: banaketa lurraldeka, erakunde motaren arabera, eta domeinuaren barneratze-maila.
INTERNET EUSKAL HERRIAN
Lehen mailako domeinu nagusiek Euskal Herrian erregistratutako domeinu-izen kopurua eta merkatuaren banaketa.
EUSKARA EUSKAL HERRIKO INTERNETEN
Euskarak Interneten duen presentziaren neurketa, lehen mailako domeinu nagusietan eta sare sozialetan.
DOKUMENTUAK
METODOLOGIA
Azterketa honetan .EUS domeinuak eta Interneteko domeinu nagusiek Euskal Herrian duten barneratze-maila aztertzeaz gain, euskarak eta gainerako hizkuntza nagusiek web guneetan duten presentzia aztertu da.
Neurketa hori egin ahal izateko Euskal Herriko domeinuei dagozkien webguneetako testu-eduki guztiak aztertu eta hizkuntzaren arabera sailkatu ditugu modu automatikoan. Horrela jakin ahal izan dugu Euskal Herriko domeinu bakoitzean zenbat eduki dauden euskaraz, gaztelaniaz, ingelesez, frantsesez eta bestelako hizkuntzetan. Domeinuen azterketa hau egiteko bi estrategia baliatu ditugu aztertu beharreko webgune bakoitzaren tamainaren arabera:
- Domeinu mailako crawlinga : Lehenengo pausu batean domeinuari dagokion webguneko html edukiak deskargatzen dira modu automatikoan crawling tekniken bitartez, JavaScript bidez sortutakoak ere aintzat hartuta. Crawling prozesu honek domeinu baten barruan egon daitezkeen berbiderapenak modu adimentsu batean kudeatzen ditu. Parking-orriak ere antzeman eta blokeatu egiten dira. Crawling prozesu honen ondoren, bildutako html edukietatik testua erauzi, eta bertan dauden hizkuntzak automatikoki identifikatzen dira hizkuntza-eredu estatistikoen bidez. Erabilitako hizkuntza-eredua testu eleaniztun baten egon daitezkeen testu guztiak identifikatzeko gai da. Estrategia honek trafiko handia eragiten du webgune handiak prozesatzen direnean. Hori dela eta, estrategia hau eduki gutxiko webguneak prozesatzeko soilik erabili da.
- Domeinu mailako web-bilaketak : Web-bilatzaileak (adib., Google, Bing) webgune batean hizkuntza batek zenbateko presentzia duen neurtzeko baliatzea da estrategia honen ideia. Web-bilatzaileetan hizkuntza bateko hitz adierazgarrienez (hizkuntza filtro-hitzak) osatutako bilaketa bat domeinu zehatz baten gainean eginez, hizkuntza horretako edukien kopurua estimatzen dugu. Modu horretan, ekiditen dugu webgunearen edukiak deskargatzea. Hori dela eta, estrategia hau tamaina handiko webguneak prozesatzeko erabiltzen dugu. Tamaina txikiko webguneen gainean ez dugu aplikatzen eduki gutxiko webgune asko ez baitaude bilatzaileetan guztiz indexatuta. Web-bilatzaileen bidez lortutako hizkuntza-filtroen araberako orri-kopuruak zuzentze aldera web-bilatzaileek itzulitako lehen emaitzak hizkuntzaren arabera eredu estatistikoen bidez-sailkatzen ditugu, hizkuntza filtro-hitzek ondo funtzionatu dutela berresteko.
Esan gabe doa, burutu beharreko neurketa-prozesu hau oso konplexua dela, eta hori dela eta, nahiz eta bi estrategien zehaztasuna handia den, errore-marjina badagoela. Azken finean, neurketa-prozesuak zenbait pausu ditu, eta hauetako pausu bakoitzak badu errore-tasa txiki bat, kate osoan metatuz joaten dena. Gure estimazioen arabera neurketaren emaitzen zehaztasuna %70 eta %80 artekoa da.
Urteroko neurketetan errore-tasa hori jaisteko hobekuntzak egiten dizkiogu sistemari, eta hobekuntza horiek eragina dute emaitzetan. 2017ko azterketan, adibidez, berbiderapen kasu gehiago kontuan hartu dira crawling prozesuan, eta domeinu parking-orri asko modu automatikoan blokeatu dira. Halaber, euskarazko testu-zatiak testu eleaniztunetan identifikatu ahal izateko hizkuntza-eredu estatistiko berri bat erabili dugu, eta oso testu laburreko web-guneak ere aintzat hartu dira kontaketan.
Aurreko estrategia automatikoez gain, .EUS domeinuen kasuan euskararen presentzia eskuz neurtu da, zehaztasun maila hobea lortuz.
Domeinuen sailkapenari dagokionez, honako domeinuak aztertu dira:
- gTLD edo lehen mailako domeinu generikoak :
.EUS, .COM, .NET, .INFO, .ORG eta .BIZ
- ccTLD edo estatu-kodeei dagozkien lehen mailako domeinuak :
.ES eta .FR domeinuak aztertu dira. .EU domeinuaren kasuan hizkuntza azterketak egin ahal izateko beharrezko ziren hainbat datu ez dira publikoak, eta hala zehazten da dagokionean azterketan zehar.
ERREFERENTZIAK
Erreferentzia eta informazio iturriak
ERREFERENTZIAZKO TXOSTENAK
BESTE BEHATOKI BATZUK
Babesleak

