2008. július 26., szombat

Uráli nyelvek a wikipédián

Mint arról a finnugor.blog.hu is beszámol, a közelmúltban indul el az erza és a moksa nyelvű wikipédia. A magyar wikipédia nemrég érte el a százezres szócikkszámot, és szintén magyar vonatkozású hír, hogy a teljes wikipédia tízmilliomodik cikke is magyar nyelvű. Érdemes tehát megnéznünk, a többi finnugor nyelv hogy áll a wikipédián.

A különböző nyelvű wikipédiák fejlettségét elsősorban a szócikkek számával mérhetjük. Természetesen nem ez az egyetlen lehetséges kritérium, hiszen nem mindegy, milyenek ezek a szócikkek, milyen témákra terjednek ki, a minőségükről nem is szólva.

A lista élén a finnek állnak (14. hely az összes nyelv között), több, mint 170.000 szócikkel, őket a magyarok követik (22.), alig több mint 100.000-rel. Ha ehhez hozzátesszük, hogy finnül kb. ötmillióan beszélhetnek, míg magyarul több, mint tízmillióan, ez az eredmény nem túl hízelgő ránk nézve. (Természetesen ez a magyar beszélőközösséget minősíti, nem pedig a magyar wikipédia szerzőit, akiket munkájukért köszönet illet.) Igaz, figyelembe kell venni a technikai körülményeket is, és ha a magyarokhoz lélekszámban és lehetőségeikben hasonló adottságokkal rendelkező csehekkel (20.) vetjük össze magunkat (akik alig 2000 szócikkel járnak előttünk), már nem olyan kedvezőtlen a kép – habár a jóval kevesebben levő szlovákok már a 98.000-dik szócikken túl járnak (23.). Elismerésre méltó viszont, hogy az alig egymillió beszélőt számláló észtek már az ötvenezredik szócikket is elhagyták (33.).

Ezután azonban hatalmas szakadék következik. Ezer felett csak két további uráli nyelvnek, a száminak (lapp: a wikipédián csak a legtöbb beszélővel rendelkező északi vagy norvég-lappnak, valamivel több, mint 2500 szócikkel, 122.) és a võruinak (dél.észt nyelvjárás, melyet az utóbbi évtizedetkben ismét önálló nylevnek kezdenek tekinteni, közel 1800 szócikk, 140.) van önálló enciklopédiája.

Az oroszországi finnugor nyelvek közül egyedül a most indult erza enciklopédiában van több, mint 500 szócikk (170.). Ezt követi az udmurt, több, mint háromszáz szócikkel (190.), a sereghajtó pedig a most indult moksa (216) és a komi (220), alig több mint száz szócikkel. A komiban még a kezelőfelület fordítása sem történt meg, a szerkesztésre és a navigációra vonatkozó feliratok mind oroszul szerepelnek. Ezeken a nyelveken többszázezren beszélnek, akárcsak mariul, amelynek egyáltalán nincs enciklopédiája. A komi-permják beszélők száma is eléri a százezret, wikipédiájuk azonban nincs. A többi nyelvnek még ennyi beszélője sincs, így nem csodálkozhatunk, ha nincs wikipédiájuk sem. Vagy mégis? Egyáltalán: mit várhatunk?

750.000-en beszélnek velsziül, a 17.000-dik szócikk felett járnak. A 600.000 beszélővel rendelkező baszk nyelven több, mint 27.000 szócikket olvashatunk. Hasonló a bretonul, ill. vallonul beszélők száma, ezeken a nyelven is több, mint 20.000, ill. 10.000 szócikk olvasható. Nagyjából félmillióan beszélnek asztúriaiul, szócikkeik száma meghaladja a 11.000-t. A kb. 350.000 írül beszélő közel 7000 szócikket olvashat anyanyelvén. A luxemburgit 300.000-en beszélik, több, mint 23.000 szócikkük van. De vannak meglepőbb esetek is, pl. a kb. 55.000 beszélőt számláló felsőszorb nyelven közel 5000, 10.000-30.000-es aragóniai nyelven közel 10.000 szócikk olvasható. Ezek a nyelvek tehát, melyek beszélőik számát tekintve igen közel állnak a két mordvin, a mari, az udmurt és a komi nyelvhez, sokkal erősebben jelen vannak a wikipőédián, mint ez utóbbiak. Az oroszországi kisebbségi nyelvek esetében erős hátrányként szokták emlegetni, hogy beszélőik kétnyelvűek, és oroszul minden információhoz hozzáférnek, ezért hanyagolják anyanyelvüket. Az itt felsorolt nyelvek beszélői azonban szintén kétnyelvűek, és második nyelvük legalább annyira, sőt még inkább világnyelv, mint az orosz: angol, spanyol, francia, német. Önmagában tehát az, hogy a kis finnugor népeknek azért nincsenek vagy elhanyagolhatóak a wikipédiáik, mert nincs rá szükségük, nem magyarázat.

A képet tovább árnyalja, hogy vannak olyan nyugat-európai nyelvek és nyelvjárások, melyek beszélőinek száma milliós nagyságrendű, mégis 10.000 és 30.000 között van szócikkeik száma: ilyenek a piemonti, az okcitán, a nápolyi, az alnémet, a szicíliai, vagy a vallon. Sőt, vannak olyan államnyelvek is, amelyek ebben a sávban mozognak. igen meglepő például, hogy lettül csak alig több, mint 16.000 szócikk olvasható, de macedónul is csak alig több, mint 18.000 szócikket találunk, az albánok pedig alig 20.000 felett járnak, beloruszul pedig két változat is létezik, mindkettő szócikkeinek száma 12.000 körül mozog.

Ez utóbbi annak is következménye lehet, hogy a posztszovjet térség nagy része igencsak le van maradva. A Kaukázusban grúzul mindössze 22.000, azeriül közel 19.000, örményül még 4000 szócikk sem olvasható. Még rosszabb a helyzet Közép-Ázsiában: a tadzsik verzióban közel 9000, az üzbégben közel 7000, a kazahban 2500, a türkménben pedig alig több, mint 1000 szócikk található. (E nyelvek mindegyikét több millióan beszélik.)

Azonban nem mindenhol ennyire lehangoló a helyzet. Az Oroszországban (igaz, milliók által) beszélt tatárnak több, mint 3500 szócikke van, de ezt jócskán felülmúlja a csuvas a maga több, mint 8000 szócikkével (beszélőinek száma egymillió felett jár). A kb. 700.000 ember által beszélt oszét nyelven alig több, mint kétezer szócikket írtak, a közel másfél millió ember által beszélt baskír nyelven pedig alig több, mint 400 szócikk van! Az oroszországban beszélt finnugor nyelvek tehát sajnos nem lógnak a régióból, így aligha várható, hogy a szócikkek száma rohamosan fog emelkedni. (Meg kell jegyeznünk, hogy a wikipédia európai népszerűsége nem jellemző más terültekre. Pl. az indiában beszélt nyelvek közül a telugu büszkélkedhet a legtöbb szócikkel: alig több, mint negyvenezerrel. E nyelven több, mint 70 millióan beszélnek.)

A wikipédia igazi meglepetése azonban a volapük. Ez egy mesterséges nyelv, melyről az eszperantista propagandaanyagokban olvashatunk úgy, mint az eszperantó időközben hamvába holt előfutáráról. Ennek ellenére szócikkeinek száma a 117.000 felett jár, és ezzel a 17. helyet foglalja el. Ezzel szemben az eszperantó le van maradva, alig több, mint 101.000 szócikkével a(z egyébként igen tiszteletreméltó) 20. helyet foglalja el.

5 megjegyzés:

nyenyec írta...

Óvatosan kell bánni ezekkel a számokkal. A Wikipédia statisztikái a kétmondatos kezdeményt ugyanúgy 1 szócikknek számolják, mint a 20 oldalas részletes lapot.

Sok nyelvi változat gépi fordítással, illetve régi, lejárt szerzői jogvédelmű lexikonok gépi importálásával tornázza fel a szócikkszámot.

A fentiek miatt felhasználói szempontból óriási minőségi különbség lehet két változat között, amikben elvileg hasonló a szócikkszámláló állása.

További statisztikák elérhetőek innen kiindulva:

http://stats.wikimedia.org/EN/Sitemap.htm

(Érdemes pl. figyelni az átlagos szócikkhosszt, vagy az egy cikkre jutó szerkesztések számát.)

Fejes László írta...

Kedves Nyenyec!

A megjegyzés teljesen helytálló, kb. erre utaltam én is: "Természetesen nem ez az egyetlen lehetséges kritérium, hiszen nem mindegy, milyenek ezek a szócikkek, milyen témákra terjednek ki, a minőségükről nem is szólva."

Az átlagos szócikkhossz valóban figyelemreméltó, nem tudtam róla, hogy ezeknek is utána lehet nézni, köszönjük. Természetesen a gépi fordítású vagy elavult információt tartalmazó szócikkek aránya ezzel sem mérhető. Sajnos azonban a minket leginkább érdeklő nyelvek esetében erre nincs is szükség...

dujmovt írta...

Gondolom a kérdéses helyzet annak is köszönhető, hogy valószínűleg Udmurtiában kevesebb embernek van számítógépe/internete, mint Írországban, vagy Belgiumban. De ezen felül is bizonyára egyéb gazdasági-társadalmi különbségek hatással vannak egy ország lakosainak wiki-aktivitására. Például arra is kíváncsi lennék, hogy az orosz nyelvű szócikkek hány százalékát írták udmurtiai oroszok.

Fejes László írta...

Kedves Tamás!

Természetesen jogos a felvetés, ezért írtam külön Európa és Amerika (ill. bizonyára Ausztrália) felülreprezentáltságáról. Itt azonban nem csupán az internethozzáférés technikai oldaláról van szó. Udmurtiában azért van internet, és általában még az egyébként rosszul felszerelt iskolák is rendelkeznek hozzáféréssel. Írni tehát lehetne. Igaz viszont, hogy a potenciális olvasók tömegei nem férnének hozzá. Valószínűleg ebből következik, hogy az egyésznek ki sem alakult a kultúrája...

Fejes László írta...

Utólag vettem észre, hogy két nappal e poszt megjelenése előtt, július 24-én a Magyar Narancs 7. oldalán szintén megjelent egy, a magyar Wikipédia 100000. szócikkének szentelt írás. Külön öröm, hogy a szomszédos országok nyelvei mellett megemlékezik a másik két finnugor államnyelv, a finn és az észt szócikkszámáról is.