2009. július 20., hétfő

Uráli nyelvek a wikipédián – mi változott egy év alatt?

Majdnem egy éve posztoltam arról, hogy milyen finnugor nyelvek és milyen szócikkekkel vannak jelen a Wikipédián. Akkor az uráli nyelvek a következő szócikkszámokkal képviseltették magukat, és ezzel a következő helyezést érték el:

  1. finn (kb. 170.000, 14. hely)
  2. magyar (kb. 100.000, 22. hely)
  3. észt (kb. 50.000, 33. hely)
  4. számi (lapp; kb. 2500, 122. hely)
  5. võrui (dél-észt; kb. 1800 szócikk, 140. hely)
  6. erza (kb. 500 szócikk, 170. hely)
  7. udmurt (kb. 300 szócikk, 190. hely)
  8. moksa (kb. 100 szócikk, 216. hely)
  9. komi (kb. 100 szócikk, 220. hely)
A jelenlegi állás a következő:

  1. finn (kb. 210.000 szócikk, 14. hely)
  2. magyar (kb. 130.000 szócikk, 19. hely)
  3. észt (kb. 65.000 szócikk, 34. hely)
  4. võrui (dél-észt; kb. 3500 szócikk, 126. hely)
  5. számi (lapp; kb. 2800 szócikk, 136. hely)
  6. komi (kb. 1500 szócikk, 163. hely)
  7. erza (kb. 670 szócikk, 186. hely)
  8. mari (kb. 536 szócikk, nem hivatalosan 193. hely)
  9. udmurt (kb. 380 szócikk, 201. hely)
  10. moksa (kb. 325 szócikk, 211. hely)
Mint látható, egyedül a mari új, és megjelenésével rögtön meg is előzte az udmurtot és a moksát. (A többi nyelvhez vezető linkeket l. az előző posztban.) Jelentős fejlődést láthatunk még a kominál, ahol megtizenötszöröződött a szócikkek száma, s ezzel majdnem hatvan helyet sikerült előrelépni. A moksa fejlődés is figyelemre méltó, a szócikkek száma megháromszorozódott, de ez csak öt helynyi javításra volt elég, sőt, a kb. 25%-os fejlődést felmutatni tudó udmurtot sem sikerült utolérni. Egyébként az udmurthoz hasonló fejlődést mutat a finn, a magyar, az észt és az erza is. Míg ez az ütem a rangsor élén kb. a hely megtartására elég (a magyar két helyet lépett előre, az észt egyet vissza), addig az erza számára már 16 hely visszaesést jelent. Ettől is elmarad a számi (kb. 12%), ami korábbi viszonylagos jó helyezésének köszönhetően „csak” 14 helyet esett vissza. (Korábban a magyarok helyezését a csehekével és a szlovákokéval vetettük össze: a csehek továbbra is előrébb járnak, bár előnyük fogy – ezzel szemben a szlovák szócikkek száma jóval lassabban növekszik, és egy helyet vissza is estek. Az oroszországi finnugorokat nézve összehasonlításként a többmilliós tatárokat említhetjük, akiknek most alig több, mint 4000 szócikkük van – a számihoz hasonló arányban fejlődnek –, az egymilliós csuvasoknak viszont kb. 10000 szócikkük van – ők a magyarhoz hasonló ütemben fejlődtek. A másfél milliós baskírok viszont alig több mint 400 szócikkükkel a leggyengébben teljesítő finnugorok között állnak, és az utóbbi évben gyakorlatilag nem születtek új szócikkeik.) A szamojéd népeknek továbbra sincsenek wikipédiáik.

Korábban nem vizsgáltuk a szócikkek színvonalát. A wikipédia tartalmaz egy igen összetett mutatót: ezt úgy állítják össze, hogy megvizsgálnak ezer olyan szócikket, amelyet szerintük minden wikipédiának tartalmaznia kellene: annak alapján, hogy ezekből hány van meg, ill. milyen hosszúságúak, összeállítanak egy mutatót. Bár a lista igyekszik kiegyensúlyozott lenni, kétségtelen, hogy erősen nyugatcentrikus (pl. négy színészt vár el, három nyugat-európai és egy amerikai, mind a négyen felléptek az Egyesült Államokban). A komi vagy a számi wikipédia minőségét pedig aligha elsősorban az határozza meg, hogy milyen szócikk van benne Velázquezről, Felliniről vagy a tamil nyelvről. Arról nem is szólva, hogy a nyelv és az írásrendszer mennyire erősen meghatározhatja a cikk szószámát. Ráadásul könnyű úgy dolgozni, hogy elsősorban ezt az 1000 cikket fejlesztjük, míg a többit hanyagoljuk. Ez a mutató annyiban mégis kedves lehet nekünk, hogy a magyar (12.) megelőzi a finnt (14.). Megjegyzendő, hogy mindkét hely igen előkelő, a katalánon kívül csak a magyarnál és a finnél jóval több beszélővel rendelkező, főképp világnyelvek előznek meg minket. A további uráli nyelvek vannak még jelen: észt (47.), võrui (111.), komi (155.), számi (157.), erza (202.), moksa (212.), udmurt (213.). Mindez azt mutatja, hogy egyes nyelvek jobb, mások rosszabb helyezést érnek el, mint a szócikkek alapján, de ez a sorrendet lényegileg nem befolyásolja: egyedül a komi előzi meg egy kevéssel a szócikkek számában csaknem harminc hellyel előtte járó számit.

Ahhoz, hogy valamivel árnyaltabb képet nyerjünk, találomra három olyan szócikket választottam, amely minden nyelven egyforma eséllyel fordulhat elő: 1. egy földrajzi hely (Moszkva), 2. egy történelmi személyiség (Lenin), 3. egy természeti jelenség (csuka). Mind a három releváns az összes uráli nép kultúrájában, ezért alkalmas arra, hogy mérce legyen.

1. Egyértelműen a magyar a legterjedelmesebb, ennél kevesebbet nyújt a finn, és az észten már alig kell görgetni. A többi nyelven csak néhány sor szerepel, általában annyi, hogy Oroszország fővárosa, politikai, gazdasági, kulturális (a sor ízlés szerint folytatható) központ, és hogy hány lakosa van. A komi legfeljebb a képeknek köszönhetően ugrik ki a többi közül. A mari és a számi wikipédián nem szerepel.

2. Ezúttal az észt viszi a pálmát, de a magyar és a finn szócikk is elég tisztességes hosszúságú, sőt, a võrui is csaknem kitölti a képernyőt. Ezzel szemben a számi, erza, moksa, mari, udmurt és komi wikipédiában egyáltalán nincs ilyen szócikk. (Ezzel szemben az erza és a komi wikipédiában van Lenin utca/út, ami annyira nem meglepő, hiszen minden oroszországi városban van ilyen. Az erza esetében a Szaranszkiról olvashatunk egy sort, a komiban viszont a baskortosztáni Sztyerlitamak főutcájának hosszát (3,4 km) adja meg.)

3. Ezúttal a finn a győztes, de a magyar és az észt is jónak mondható. Az erza változatban csak a képe, latin neve és rendszertani besorolása van meg, a számiban csak képe és latin neve. A többiben nem sikerült nyomára bukkanni.

Összefoglalva: egyedül a magyar, a finn és az észt wikipédia tűnik használhatónak, a többiben alig van esélyünk információt találni, és ha szerencsénk van, az információ akkor is semmitmondó. A komi jelentős fejlődéséről kialakult képünket árnyalhatja, hogy az 1500 szócikk között van az év 366 napja, ill. rengeteg évszám, amelyhez egy esemény sincs bejegyezve. (Ez a 366 nap szerepel a mari 500 szócikk között is.) A szócikkeket véletlenül váltogatva alig találunk olyat, ahol 2–3 sornál több információ szerepelne. Az erza wikipédiában sikerült olyan, nem igazán enciklopédiába illő adatokat találni, mint a szaranszki trolik számozása, ill. hogy a 24 a 23 és a 25 közötti természetes szám. A moksát hasonló módon böngészve pl. megtalálhatjuk a számítógép szócikket, mely teljesen üres. A võrui szócikkek számát pl. a legfelsőbb domainek szócikkei szaporítják. A nem sok udmurt szócikk között híreket is találunk (viszont azt is megtudhatjuk, hogy Balassi Bálint írt először magyarul erotikus verseket). Bár ezeken a nyelveken a keretek építése folyik, a valódi szócikkírás igazán meg sem kezdődött.