2010. augusztus 7., szombat

Uráli játszótér

A MorphoLogic és az MTA Nyelvtudományi Intézete évek óta fejleszt morfológiai elemzőket különböző uráli nyelvekre. Ezek csak mostanában kezdenek hozzáférhetővé válni a szélesebb közönség (elsősorban persze a kutatók számára). Pillanatnyilag négy elemzőt próbálhatunk ki magyar, illetve angol felületen: egy nganaszant, egy manysit, egy komit és egy udmurtot. A határozatlan névelő használata azért indokolt, mert egyes nyelvekhez több elemző készül. A most elérhető manysi elemző Kálmán Béla Wogulische Texte mit einem Glossar című művében használatos átírást használja, de remélhetőleg hamarosan elérhető lesz a Chrestomathia Vogulica, illetve a Munkácsi Bernát-féle Vogul Népköltési Gyűjtemény átírását használó elemző is. A komi és az udmurt elemzők cirill alapúak, az irodalmi nyelvi normát ismerik. A nganaszan elemző sajátos átírást használ, ehhez már virtuális billentyűzet is van, az adatok begépelését megkönnyítendő. Mivel azonban az interneten fellelhető udmurt szövegek többségében nem használják az ékezetes betűket, várható egy olyan változat is, amely ékezet nélkül is képes megelemezni a szavakat. Az elemző kipróbálásához rögtön példaszövegeket is találunk.

Mit csinál egy morfológiai elemző? Megmondja, hogy egy szövegben található szóalakok mely lexémáknak milyen alakjai. Természetesen egyes szóalakoknak több elfogadható elemzésük is lehet, pl. a magyar ment szó egyszerre lehet a magyar megy ige múlt idejű és a ment ige jelen idejű alakja, mindkettő egyes szám harmadik személyben, alanyi ragozásban. Az elemzőnek mindkét lehetőséget fel kell tüntetnie. A lehetőségek közül a számítógép nem tud választani, ezt nekünk kell megtenni. A választásunkat elmenthetjük a böngészőből, és saját gépünkről újra megnyithatjuk a fájlt. A lehetséges morfológiai elemzésekhez hasonlóan a többjelentésű szavak jelentései között is választhatunk, bár ez egyelőre inkább csak a manysira és az udmurtra igaz. A nganaszan és az udmurt esetében magyarul kapjuk meg a jelentést, a manysi esetében viszont magyarul, angolul és németül is. A komi elemző egyelőre nem ad meg jelentést: ebben az esetben viszont először az orosz jelentések fognak megjelenni.

A morfológiai elemzőt meg is fordíthatjuk, ekkor morfológiai generátor lesz belőle. A generátor használatához ismernünk kell a használható címkéket. (Persze az elemzés megértéséhez is, de ha ismerjük a nyelvet, ill. a leírásához használatos terminológiát, akkor ez nem jelent különösebb kihívást.) Ezt segíti elő, hogy választhatunk a lehetséges címkék között, de ez a funkció még csak korlátozottan működik: minden nyelvnél csak a nganaszan címkéi érhetőek el.

Mindeme kényelmetlenségek mellett is jó játék az elemző, különösen azoknak, akik e nyelveket tanulják. Nagy segítség lehet akkor is, ha fordítani akarunk: ha megértjük a címkéket, a glosszákból egész jól megérthetjük, miről szól a szöveg, akár akkor is, ha egyáltalán nem ismerjük a nyelvet. Az elemző használata során persze vicces hibákat is felfedezhetünk, de éppen ez az oldal egyik célja: a fejlesztők várják a visszajelzéseket a különböző jellegű hibákról.