1000 szó – hetvenöt százalékos nyelvtudás?

A gyakorisági szótárakról

Magyar szótárak XIII. Kiss Gábor rovata

Több évtizedes szünet után az MTA Szótári Munkabizottsága 2000-ben alakult újjá. Egyik feladata az Akadémiai Kiadónál évente megjelenő Lexikográfiai füzetek összeállítása. 2012 decemberében látott napvilágot a 6. „füzet”, amelyben jeles szakemberek idegen nyelveken (angol, francia, német) 15 tanulmányban ismertették a különböző típusú magyar egynyelvű szótárakat. Fábián Zsuzsanna főszerkesztő megfogalmazásában a kiadvány célja, hogy a magyar lexikográfia, szótárírás eredményei világnyelveken is megismerhetőek legyenek.

gyakorisagi-fabian-zsuzsa.JPG

Kardos Orsolya izgalmas írása a magyar gyakorisági szótárakat veszi sorra és ismerteti. A legismertebb egynyelvű szótártípusok – értelmező szótár, szinonimaszótár, szólás- és közmondásszótár – mellett miért fontosak a gyakorisági szótárak? Mondhatjuk, ennek a szótártípusnak nagy hagyománya van, hiszen a Biblia, az Odüsszeusz és a Talmud tanulmányozásához készített szójegyzékek, szómutatók tekinthetők az első eredményeknek. A 19. század második felétől kezdve komoly igény jelentkezik, hogy a tanácskozásokat, parlamenti beszédeket szó szerint rögtön lejegyezzék. Bármely nyelv hagyományos írása erre alkalmatlan, s ezért megszületnek a gyorsírások. A jó gyorsírási szisztéma követelménye, hogy a leggyakoribb szavak legyenek a legrövidebb jellel rögzítve, éppen ezért készültek az első mai értelemben vett szógyakorisági szótárak. Ugyancsak a 19. század második felében kezdték vizsgálni a kínai jelek gyakoriságát, hogy felgyorsítsák a kínai nyomdászok munkáját. Napjaink gyakorisági szótárainak összeállítóit nyelvtanítói célok is vezetik. A nyelvoktatás hatékonyságának növelése érdekében állították össze régebben is a gyakorisági szótárakat, hogy segítsék a 20. század első felében Amerikába kivándorolt tömegek nyelvoktatását. Hiszen észszerű célkitűzés, hogy a nyelvtanulónak nem a ritka, kevésszer felbukkanó, hanem a gyakran használt, fontos szavakat kell először megtanítani. Ezért született meg tudományos segédlettel az 1920-as években a néhány ezer szót tartalmazó Basic English, azaz az angol leggyakoribb szavait tartalmazó nyelvváltozat.

Természetesen megfelelő módon kell értelmezni az olyan valós statisztikai adatokat, hogy az angol és bármely nyelv 1000 leggyakoribb szava lefedi a szövegek, beszédek háromnegyed részét. Mégsem mondhatjuk, hogy bármely nyelv leggyakoribb 1000 szavának az ismerete megegyezne a nyelv háromnegyedének a tudásával.

A legújabb vizsgálatok szerint az angol és minden nyelv leggyakoribb szavai az ún. formaszavak. Általában az első „igazi” szavak minden nyelven a mond, ember, nagy, most, nap jelentésű szavak. Az angol nyelvben a következő a leggyakoribb tíz szó: 1. the, 2. of, 3. and, 4. to, 5. in, 6. I, 7. that, 8. was, 9. his, 10. he. Az angol nyelvben az első „igazi” szó, a said (mondta), a 35. helyen áll.

A nem túl nagyszámú magyar gyakorisági szótárak közül az elsőket a gyorsíró Nemes Zoltán állította össze az 1930-as években. Célkitűzésére rávilágít szótára címe: A magyar parlamenti nyelv leggyakoribb szavai. A szerzőnek a gyorsírókkal való szoros kapcsolatát jelzi, hogy a Gyorsírás Könyvtárában jelent meg 1941-ben a Szóstatisztika egymillió szótagot felölelő újságszövegek alapján című másik könyve. A feldolgozott egymillió szövegszóban összesen 16.571 különböző szó fordul elő.

gyakorisagi-nemes-zoltan.JPG

A gyakorisági szótárak készítésének nagy lökést adott a számítógépek megjelenése, hiszen a korábbi cédulázós módszer helyett a gépekkel már hatalmas szövegmennyiséget lehet gyorsan feldolgozni.

A magyar számítógépes nyelvészet egyik első munkálata volt A magyar nyelv szépprózai gyakorisági szótárának elkészítése, amely hosszas huzavona után 1989-ben jelent meg az Akadémiai Kiadónál. A munka elhúzódásának oka az volt, hogy Kelemen József és Füredi Mihály szerkesztők sem látták előre a munka bonyolultságát. Mert csak felületes szemlélő gondolhatja, hogy a gép egy gombnyomásra összeállítja a betáplált szövegből a gyakorisági szótárt. Különösen a magyar nyelv esetében nehéz a gép dolga, hiszen meg kell tanítani, hogy a lovak szót a címszóhoz sorolja, a nyarat szót a nyár szóhoz. Ugyancsak meg kell tanítani, hogy az asztalomon, asztalunknál stb. ragozott szóalakok az asztal szó előfordulásait gyarapítják. A gép számára pedig szinte megoldhatatlan feladat a vár (amelyik a hegy tetején áll) és a vár (Pista sokat vár Marira) főnév és ige különválasztása. A következő nyelvtanilag kétértelmű szólakok is problémát okoznak a gépnek: kutat, hullám, török. Ezért aztán vidéki városok főiskolásainak százai kódolták a gép után a Kelemen–Füredi-szótár készítésekor a feldolgozandó szöveget, rossz nyelvek szerint nem is mindig a legnagyobb szakértelemmel. Ebben a szótárban a leggyakoribb 3000 magyar szót adják közre.

https://d3cke8tg6hiyfg.cloudfront.net/images/1000x768/resize/furedi-mihaly-szerk-kelemen-jozsef-a-mai-magyar-nyelv-szepprozai-gyakorisagi-szotara_joozqoml.jpg?v=3

Csirik János és Czachesz Erzsébet 1986-ban jelentették meg Újságnyelvi gyakorisági szótárukat, amelybe 14 akkori sajtótermék egy-egy száma szövegét dolgozták be az első betűtől az utolsóig. Az újságok sora a Családi laptól a Kisdoboson és Népsporton át a Szabad Földig terjedt. Vizsgálatuk szerint az újságok összesen 201.000 szavát 25.800 különböző szó alkotta.

gyakorisagi-csirik-janos.JPG

Napjainkban az MTA Nyelvtudományi Intézetében felépített, több mint 100 millió szavas számítógépes szövegkorpusznak, a Magyar Nemzeti Szövegtárnak a gyakorisági szólistája már interneten is elérhető.

Négy magyar gyakorisági szótár első "igazi" szavainak a tanulmányozása rávilágít, hogy nem mindegy, hogy mikor, hol, milyen nyelvi anyagból készül a gyakorisági lista:

  1. A magyar parlamenti nyelv leggyakoribb szavai, 1933

úr, nagy, kérdés, magyar, kormány, mond, miniszter

  1. Szóstatisztika egymillió szótagot felölelő újságszövegek alapján, 1941

magyar, nagy, pengő, év, kormány, mond, óra, új

  1. Újságnyelvi gyakorisági szótár, 1986

év, sok, jó, nagy, mond, idő, új, ember, nap, munka

  1. A magyar nyelv szépprózai gyakorisági szótára, 1989

mond, most, ember, lát, jó, nagy, kéz, néz

Kiss Gábor

Megjelent: Új Könyvpiac 2013. január–február, 17.

A sorozat korábbi bejegyzései:

  1. Szótárak exportra. Az angol nyelv mint kiviteli termék
  2. Szlengblog − szlengszótár. Magyar szótárak. Kiss Gábor rovata
  3. Mit is jelent a homousion és a homoiusion? Az idegen szavak szótárai
  4. A sarampó, a firhang, a makuka és a troszka. Magyar tájszótárak
  5. Nyelvünk virágai, a szólások és közmondások
  6. Petőfi Sándor 22700; Juhász Gyula 11600
  7. Nyelvünk ősi és modern, eredeti, mezei, városi, ázsiai és európai
  8. Népiskolák kontra Akadémia
  9. Nomen est omen
  10. Mit jelentenek az ugrány, a polgár és a címlapsztori szavak?
  11. A bűvös kocka, a kátyúzás és a végtörlesztés
  12. Békés – békétlen, sós – sótlan, de miért nem csinos – csintalan és házas – háztalan?