Etimológiai kategóriák arányai mai elbeszélésekben*

Oldalak: 170 171 172 173 174 175 176 177 178 179 180 181

1. Ha arra keressük a választ, milyenek az eredetbeli rétegek, csoportok arányai a magyar szókincsben, mindenekelőtt a kérdést kell pontosítanunk. Egyáltalán nem mindegy ugyanis, miféle közegben vizsgálódunk. Nyilvánvalóan más-más eredményre jutunk, ha az etimológiai kategóriák mennyiségi viszonyait szótári állományukat tekintve, illetőleg szövegbeli gyakoriságukat felmérve próbáljuk felderíteni. Lényeges különbségeket tapasztalhatunk akkor is, ha összevetjük a szótövek és a szavak származási statisztikáját.Bármelyik útját választjuk a gyakorisági elemzésnek, gondosan meg kell határoznunk az etimológiai minősítés elveit, hiszen hiteles adatokat csak következetes alkalmazásuktól várhatunk. Megalapozott eredményeket akkor érhetünk el, ha megbízható és teljes etimológiai szótárt használhatunk a szavak vagy tövek eredetbeli kategóriákba rendezéséhez.

2. Mielőtt bemutatom annak a használati statisztikai vizsgálatnak az elveit, módszereit és eredményeit, amelyet mai magyar elbeszélések alapján végeztem az EWUng. segítségével, szükségesnek látom a szakirodalmi előzmények áttekintését és rövid értékelését. [170]

a) Az első helyen egy sokat idézett, alapvető tanulmányt említek: Tolnai Vilmos „Halhatatlan magyar nyelv” című írását (MNy. 1924: 50—9). Ennek most természetesen csupán a szókincs eredetbeli rétegeinek arányaival foglalkozó részletére (54—7) térek ki.

Tolnai nagyszabású gyűjtésen alapuló adatokkal és meggyőző érvekkel cáfolta azt a véleményt, mely szerint a magyar szókészlet java idegen eredetű. Háromféle etimológiai statisztika elkészítését tartotta lehetségesnek és szükségesnek: tőstatisztikát, szótári statisztikát, valamint a szavak szövegbeli gyakoriságát mutató használati statisztikát állított össze. Sajnos, az első kettőnek a forrását nem nevezte meg; a harmadikhoz a tanulmányt megelőző száz év szövegeiből kiszemelt, öt műfajt képviselő korpuszt dolgozott fel. Vizsgálata kitűnően szemléltette azt a tételt, hogy a használati statisztikában „a nyelv eredeti [= nem jövevény] elemeire nézve hasonlíthatatlanul kedvezőbb eredményt kapunk” (i. h. 55).

Tolnai Vilmos munkája mind elméleti-módszertani szempontból, mind számszerű eredményeivel megalapozta a későbbi kutatásokat. Vitathatatlan erényei mellett azonban hibáira is többen felhívták a figyelmet, például Bárczi Géza és Benkő Loránd. Kritikai észrevételeikről később, a saját statisztikáimhoz fűzött magyarázatban szólok részletesebben. — Azt viszont már most szeretném indokolni, miért nem értek egyet a statisztikafajták Tolnai-féle hármas felosztásával. Bár Tolnai nem mondja ki világosan, minden jel arra mutat, hogy tőstatisztikája ugyanúgy szótári alapú, mint maga a szótárinak nevezett (szó)statisztika. A tanulmányban tehát valójában ezek a típusok szerepelnek:

1. szótári tőstatisztika; 2. szótári szóstatisztika; 3. használati szóstatisztika. Mivel Tolnai — igen helyesen — szembeállítja egymással a szavak eredetkategóriáinak szótári és használati gyakoriságát, ugyanezt a tövekkel kapcsolatban is megtehetné, hiszen a szavakhoz hasonlóan a szövegbeli használatban a tövek is többször megjelenhetnek. A hármas felosztás helyett tehát jobb lenne kétszer két statisztikatípust szembeállítani: 1. szótári statisztika : használati statisztika; 2. tőstatisztika : szóstatisztika. Így a típusoknak négy kombinációját hozhatjuk létre:

1. szótári tőstatisztika 3. használati tőstatisztika

2. szótári szóstatisztika 4. használati szóstatisztika

b) Tolnai összeállítása alapot és biztatást adott nyelvészeinknek az etimológiai statisztikai kutatásokhoz. Ezek közül a szótári típusú felmérések természetesen etimológiai szótáraink megjelenéséhez kötődtek.

Először a SzófSz. (1941) adott alkalmat arra, hogy tudományosan megalapozott minősítéseket tartalmazó, teljes etimológiai szótár birtokában lehessen megállapítani szókincsünk eredetbeli összetételét. Vermes Stefánia felismerését és munkabírását dicséri, hogy a lehetőséggel élve elkészítette a SzófSz. statisztikáját (NyK. 1943: 435).

A TESz. megjelenésével (1967—1976) a SzófSz.-nál jóval nagyobb méretű, részletesebb, árnyaltabb, a közben eltelt évtizedek szemléleti változásait és gyakorlati eredményeit is tükröző etimológiai szintézis állt a kutatók rendelkezésére. Ez a gazdag és megbízható forrás szinte kínálta magát a statisztikai feldolgozásra, de nyelvészeink vagy megriadtak a feladattól, vagy nem ismerték fel a vállalkozástól várható előnyöket. Értékes ellenpéldaként említhetjük, hogy diákköri dolgozatként egy egyetemi hallgató, Bajusz Gábor elméleti szempontból is igényes, részletes statisztikát készített a TESz. I. kötetének alapján (in: Történeti-etimológiai dolgozatok. Szerk.: Liptai Sára és Martin Valéria. ELTE, Bp., 1977. 11—21 = EtD.), őt azonban korai halála megakadályozta a munka folytatásában. — Debrecenben Papp Ferenc és munkacsoportja a magyar [171] (tő)szókincs gépi feldolgozása során az ÉrtSz., a SzófSz. és a TESz. anyaga alapján etimológiai vonatkozású gyakorisági felméréseket is végzett (vö. pl.: NytudÉrt. 58. sz. 1967. 518—22; NyK. 1968: 200—9, 1969: 129—35, 1973: 3—39; MNy. 1969: 145—54). Ezeknek egy részében azonban az etimológiai kategóriák arányai csupán érintőlegesen kerültek szóba, máskor pedig a vizsgálat inkább próbaként, ideiglenes jelleggel, nem a teljesség igényével készült, ezért Papp szempontjainak és eredményeinek ismertetésére sem itt, sem a továbbiakban nem térek ki. (Ugyanakkor szeretném az érdeklődőket a felsorolt írások tanulmányozására biztatni, mivel a bennük megfogalmazódó gondolatok, ötletek és az alkalmazott módszerek méltók a figyelemre.) Az iménti listához kapcsolódott negyed évszázaddal később Papp Ferenc és Temesi Viola előadása az 1994-es egri nyelvészkongresszuson „A magyar tőszókincs számítógépes feldolgozása (a TESz. alapján)” címmel.

Az EWUng. (1993—1995) nemcsak számos konkrét esetben bírálta felül a szavak TESz.-beli származtatását, hanem sok tekintetben átformálta elődje eredetminősítési rendszerét is, véleményem szerint megkönnyítve a statisztikai vizsgálódást. A lehetőség mellett pedig ott áll egyfajta kényszer is: ha napjainkban valaki a magyar szókészlet eredetbeli kategóriáinak arányai iránt érdeklődik, akkor az EWUng.-hoz „illik” és célszerű fordulnia. — Az EWUng. szócikkeinek eredetminősítési statisztikájára nem kellett sokáig várnunk. A feladatot Keresztes László végezte el, számításainak központi szerepet biztosítva a szótár két kötetéről írt ismertetéseiben (ALH. 1990—91 [valójában 1994!]: 489—92, 1998: 383—8). Ahogy annak idején Bajusz Gábor a TESz.-szel kapcsolatban, most Keresztes is kezdőbetűk szerinti részletes bontásban közölte adatait, majd összegezte őket (az utóbbit l. ALH. 1998: 386). — Az EWUng. megjelenésekor Vermes Stefánia elkészítette az a kezdőbetűs anyag eredetstatisztikáját, és összevetette azt a SzófSz. megfelelő részletével (Annales Universitatis Litterarum et Artium Miskolciensis 1995: 205—8).

Az imént felsorolt szótári statisztikák egy részére saját vizsgálatomat bemutatva még többször visszatérek.

c) Tolnai tanulmánya a használati statisztikai vizsgálatokban sem maradt visszhangtalan. Hivatkoztak rá például azok, akik nyelvünk eredetének bizonyítékaként vagy tulajdonságainak szemléltetésére jellemezni kívánták szókincsünk etimológiai összetételét: Zsirai Miklós (FgrRok. 1937/1994. 48—51) és Bárczi Géza (in: Magyarságtudomány és nemzetnevelés. Debrecen, 1944. 101 = Magyarságtud.). Ez a két kiemelkedő nyelvészünk Tolnai megállapításaihoz kapcsolódva maga is vállalkozott eredetstatisztikai számításra: Zsirai (i. m. 50) a Szózat első két versszakát, míg Bárczi (i. h.) a Himnusz első versszakát elemezte ilyen szempontból.

A magyar szókészlet etimológiai kategóriáinak használati statisztikai vizsgálatában Benkő Loránd tett nagyon fontos lépést. „Adatok a magyar szókincs szerkezetének változásához” című tanulmánya (NyK. 1962: 115—36) kitűnik elméleti igényességével, gondolatainak és módszereinek újdonsága miatt értékes vitaalap, így konkrét eredményei is fokozott figyelmet érdemelnek. A szerző négy rövid szöveg(részlet) diakrón összevetésére vállalkozott; ezek: Halotti Beszéd (XII. sz. vége), Bornemisza: Ördögi kísértetek (részlet, 1578), Szemere Pál levele Petőfi Sándorhoz (1846), valamint a tizedik pedagógusnapra szóló köszöntő (1961). A szövegeket több szempontból is feldolgozta, számunkra most az általános bevezető mellett az etimológiai vonatkozásúak a fontosak (l. főleg NyK. 1962: 115—9, 125—35). A tanulmánybeli etimológiai minősítés elveiről, néhány számítási módszerről és egyes részletek jelentőségéről statisztikai vizsgálatomhoz kapcsolódva lesz megfelelőbb szólnom. [172]

Egy-egy új etimológiai szótár a használati statisztika segédeszközeként is kifejtheti hatását. A TESz. ilyen alkalmazására Hajdú Mihály kezdeményezésére és irányításával, szemináriumi dolgozatok formájában került sor. Ezek közül két füzetben öt-öt meg is jelent az ELTE Magyar Nyelvtörténeti és Nyelvjárástani Tanszékének kiadványaként, ezzel az összefoglaló címmel: „Irodalmi művek szóetimológiai vizsgálata” (szerk. L. Simon László, 1994., ill. Papp Zoltán János, 1997. = Szóet.). Mindkét füzethez a vállalkozás szellemi atyja, Hajdú Mihály írt előszót (1994. 3—6; 1997. 3—4). A dolgozatokban elemzett szövegek kora és műfaja változatos. A szerzők voltaképpen szójegyzékkel ellátott használati tőeredet-statisztikákat állítottak össze. Erről a vitatható megoldásról, valamint néhány részkérdésről, továbbá a füzetek hasznáról és időszerűségük problémájáról a későbbiekben lesz szó. (Terminológiai kitérőként megjegyzem, hogy a szóetimológia megnevezés nem szerencsés, tautologikus, hiszen etimológiáról szinte mindig a szavakkal kapcsolatban beszélünk. Jelzőre, összetételi előtagra nem a tipikus, hanem a különleges esetekben van szükség: Büky Béla tervei közé tartozott például egy toldaléketimológiai tár megvalósítása.)

3. Az EWUng. megjelenése a szótárihoz hasonlóan a használati statisztikában is új lehetőséget és feladatot kínál. Vajon milyen kép rajzolódik ki az eredetkategóriák szövegbeli arányairól, ha az etimológiai minősítésben az EWUng. ítéleteit, illetve elveit követjük? Egyrészt erre a kérdésre kerestem a választ azzal a használati statisztikai vizsgálattal, amelyet a következőkben bemutatok. Másrészt az volt a célom, hogy elméleti megalapozásul és a konkrét elemzés során mérlegre tegyem a szakirodalomból megismert elvek, módszerek és eredmények bizonyos részleteit. Mindezek mellett az is vonzott a feladathoz, hogy lehetőséget láttam néhány új szempont és módszer érvényesítésére, illetőleg alkalmazására. Kutatásra ösztönzött Benkő Lorándnak „Az etimológiai minősítés a szótárszerkesztésben” című egri kongresszusi előadása is (MNy. 1994: 385—92): közelebbről meg akartam ismerkedni az etimológiai minősítésnek egy másfajta közegben, a használati statisztikában játszott szerepével.

4. Már a gyűjtőmunka megkezdése előtt biztos lehettem abban, hogy sokféle tényezőre kell figyelnem. Éppen ezért úgy döntöttem, hogy kísérletemben lemondok a műfaji és a diakrón összevetés lehetőségéről, és az elemzést mai magyar elbeszélésekre korlátozom. A korszakok közötti választásban a mai nyelvhasználat felmérése a legkézenfekvőbb megoldás. Egy próbavizsgálathoz az írott nyelvi és prózai szövegek látszanak alkalmasnak, ezek közül szépirodalmiakat szemeltem ki. Arra törekedtem, hogy a szövegmintában több szerző nagyjából azonos arányban kapjon helyet. A választott elbeszélések mindegyike ugyanabból a kötetből való: Körkép 94. Huszonhárom mai magyar író kisprózája. Szerk. Hegedős Mária. Magvető, Bp., 1994. A gyűjteményből — főleg a számomra ismertebb szerzőket részesítve előnyben — 10 mű egy-egy részletét jelöltem ki. Az írók és a címek listája, zárójelben a feldolgozott részlet kötetbeli lapszámával: Bertha Bulcsu: A bálnák hangja (16); Darvasi László: A fuldai Kékvízesés (56); Grendel Lajos: Az ügynök és a borkereskedő (115); Lázár Ervin: A keserűfű (120); Mándy Iván: A puhakalapos (174); Spiró György: Szinopszis (213); Szakonyi Károly: Álomirodalom (222); Tar Sándor: Lassú teher (244); Vathy Zsuzsa: Az Adamovits-ház (263); Zalán Magda: Nápoly hamis aranya (294).

A következő lépés a korpusznagyság meghatározása volt. Mivel úgy döntöttem, hogy a gyűjtést és az adatok minősítését, csoportosítását hagyományosan (cédulázással) végzem, a szövegmintát csak akkorára tágíthattam, hogy az adatok mennyisége ezzel a módszerrel kezelhető legyen; a minta szűkítésében pedig arra kellett ügyelnem, hogy az [173] adatok csekély száma ne tegye hiteltelenné a statisztikát. E szempontok mellett figyelembe véve azokat a tanulságokat is, amelyek Benkő Loránd felméréséből (NyK. 1962: 125—31) és a Hajdú Mihály-tanítványok dolgozataiból (Szóet. 1994. és 1997.) adódtak, a korpuszt néhány száz szótári szó terjedelműre terveztem.

Ennek szellemében a 10 műből egy-egy 100 szótári szót tartalmazó szövegegységet jelöltem ki. Arra törekedtem, hogy a részleteknek az elbeszélésekben elfoglalt helye változatos legyen, ezért így választottam ki őket: a névsorban első szerző művének részlete az elbeszélés első oldaláról való, a második szerzőtől vett szakasz az ő írásának második oldaláról, és így haladtam tovább egészen a tizedik elbeszélésig, ott a tizedik oldalt választva. A szószámlálást mindig a megfelelő oldal első teljes szavával kezdtem, és addig folytattam, míg el nem jutottam a századik szótári szóhoz. Hangsúlyozom, hogy nem szóelőfordulásokat vagy szóalakokat számoltam, hanem szótári szavakat, azaz egy-egy szövegrész 100 különböző szótári szót tartalmazott. Magától értetődik, hogy a kijelölt szövegegységeken belül némelyik szó ismétlődött, akár többször is, így a szóelőfordulások száma mindenütt jóval túllépte a százat: egy-egy szövegrészre átlagosan 142 szóelőfordulás jutott. A 100 szótári szó gyűjtését minden választott szövegrészben újból kezdtem, vagyis egyelőre figyelmen kívül hagytam, hogy egy-egy szótári szó a már végignézett szövegrészekben szerepelt-e. Mivel a különféle szövegegységek szókészletében sok volt a közös elem, a teljes korpusz szótári szavainak száma 10 ´ 100 alatt, azaz 1000 alatt maradt: a korpusz 739 szótári szót és 1421 szóelőfordulást tartalmaz.

Adós vagyok egy-két fontos információval a szószámlálás módjáról. Most pótolom a mulasztást.

Akárcsak annak idején Benkő Loránd (NyK. 1962: 117), én is kirekesztettem a vizsgálatból a tulajdonneveket. Igaz, csak a kétségtelenül és jellegzetesen tulajdonnévi természetű elemeket hagytam ki, az alkalmi tulajdonneveket vagy a tulajdonnevet alkotó közszavakat beemeltem adataim közé. A megkülönböztetés szemléltetésére egy példa Mándy Iván elbeszéléséből: „Soha ilyen Puhakalapost nem láttam, mint a Bandi a Belső ruhatárban.” (Körkép 94. 174.) A Bandi személynév kimaradt a korpuszból, a szerep neve (Puhakalapos) és a színdarab címe (Belső ruhatár) viszont nem. — A kifejezetten tulajdonnévi elemekkel a közszavakétól eltérő etimológiai problematikájuk miatt nem foglalkoztam, így persze a szószámláláskor sem vettem őket figyelembe. Mivel tudtam, hogy a szóstatisztika mellett tőstatisztikát is készítek, nem vettem fel a szövegmintába a tulajdonnévből képzett származékokat (amerikai, budapesti, londoni) sem, kivételt egyedül a kocsi-val tettem keletkezésmódja (l. később) és a tulajdonnévtől való eltávolodása miatt. — Csupán érdekességként, adalékul említem, hogy (a kételemű személyneveket egy egységnek tekintve) a tulajdonneveknek 38, származékaiknak pedig 5 előfordulását találtam a kijelölt szövegrészek határain belül. Megjegyzésként ide kívánkozik még, hogy Hajdú Mihály egyetemi hallgatói (l. Szóet. 1994. és 1997.) a tulajdonnevek beszámításában nem voltak egységesek; többen felvették őket a statisztikába, de pusztán „tulajdonnév” minősítéssel, eredetük megjelölése nélkül.

A szószámláláskor a csak jel-, illetve ragmorfémában eltérő szóalakokat (a rag- vagy jelszilárdulás esetét kivéve) természetesen egyetlen szótári szó adataiként értékeltem. Az alapszóhoz (és egymáshoz) képest külön szótári egységnek tekintettem viszont a képzéssel keletkezett szavakat, beleértve az igeneveket is: például a hall igéhez képest külön szó a hallgat, a hallgatózik, sőt a hallani is. Külön egyedként kezeltem a ható igéket is, például a kap-pal szembeállítva a kaphat-ot. Szintén külön egységnek minősítettem a morfémaszilárdulással létrejött alakulatokat: például a jól és a nyomban határozószókat a jó melléknévhez és a nyom főnévhez képest. Az összetett szavakat a maguk egészében tekintettem számlálandónak, azaz (ebben a fázisban) nem bontottam őket [174] elemeikre: például a barátnő vagy a nőismerős nem számított a nő főnév képviselőjének. Minden igekötőt, tehát a különírtakat is, az igének vagy az igeszármazéknak a részeként kezeltem, így az igekötők nem tartoznak az önálló szóadatok közé; ugyanakkor az igekötős alakulatokat az igekötő nélküli igéhez (és egymáshoz) képest külön szóként értékeltem: például a jön-höz viszonyítva az átjön, eljön és belejönni szavakat. — Ez a szószámlálási mód azonos a Benkő (egyik) statisztikájában alkalmazottal (NyK. 1962: 116—7). Másként dolgoztak Hajdú Mihály tanítványai: az abszolút töveket és azok eredetét keresve az összetett szavakat (többnyire) elemeikre bontották, s mindenfajta toldalékot lemetszettek a tőről (l. Hajdú: Szóet. 1994. 5). Ha egy használati statisztikában ez a megoldás kizárólagos (márpedig náluk az), akkor nem értek vele egyet, mivel nem ad képet a szövegben ténylegesen megjelenő szavak eredetkategóriáinak arányairól, hiszen a belső keletkezésű elemek nagy részét összemossa más etimológiai osztályok képviselőivel. A címben ígért „szóetimológiai” vizsgálat így a tövek minősítésére korlátozódik.Az ismétlődéseket figyelembe véve a szóelőfordulások számát is megállapítottam, majd a 10 szövegrészlet szavait közös betűrendbe soroltam. Ezzel feltártam a szövegrészletek közös szóanyagát is: 121 szótári szó jelent meg egynél több műben, ez a korpusz 739 szavának 16%-a. (A 10 részlet mindegyikében csupán a két határozott névelő tűnt fel.) A részletek közös szavait a különböző művekből magukkal hozott előfordulási számokat is összegezve egyesítettem. — A teljes korpuszban (1421 szóelőfordulás) a szavak gyakorisági listáját az a névelő vezeti 120 adattal, mögötte a sorrend: 2. az névelő (34), 3. és (33), 4. van (31), 5. nem tagadószó (27), 6. is (23), 7. hogy kötőszó (21). Hogy e szavak előkelő helyezése egyáltalán nem a véletlen játéka, azt — mindennapi tapasztalataink mellett — „A mai magyar nyelv szépprózai gyakorisági szótára (1965—1977)” című kötet (Szerk.: Füredi Mihály és Kelemen József. Akadémiai K., Bp., 1989. = SzGySz.) is alátámasztja, ugyanis így kezdődik benne a szuperlexémák gyakorisági listája: 1. a (ide számít az az névelő is), 2. és, 3. nem, 4. van, 5. hogy, 6. az névmás, 7. ez, 8. is. (A szuperlexéma szakszó magyarázatát l. SzGySz. XXI, a lista említett szakaszát pedig uo. 3—4.) Érdemes itt megjegyezni — s ezt Hajdú Mihály is felvetette (Szóet. 1994. 4) —, hogy a SzGySz. anyagának etimológiai vonatkozású elemzése tanulságos lehetne. Az effajta vizsgálódás persze óvatosságot igényelne, mivel a SzGySz. szerkesztési elvei és az eredetminősítési szempontok olykor összeütközésbe kerülhetnek: például a gyakorisági szótár a van szuperlexémához sorolja (bár megkülönböztethetően) a lesz-től „kölcsönzött” szuppletív alakokat (SzGySz. 3), míg egy etimológiai vizsgálatban — így az enyémben is — ezeknek a lesz-nél, illetve annak származékainál a helyük.

5. A korpusz szókészlete az EWUng.-éhoz való viszony szempontjából három csoportra osztható.

a) Az elsőbe azok a szavak tartoznak, amelyek valamilyen funkcióban (címszóként, alcímszóként, kiemelt származékként stb.) az EWUng.-ban is megvannak. Ezek etimológiai minősítésekor lényegében átvettem a szótár állásfoglalását. Azért csak „lényegében”, mert a származtatás valószínűségi árnyalatainak pontos tükrözése szinte áttekinthetetlenné tette volna a statisztikát.

A valószínű magyarázatok kezelésmódjáról az első érdemi megjegyzést Benkő Loránd tanulmányában (NyK. 1962: 127) találtam: ő a statisztikáiban a biztos etimológiák megfelelő csoportjaiba sorolta be őket. Ugyanezt tette az EWUng. elemzésekor Keresztes László (ALH. 1990—91 [= 1994]: 490). Más megoldást választott Bajusz Gábor: nem a „meghatározható eredetű” (azaz biztos etimológiájú) szavakhoz, hanem a bizonytalan eredetűekhez sorolta be a valószínű magyarázatú elemeket, s a bizonytalanok között különítette el a „valószínűleg” és a „talán” fokozatot (EtD. 1977. 12, 17). [175] A Hajdú-tanítványok többsége nem fedte fel világosan a valószínű etimológiák besorolási helyét; akik mégis, azok egymással ellentétesen döntöttek: Dőmel Orsolya (Szóet. 1997. 16) a bizonytalanok csoportjába, Papp Zoltán János (uo. 28) viszont a megfelelő biztosakéba illesztette be őket. — Mindkét megoldás logikus, mindkettő a gyakorlatban is járható és járt út. Ezt az imént hozott példákon kívül az is mutatja, hogy a közelmúltban az EWUng. két szócikkírójának a választása sem esett egybe: Gerstner Károly a német vonatkozású elemekről írt értekezésében a „bizonytalan eredeztetés” kifejezéssel összefoglalható esetek közé számította a valószínű magyarázatokat is (NytudÉrt. 145. sz. 1998. 8), míg jómagam az EWUng.-beli szláv jövevényszavakkal foglalkozó statisztikámban a biztossal egyenértékűnek tekintettem a valószínű eredetet (Horváth László in: Kiss Lajos-Eml. 1997. 163—5). Az EWUng. „valószínű”-ként megadott magyarázatait mostani vizsgálatomban is a megfelelő biztosakhoz soroltam, mivel változatlanul úgy vélem, hogy a TESz. és az EWUng. szócikkeinek minősítési és kidolgozási rendszerére inkább a „(biztos + valószínű) : bizonytalan” oppozíció a jellemző, mint az „egészen biztos : nem egészen biztos” (l. i. h. 164).

A bizonytalan származtatásoknak a szakirodalomban, valamint a statisztikáimban elfoglalt helyéről a 6. pontban, az ismeretlen és a vitatott eredetű elemek problematikájával összefüggésben lesz szó.

b) A korpusz készletének második csoportját az EWUng.-ból hiányzó, de morfológiai felépítésük alapján etimológiailag minősíthető elemek, jellemzően származékok (bizonytalanság, csobbanás stb.) és összetett szavak (famóló, gazcsomó stb.) alkotják.

Ide kapcsolódik az igekötős alakulatok minősítésének kérdése. Statisztikámban az egyszerű igekötős igék (elfut, meglát, visszanéz stb.) természetesen az összetett szavak számát gyarapították. Nehezebb volt az „igekötő + ige(tő) + képző” típus megítélése. Olykor ugyanis mind a belejön + -ni, beszakad + -hat stb., mind a bele + jönni, be + szakadhat stb. tagolás lehetséges volna. Mivel az ilyen felépítésű szavak között bőven vannak olyanok is, amelyekkel kapcsolatban a második tagolásmód valószínűtlen vagy kizárható (elszelelhet, kiegészítés stb.), mindig az első felbontás mellett döntöttem, vagyis a belejönni, a beszakadhat és társaik a származékok közé kerültek.

c) A korpuszbeli harmadik, legkisebb csoportba azok a szavak tartoznak, amelyeknek az eredetét sem az EWUng., sem morfológiai felépítésük nem árulja el. Ilyenből a szövegmintában mindössze hat van. — Az avanzsál az EWUng.-ból a címszavak megrostálása miatt maradt ki; a TESz.-ben még szerepelt az avanzsíroz képzőcserés módosulataként. — Az egzakt és az ortográfia mindkét etimológiai szótárból hiányzik. Az ÉKsz. szerint ezek a latin által elterjesztett nemzetközi szavak. Ennek alapján az egzakt-ot be is soroltam a nemzetközi elemek közé; az ortográfia azonban az ÉKsz. új változatának kéziratában latin jövevényszó (Gerstner Károly közlése), ezért én is annak minősítettem. — Az ny betűnév szerintem tudatos szóalkotás eredménye. — A ’varrólány’ jelentésű piccinina Zalán Magda olasz környezetben játszódó művében bukkan fel; a szerző magyar mondatban, a helyiek nyelvéből átemelve használja atmoszférateremtésre. — Végül, de egyáltalán nem utolsósorban az s különleges esetét említem meg. Ez a kötőszó kivétel a kivételek között. Megtalálható az EWUng. és szócikkében, de eredetminősítés nélkül, ambivalens szerepben: egyszerre alakváltozat és összetételi utótag... Ennek az ellentmondásnak a feloldására az UEW.-hez fordultam, annak nyomán (i. m. 79) alkalmaztam a „bizonytalan eredetű, talán ősi örökség a finnugor korból” minősítést.

6. Természetesen már gyűjtőmunkám megkezdése előtt lényegében meg kellett terveznem a vizsgálatom eredményeit szemléltető statisztikai táblázatok felépítését, de a kategóriák rendszerét csak a korpusz szóanyagának és a konkrét etimológiai minősítéseknek [176] ismeretében önthettem végleges formába. A szóanyagnak az eredetminősítések szerinti elrendezése és az eredmények táblázattá alakítása ugyanis egyáltalán nem tartozik a mechanikusan megoldható feladatok közé: dönteni kell bizonyos kategóriák összevonásáról; mérlegelni kell, hogy a főkategóriákon belüli felosztás mennyire legyen részletező, és hogy egyes határesetek melyik főkategóriához tartozzanak; magától értetődően annak átgondolására és kipróbálására is szükség van, hányféle szempont kaphat helyet egy táblázatban, hogy az egyszerre lehessen informatív és áttekinthető.

a) A szavakat eredetminősítésük szerint négy főkategóriába osztottam: 1. az ősi örökséghez tartozók; 2. belső keletkezésűek; 3. jövevények; 4. tisztázatlan eredetűek.

Az első két csoport a szakirodalomban hosszú ideig egybeolvadt, sőt ma sem mindig válik el világosan. — Tolnai statisztikái (MNy. 1924: 55—6) a felbontás nélküli „magyar” kategóriához vonva közölték annak a készletnek az adatait, „melyet nyelvünk részben magával hozott az ős finn-ugor nyelvkincsből, részben önálló magyar élete folyamán önmagából kifejlesztett” (i. h. 55). Ugyanezt tette Zsirai, az „eredeti” címkét használva a főkategória megnevezésére (FgrRok. 1937/1994. 50). Bárczi (Magyarságtud. 1944. 101) sem különítette el a finnugor és ugor szavaktól a belső keletkezésűeket. — Vermes Stefánia csak részben követte a hagyományt. A SzófSz. statisztikájához fűzött megjegyzései között ezt olvashatjuk: „A hagyományos gyakorlatnak megfelelően »finnugor« gyüjtőnév alá foglaltam a magyar szókészletnek uráli, finnugor és ugor korból örökölt elemeit. [Bekezdés.] Az »önálló« nyelvi alakulatok csoportjába soroltam a dajka- és gyermeknyelvi képződményeket, az állathivogató, hangfestő, hangutánzó és nyelvújítási szavakat, továbbá azokat a származékokat, amelyek a SzSz.-ban [= SzófSz.] az alapszóra való utalással külön címszóként szerepelnek.” (NyK. 1943: 435.) A táblázat (uo.) az „eredeti” főkategóriában összegzi a „finnugor” és az „önálló” elemeket, de külön-külön is megadja a két kategória képviselőinek számát és százalékarányát. Ez igen fontos reform.

Az ősi örökséget és a belső keletkezésű szókészletet két, egymástól hangsúlyozottan megkülönböztetendő főkategóriaként az etimológiai statisztikai szakirodalomban először Benkő Loránd tanulmányában találjuk meg (NyK. 1962: 126—8). Benkő határozottan bírálta a Tolnai-féle hagyományt: „A magyar szókincs eredetére vonatkozó eddigi statisztikai számítások [...] legfőbb hibája az volt, hogy a magyar nyelv külön életében keletkezett szavakat nem választották külön az ősi elemektől, hanem »eredeti«, »magyar« megjelöléssel általában egybeolvasztották e két csoportot, tetézve ezt még azzal is, hogy a jövevényelemek magyarban való továbbalakításaival nagyon ingadozóan, hol így, hol úgy bántak el. Mindenki tudja, hogy az ősi eredetű és a belső keletkezésű szóelemek elhatárolása [...] nem könnyű dolog [...]. E nehézség azonban nem lehet ok arra, hogy ezt a két alapvetően különböző csoportot egybekeverjük.” (I. h. 126—7.) — Bajusz (EtD. 1977. 13—7) és Keresztes (ALH. 1998: 386) szótári statisztikái már magától értetődőnek tekintették a kétféle eredetkategória szembeállítását. A differenciálás igénye Hajdú Mihály egyetemi hallgatóinak dolgozataiban is megfigyelhető (Szóet. 1994. és 1997.), ők azonban elsősorban a tövek eredetét tartották szem előtt, ezért használati statisztikáikban (mint a 4. pontban már említettem) a két kategória közötti különbség gyakran elmosódik, illetve néha csupán az onomatopoetikus elemekkel kapcsolatban fedezhető fel.

Az ősi örökség szóállományának az alapnyelvi rétegek szerinti felosztására a TESz. megjelenése előtti statisztikákban nem került sor. Benkő sem vállalkozott rá, ezzel az indoklással: „Az ősi szókincs uráli, finnugor és ugor csoportra való továbbtagolása a besorolás biztosságát illetően is nagy nehézségekkel járt volna, amellett a megvizsgált szóállomány mennyisége alapján sem igen vezethetett volna reális eredményre.” (NyK. 1962: 126.) — A TESz. birtokában, pontosabban annak I. kötetét elemezve [177] Bajusz Gábor az egyes alapnyelvi rétegek adatait külön is feltüntette (EtD. 1977. 13—4, 16), szintén fontos szempont volt ez majdnem minden Hajdú-tanítvány dolgozatában (Szóet. 1994. és 1997.). Bevallom, nem értem, hogy a finnugrista Keresztes László az EWUng.-ot bemutatva miért mondott le a rétegek szerinti felbontásról (vö. ALH. 1998: 386).

Már vizsgálatom megkezdésekor az volt a véleményem — és ebben az eredmények megerősítettek —, hogy a statisztikai táblázat(ok)ban (l. a 7. pontban) szükséges és érdemes külön is szerepeltetnem az uráli, a finnugor és az ugor elemek adatait. Azokban az esetekben, amelyekben az EWUng. szerint az alapnyelvi réteg nem határozható meg egyértelműen, a tisztázatlan etimológiákkal kapcsolatos megoldást választottam (l. alább).

Az ősi örökség és a belső keletkezésű elemek határsávjához tartoznak az „ősi fiktív tő + magyar képző” felépítésű szavak. Ezek besorolására igyekeztem viszonylag egyszerű és az EWUng. szellemének megfelelő megoldást találni. Úgy döntöttem, hogy az „Ősi örökség: az uráli/finnugor/ugor korból való tőhöz magyar képző kapcsolódik” bevezető mondattal jellemzett kategóriát az ősi örökséghez tartozóként kezelem, az alapnyelvi rétegek szerinti differenciálás nélkül (pl.: hosszú, lélek, sötét). Azokat a szavakat viszont, amelyeket az EWUng. a „Származékszó uráli/finnugor/ugor eredetű tőből” formulával minősít (fürdik, keres, terít), belső keletkezésűnek tekintettem, és a fiktív tövek származékai közé soroltam.Azokban a statisztikákban, amelyekben a belső keletkezésű elemek teljesen összemosódnak más kategóriák reprezentánsaival, még keresnünk sem nagyon érdemes a belső szóalkotás és szóteremtés alkategóriáit. Ott sem mindig találjuk meg őket, ahol a belső keletkezésű szavak csoportja többé-kevésbé önálló kategóriaként jelenik meg. — Vermes (NyK. 1943: 435) és Keresztes (ALH. 1998: 386) talán az összkép elaprózódásától tartva mellőzte a belső keletkezésűek kategóriájának bontását. — Benkő ki is fejtette, hogy egész tanulmányában csak a nagyobb, átfogóbb szókategóriák megállapítására és statisztikázására törekedett (NyK. 1962: 117, 126). Igaz, elemzésében megvan a belső keletkezésűek alaktani csoportosítása (uo. 131—5), de nem az eredetstatisztikai táblázatok (uo. 128) részeként. — A Hajdú irányította vizsgálatok (Szóet. 1994. és 1997.) a tövek eredetére összpontosítottak, így a szerzők táblázataiban a „belső keletkezésű” minősítés általában az onomatopoetikus eredetet fedi. Nem csodálkozhatunk tehát azon, hogy ezekből az összegzésekből a belső keletkezésű szavak jellegzetes alcsoportjai nagyrészt hiányoznak. — Voltaképpen egyedül Bajusz Gábor kimutatásában találhatjuk meg a belső keletkezésűek szűkebb kategóriáinak adatait (EtD. 1977. 15, 17, 20).

Vizsgálatom előkészítésekor elhatároztam, hogy statisztikámban a belső keletkezésű elemek főkategóriáján belül külön is közlöm az egyes eredetminősítések részesedését. Ezt diktálta a rendszerkényszer is: ha az ősi örökség, valamint a jövevények főkategóriáján belül vállalkozom a differenciálásra, ezt a belső keletkezésűek körében sem célszerű mellőznöm. Arról nem is beszélve, hogy rajtam kívül még sokakat érdekelhetnek a származékoknak, az összetett szavaknak, az onomatopoetikus elemeknek és más típusoknak az arányai, sőt bízvást állíthatjuk, hogy az ilyen adatok nélkül a korpusz szókészletéről alkotható kép nagyon is hiányos lenne. A belső keletkezésűeken belüli felbontást az is erősen támogatja, hogy egyrészt ez a legnépesebb főkategória, másrészt sokszínű is, s ennek érzékeltetéséről kár volna lemondani.

Az ősi örökségből való és a belső keletkezésű elemek elhatárolási problémáiról korábban szóltam, az utóbbiak altípusaihoz pedig számadataik bemutatásakor, a 7. pontban fűzök még néhány megjegyzést. Most térek ki viszont a tükörszók kérdésére, mivel ezekkel kapcsolatban főkategóriák közül kell választani. — Az etimológiai statisztikai elemzések többsége hallgatott a tükörszókról. Feltételezhető, hogy a szerzők általában belső keletkezésű (illetőleg „eredeti”, „magyar”) elemeknek tekintették őket, másként valószínűleg külön említették volna kezelésmódjukat. Azok pedig — elsősorban a [178] Hajdú-tanítványok (vö. Szóet. 1994. 5) —, akik az összetett szavakat alkotórészeikre bontották, nemigen szembesültek a tükörszók okozta gondokkal. — Bajusz a belső keletkezésűek között, de az összetett szavaktól elkülönítve vette fel a tükörszók adatait (EtD. 1977. 15, 17). Nem így Keresztes: ő a német mintát követő tükörszókat német eredetűként, azaz tulajdonképpen jövevényszóként kezelte (ALH. 1990—91 [1994]: 490). — Statisztikámban a tükörfordításokat a belső keletkezésű elemekhez, pontosabban az összetett szavakhoz soroltam (pl.: aknavető, álláspont), mivel magyar elemekből épülnek fel. A tükörszók elválasztását más összetett szavaktól az átmeneti típusok miatt még az EWUng. segítségével sem mertem vállalni.

A szótár- vagy szövegbeli jövevényszavak átadóiról a statisztikák többsége más kategóriáknál részletesebb információval szolgált. Érvényes ez már Tolnaira is: főleg használati statisztikája bővelkedik a jövevényszavainkat átadó nyelvekben (MNy. 1924: 56). Listájukat azonban már Bárczi is bírálattal fogadta: „Tolnai kétségtelenül a szavak végső kinyomozható eredetét kutatta, nem pedig — mint kellett volna — azt, hogy milyen nyelvből kerültek a jövevények hozzánk” (Magyarságtud. 1944. 101). Bárczihoz hasonlóan Zsirai (FgrRok. 1937/1994. 50) és a későbbi elemzők a szót közvetlenül átadó nyelvre figyeltek. — A statisztikákban a nyelvek csoportosítását, illetve külön-külön szerepeltetését tekintve a kép meglehetősen változatos. A gyakran használt gyűjtőkategóriák: iráni, török, újlatin, szláv. Az egyes iráni és szláv nyelvek alkategóriaként vagy önállóan általában nem fordulnak elő, a török nyelveket néhány elemző kronológiai rétegekre osztja, az egyes újlatin nyelvek több statisztikában is megjelennek mint alkategóriák vagy egymástól független tételek. — A statisztikák közül a jövevényszavakra nézve is Bajusz Gáboré a legrészletesebb (EtD. 1977. 14, 16). Ő a jövevényszavak átadóit betűrendben listázta, lehetőség szerint magukat a konkrét nyelveket feltüntetve. Ez a megoldás az olvasó dolgát bizonyos szempontból megkönnyíti, de hátránya az összetartozó csoportok szétszórása és az adatok elaprózása. (Ezen valamennyire segít a dolgozatbeli összefoglalás: i. h. 20.) — Ezzel ellentétben Benkő Loránd diakrón összevető vizsgálata a főkategóriák arányait szem előtt tartva nem tüntette fel az egyes nyelvek részesedését (NyK. 1962: 126, 128), azt csupán amolyan ráadásként egy „pánkrón” statisztikában mutatta be (uo. 131).

A vándorszók és a nemzetközi szavak a TESz. megjelenése utáni vizsgálatokban bukkantak fel. Bajusz a jövevények főkategóriáján belül a „tulajdonképpeni jövevényszó, vándorszó, nemzetközi szó” hármas felosztást alkalmazta (EtD. 1977. 13—4), Keresztes a „nemzetközi” minősítésbe a vándorszókat is beleértette (ALH. 1990—91 [1994]: 490, 1998: 386), míg a Hajdú-tanítványok dolgozatai (Szóet. 1994. és 1997.) ebből a szempontból a szövegminták különböző kora miatt sem lehettek egységesek.

Statisztikai táblázataim (l. a 7. pontban) megszerkesztésekor arra törekedtem, hogy a jövevények főkategóriáján belül lehetőleg úgy érzékeltessem a nyelvek szerepe, részesedése közötti különbségeket, hogy az adatsor áttekinthető maradjon. A vándorszók és a nemzetközi elemek adatait a jövevények körében, de külön-külön tételként szerepeltetem. A kategorizálás további részleteire a táblázatok bemutatásakor térek majd ki.

A negyedik főkategória a tisztázatlan eredetű szavaké, vagyis azoké, amelyek származásának nincs biztosnak vagy valószínűnek tekintett megfejtése. Ide tartoznak a bizonytalan, a vitatott és az ismeretlen eredetű szavak.

A bizonytalan származtatások az etimológiai statisztikai szakirodalomban nagyobb figyelmet kaptak a valószínűeknél. Ennek (többek között) éppen az lehet az oka, hogy egyes szerzők nemcsak a „talán”, „esetleg” megszorítással említett etimológiai ötleteket, hanem a valószínűbb, de nem teljesen biztos magyarázatokat is a bizonytalan etimológiák körében tartották és tartják számon (l. az 5. pont a) szakaszában). [179]

Tolnai statisztikáiból (MNy. 1924: 55—6) még hiányoztak a bizonytalan eredetű szavak, az ismeretlen eredetűeket viszont szerepeltette. Az azonban nem világos, milyen források és szempontok alapján döntött így. Bárczi meg is fogalmazta kételyeit: „rendkívül meglepő az ismeretlen eredetű elemek igen csekély száma [...]. Nem tudni, milyen kritikával illette Tolnai a közkézen forgó szószármaztatásokat, ezek ugyanis gyakran kihívják az ellentmondást.” (Magyarságtud. 1944. 101.) — Zsirai a maga felmérésében (FgrRok. 1937/1994. 50) már említett bizonytalan eredetű szavakat, Bárczi (i. h. 1944. 101) pedig közös tételként adta meg az ismeretlennek vagy bizonytalannak minősítettek számát. Vermes szótári (NyK. 1943: 435) és Benkő használati statisztikájában (NyK. 1962: 126—8) a bizonytalan és az ismeretlen eredetű elemek ugyancsak közös, osztatlan kategóriát alkottak; Benkő a vitatott eredetű szavakat is megemlítette, szintén ebbe a kategóriába sorolva őket (i. h. 127). Mai szemmel nézve ez a fajta összevonás nem tűnik egészen szerencsésnek, de lehetséges, hogy a TESz. előtti korszakban ez volt az óvatosabb és helyesebb megoldás, mint a különválasztás.

Hogy Bajusz (EtD. 1977. 12, 17) a TESz.-nek miféle eredeztetéseit sorolta a bizonytalanok közé, azt a valószínű magyarázatokkal kapcsolatban az 5. pontban már bemutattam. Ő a vitatott és az ismeretlen eredetet is főkategóriaként, egymástól, valamint a bizonytalan és a biztos etimológiáktól elválasztva kezelte (i. h. 13, 16, 18). — Keresztes az EWUng.-ot ismertetve statisztikájába nem vette fel külön tételként a bizonytalan és a vitatott eredetű szavakat, hanem leginkább számításba vehető származtatásuk alapján a megfelelő biztosak csoportjaiba osztotta be őket (ALH. 1990—91 [1994]: 490); az ismeretlenek kategóriáját természetesen önállóként megtartotta (ALH. 1998: 386). — Hajdú Mihály egyetemi hallgatóinak dolgozatai (Szóet. 1994. és 1997.) a bizonytalan, a vitatott és az ismeretlen eredetű szavak adatait egyáltalán nem egységesen, legalább hat- vagy hétféle elrendezésben közölték: például az osztatlan „ismeretlen” kategóriát felállítva (ez félrevezető!), illetőleg a három típust teljesen elkülönítve egymástól; voltak olyanok is, akik a „vitatott-bizonytalan : ismeretlen” szembeállítást alkalmazták. Két szerző megoldása külön figyelmet érdemel: Csillik Olga egy kissé hosszú nevű („vitatott, ismeretlen, bizonytalan”) főkategórián belül feltüntette az egyes típusok részesedését is (Szóet. 1994. 27); Dőmel Orsolya a bizonytalan, a vitatott és az ismeretlen eredetűeket külön-külön kategóriaként kezelte, de a bizonytalanok adatait (zárójelben) a megfelelő biztosakhoz kapcsolva is szerepeltette (Szóet. 1997. 16).

A látott és a még lehetséges variációk sokasága miatt alaposan át kellett gondolnom, milyen utat válasszak magamnak. Úgy döntöttem, hogy a bizonytalan, a vitatott és az ismeretlen eredetű szavakat — részesedésüket külön-külön is szerepeltetve — a „tisztázatlan” elnevezésű főkategória alá rendelem, a részadatokat természetesen a főkategória sorában összegezve.

A bizonytalan vagy vitatott és a biztosabb származtatások szembeállítása nyilvánvalóan hasznos, de véleményem szerint az is lényeges, hogy a bizonytalan és vitatott magyarázatokban szereplő etimológiák a gyakorisági vizsgálatban se maradjanak teljesen rejtve. Ezért határoztam el, hogy készítek egy másik statisztikai táblázatot is, amelybe az EWUng. bizonytalan eredeztetéseiben számításba vett etimológiai minősítéseket is bevonom, mégpedig úgy, hogy a bizonytalan etimológiájú szavakat besorolom a nekik megfelelő biztos eredetűek közé. A vitatott eredetű szavak származtatásai közül pedig ehhez a statisztikához mindig az EWUng.-ban 1. helyen álló minősítést vettem (biztosként) figyelembe. — A 2. statisztikában a — Gerstner Károly kifejezésével élve (Abaffy-Eml. 1998. 55) — „második szintű”, azaz a biztos etimológián belüli bizonytalanságot vagy vitatottságot is igyekeztem kiküszöbölni. Ennek részleteiről a táblázatok adatainak összevetésekor, a 7. pontban szólok. [180]

b) Tolnai használati statisztikája (MNy. 1924: 55—6) az eredetkategóriák arányait a szóelőfordulások alapján határozta meg. Benkő más utat választott: „Szótani vizsgálatom egyik vezérelve volt, hogy ha a feldolgozott szövegben egyazon szó többször is előfordult, csak egyszer számítottam be statisztikámba. [...] Ily módon reálisabb képet nyerhettem magának a szóállománynak, illetőleg egyedeinek arányairól, mivel elkerülhetővé vált, hogy a tárgyi, stilisztikai stb. okokból való szóismétlések vagy egyes minduntalan előforduló segédszók (névelők, kötőszók stb.) alkalmi jellegűvé tegyék a szóelemek belső arányait, bizonyos szempontból eltorzítsák a lexikológiai képet. Ezzel az eljárásmóddal természetesen korántsem akartam tagadni azt, hogy más — főként stilisztikai — szempontú vizsgálatokban a szóismétlődések figyelembevétele is jogosult vagy éppen kívánatos lehet.” (NyK. 1962: 117.) Ebben az érvelésben kétségtelenül van igazság, véleményem szerint azonban a használati statisztika egyik legfontosabb jellemzője éppen bizonyos szavak ismétlődése, ezért nemcsak hasznos, hanem szükséges is a szóelőfordulásokon alapuló számítás. Teljesen egyetértek azzal, hogy Hajdú Mihály az egyetemi hallgatókkal olyan statisztikákat készíttetett (l. Szóet. 1994. 5), melyek a szövegbeli szavak eredetkategóriáinak arányait mind az egyszeri, mind az összes előfordulást figyelembe véve meghatározzák.

Statisztikai táblázataim tehát a feldolgozott korpusz (szótári) szavait és szóelőfordulásait tekintve is tartalmazzák az etimológiai kategóriák arányait, méghozzá együtt, egymással párhuzamosan, az adatok számát és a százalékos részesedést is feltüntetve.

(Folytatjuk.)

* Előadásként (rövidítve) elhangzott a Magyar Nyelvtudományi Társaság ülésén 1999. október 5-én.

Horváth László

Vissza a Tartalomhoz

Proportions of etymological categories in contemporary short stories

The paper tries to find out, on the basis of a corpus compiled from contemporary Hungarian short stories, the proportions of occurrence of major etymological categories (ancient heritage, internal creations, loanwords, lexemes of uncertain origin) and of their subtypes. The paper includes an etymological statistics not only of the words occurring in the corpus but also of the root morphemes they represent, and comments on the reasons for the discrepancy. The author, reflecting on the earlier literature of the topic, too, presents conclusions of principle and a set of methods that offer a model to follow, or debate, for similar surveys of the future. He also points out that etymological statistics would deserve a more prominent role in research and university education alike.

László Horváth

Back to Contents