Oldalak: 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332

 

Etimológiai kategóriák arányai mai elbeszélésekben*

    7. Vizsgálatom számszerű eredményeit az 1. és a 2. szóstatisztikai táblázat szemlélteti. Áttekintésük közben nem térek ki a szakirodalomból ismert statisztikákkal való összevetésre, mivel ez a bonyolult feladat nagy teret, sőt akár külön tanulmányt igényelne. Szintén helyszűke miatt mondtam le arról, hogy a Hajdú-tanítványok példáját (l. Szóet. 1994. és 1997.) követve a táblázatokhoz mellékeljem a korpusz szóanyagának a minősítéseket és az egyes szavak előfordulási számát is tartalmazó jegyzékét. Ezt a hiányt néhány példával próbálom majd enyhíteni.

a) Az 1. szóstatisztikai táblázatból kitűnik, hogy a mai elbeszélésekből összeállított korpuszban a (szótári) szavaknak több mint a háromnegyede belső [316] keletkezésű. Az ősi örökség részesedése 10%; a jövevények ezután mintegy 2% különbséggel következnek, a tisztázatlan eredetűek pedig további 2%-kal lemaradva zárják a sort.

1. szóstatisztikai táblázat

Eredetkategória

Szó

Szóelőfordulás

 

db

%

db

%

uráli

15

2,03

45

3,17

finnugor

24

3,25

98

6,90

ugor

11

1,49

19

1,34

ősi, tisztázatlan rétegből

7

0,95

9

0,63

kétforrású ősi

1

0,14

3

0,21

ősi örökség magyar képzővel

16

2,17

43

3,03

ősi összesen

74

10,01

217

15,27

származék

247

33,42

303

21,32

fiktív tő származéka

12

1,62

14

0,99

játszi szóalkotás

1

0,14

1

0,07

tudatos szóalkotás

3

0,41

4

0,28

képzőcserés módosulat

1

0,14

1

0,07

elvonás

8

1,08

9

0,63

szórövidülés

2

0,27

2

0,14

szilárdulás

63

8,53

114

8,02

szófajváltás

20

2,71

231

16,26

szóhasadás

7

0,95

15

1,06

összetétel

176

23,82

288

20,27

onomatopoetikus

12

1,62

17

1,20

belső, de tisztázatlan

10

1,35

28

1,97

belső összesen

562

76,05

1027

72,27

iráni

1

0,14

1

0,07

török

10

1,35

18

1,27

német

5

0,68

5

0,35

latin

11

1,49

14

0,99

olasz

2

0,27

2

0,14

szláv

20

2,71

26

1,83

több nyelvből

1

0,14

1

0,07

vándorszó

3

0,41

5

0,35

nemzetközi

7

0,95

7

0,49

jövevény összesen

60

8,12

79

5,56

bizonytalan

20

2,71

35

2,46

vitatott

3

0,41

30

2,11

ismeretlen

20

2,71

33

2,32

tisztázatlan összesen

43

5,82

98

6,90

Összesen

739

100,00

1421

100,00

[317]

2. szóstatisztikai táblázat

Eredetkategória

Szó

Szóelőfordulás

 

db

%

db

%

uráli

15

2,03

45

3,17

finnugor

35

4,74

140

9,85

ugor

15

2,03

25

1,76

kétforrású ősi

1

0,14

3

0,21

ősi örökség magyar képzővel

22

2,98

52

3,66

ősi összesen

88

11,91

265

18,65

származék

249

33,69

305

21,46

fiktív tő származéka

16

2,17

21

1,48

játszi szóalkotás

1

0,14

1

0,07

tudatos szóalkotás

3

0,41

4

0,28

képzőcserés módosulat

1

0,14

1

0,07

elvonás

8

1,08

9

0,63

szórövidülés

2

0,27

2

0,14

szilárdulás

68

9,20

129

9,08

szófajváltás

21

2,84

232

16,33

szóhasadás

8

1,08

16

1,13

összetétel

176

23,82

288

20,27

onomatopoetikus

12

1,62

17

1,20

belső, de bizonytalan

1

0,14

9

0,63

belső összesen

566

76,59

1034

72,77

iráni

3

0,41

4

0,28

török

11

1,49

23

1,62

német

6

0,81

6

0,42

latin

11

1,49

14

0,99

olasz

2

0,27

2

0,14

szláv

20

2,71

26

1,83

több nyelvből

1

0,14

1

0,07

vándorszó

3

0,41

5

0,35

nemzetközi

7

0,95

7

0,49

jövevényszó magyar képzővel

1

0,14

1

0,07

jövevény összesen

65

8,80

89

6,26

ismeretlen

20

2,71

33

2,32

Összesen

739

100,01

1421

100,00

Ehhez képest a szóelőfordulások között a belső keletkezésű elemek kissé veszítenek a súlyukból, bár számuk itt is majdnem az ötszöröse az ősi örökség képviselőinek. A szavak ismétlődésének beszámításával az ősi eredetűek főkategóriája nyeri a legtöbbet: a szóelőfordulások körében a részesedése a szavak készletében mértnek a másfélszerese. Kedvez ez a szempont a tisztázatlan eredetűek főkategóriájának is, hiszen a szóelőfordulások gyakorisági listáján megelőzi a jövevényeket. — Az ismétlődések szerepét az eredetkategóriák arányainak alakulásában a szóelőfordulás/szó hányados is mutatja. A főkategóriák sorrendje az egy szóra jutó szóelőfordulások szerint: 1. ősi [318] 2,93; 2. tisztázatlan 2,28; 3. belső 1,83; 4. jövevény 1,32. Összehasonlításul: a teljes korpuszban ez a hányados 1,92.

Érdekességként említem, hogy ha a régi statisztikák módjára összegeznénk az ősi eredetű és a belső keletkezésű elemek adatait, akkor az „eredeti” („magyar”) elemek aránya a szavak és a szóelőfordulások között is megközelítené a 90%-ot.

Az ősi eredetűek főkategóriájában a vezető szerep a finnugor rétegé. Különösen nagy a fölénye a szóelőfordulások között: egy-egy finnugor szó a korpuszban átlagosan 4,08-szor bukkan fel. Az összeállított szövegminta leggyakoribb finnugor szavai, zárójelben előfordulási számukkal: van (31), nem tagadószó (27), ő (6). — Az uráli réteg a szavak és előfordulásaik tekintetében is jelentősebb az ugornál. A legtöbbször megjelenő képviselői: tud (12), főnév (5). Az ugor koriak listáját a fog (segéd)ige és a melléknév vezeti (5-5).

Az is előfordul, bár ritkábban, hogy a szó ősi eredetében ugyan nincs okunk kételkedni, de nem állapítható meg egyértelműen, melyik alapnyelvi rétegből származik. Ilyen például a finnugor vagy esetleg az uráli korból való két számnév, valamint a különféle ugor vagy finnugor megfelelőkkel egyeztethető nyom főnév. Ebben a csoportban egyedül az út-nak van egynél több (3) adata; ez a főnevünk az ugor vagy esetleg az uráli rétegbe tartozik. — A „kétforrású ősi” tételt egyetlen (3-szor előforduló) szónak, a hall igének a kedvéért kellett felvennem: ez az igénk két ősi szó konvergens változásával jött létre (l. EWUng.). — Az „ősi örökség magyar képzővel” minősítés a szavak körében egy hajszálnyival megelőzi az uráliak csoportját. A leggyakoribb reprezentánsa az uráli tőből sarjadt mond, valamint a finnugor tőből származó lesz (11-11).

A belső keletkezésű elemek között, egyben az egész korpuszban a legnépesebb eredetkategória a származékoké: a szövegminta szókészletének minden harmadik tagja ide tartozik. A származékokra nem jellemző a szövegbeli ismétlődés: körükben egy-egy szóra mindössze 1,23 szóelőfordulás jut, így érthető, hogy a szóelőfordulások között részesedésük alig haladja meg a 20%-ot. A legtöbbször megjelenő származékok: olyan (8), lehet (6). — A valódi alapszóból képzett származékokkal ellentétben a fiktív tőből létrejött származékszavak részesedése a 2%-ot sem éri el. Statisztikámban (az EWUng.-tól eltérően) nem különítettem el egymástól az abszolút és a relatív fiktív tövek származékait (pl.: boldog, rekesz, ill. emlékszik, hideg). A 6. pontban már említettem, hogy ide számítottam a „származékszó uráli/finnugor eredetű tőből” szótári bevezető mondattal minősített szavakat is (fürdik, keres, terít). A fiktív tövű származékok a szövegmintában általában egyszer fordulnak elő, csupán a hideg-nek és a kezd-nek van 2-2 adata. — A képzéshez közel álló játszi szóalkotást egyedül a tapsikol képviseli. — Tudatos szóalkotás eredménye az angol (2 adattal), az ny betűnév és a vegyül. Itt említem meg, hogy a tudatos szóalkotással létrehozott képzett szavakat (pl.: alap, pillanat) a származékokhoz soroltam. — Az egyetlen képzőcserés módosulat az avanzsál. — A képzéssel ellentétes szóalkotásmódnak, az elvonásnak a részesedése a korpusz szókészletében 1%. Képviselői közül csak a kora ’valamely időszak kezdetére eső’ fordul elő egynél többször (2). — Szórövidülés eredménye a főképp és a kicsi.

A rag- vagy jelszilárdulás sokkal ritkább a képzésnél, de produktumai a korpusz szóanyagából csaknem 9%-kal részesednek, s ezzel az összes kategória gyakorisági listáján az előkelő harmadik helyet foglalják el, a szóelőfordulásokat tekintve pedig a negyediket. Az egy szóra jutó előfordulásuk valamivel kisebb a korpusz átlagánál: 1,81. A jelszilárdulással létrejött szavak közül a maga a leggyakoribb (12), a ragszilárdulással keletkezettek közül pedig a mint (7).

A szófajváltás részesedése már a szótári szavak között sem jelentéktelen: a 3%-ot megközelítő eredmény azonos a szláv jövevényszavakéval, továbbá a bizonytalan és az [319] ismeretlen eredetű elemekével. Ennél azonban jóval nagyobb figyelmet érdemel, hogy a szófajváltás kategóriája a szóelőfordulásokat tekintve a harmadik helyre került: majdnem minden hatodik szóelőfordulás szófajváltás terméke. Hogy ennek a kategóriának a reprezentánsai a szövegmintában igen gyakran ismétlődnek, azt kitűnően jelzi az egy-egy szóra jutó előfordulások rendkívül magas értéke: 11,55! Így itt érdemes a szokásosnál hosszabb listát adni a kategória leggyakoribb szavairól: a névelő (120), az névelő (34), hogy kötőszó (21), egy névelő (17), de kötőszó (13). (Megjegyzésként ide kívánkozik, hogy az egy esetében módosítottam az EWUng. megoldásán. A szótár a névelőt a számnévvel közös szócikkben tárgyalja, az etimológiai minősítést a számnévhez igazítva, míg például az az névelő a mutató névmástól elválasztva és szófajváltás eredményének minősítve külön szócikkbe került. Az utóbbinak az analógiájára az egy névelőt is úgy kezeltem, mintha az EWUng.-ban önálló címszó lenne „Szófajváltás” minősítéssel.) — A szóhasadás ritkább jelenség, részesedése 1%. A szövegmintában a legtöbbször előforduló képviselői a még és a mert (4-4).

A szóösszetétel a második legnépesebb kategória, a korpusz szókészletének majdnem minden negyedik tagja ide tartozik. Az egy szóra jutó előfordulások száma elmarad a szövegminta átlagától: 1,64. Mivel azonban ez a hányados nagyobb a származékokhoz tartozó értéknél, a szóelőfordulások körében az összetett szavak a származékokhoz képest csupán 1%-os hátrányban vannak. Kiemelkedően gyakori képviselőik: és (33), is (23). Az összetett fogalomszók listavezetője a férj (5), az igekötős igéké az elmegy (3).

Az onomatopoetikus elemek részesedése nem éri el a 2%-ot, a szóelőfordulások körében még kisebb. A legtöbbször a no és a ráz bukkan fel (3-3).

Néhány olyan szó is akad, amely biztosan belső keletkezésű, de kialakulásának módja bizonytalan vagy vitatott. Az ilyenek közül a leggyakoribb a már (9) és a majd (6).

A jövevények főkategóriájában nincs olyan nyelv, amelynek a részesedése eléri a 3%-ot. — A legnagyobb a szláv jövevényszavak képviselete. Körükben a szót átadó nyelv az esetek többségében nincs konkrétan megnevezve, de akad példa az ellenkezőjére is: ilyen a szerbhorvátból való baj, a szlovák eredetű kazal stb. A szövegminta szláv jövevényszavaiból kettőnél többször csak a (talán szerbhorvát eredetű) dolog fordul elő (3). — A jövevényszavak gyakorisági listáján a latinok következnek. Egynél többször megjelenő képviselőik: kritikus, mód, óra (2-2). — A korpusz török eredetű elemeinek majdnem mindegyike a honfoglalás előtt került a magyarba, sőt az EWUng. az egyetlen látszólagos kivételnek, az orosz-nak is a IX. századi átvételét valószínűsíti. A szövegminta szókészletében a török jövevények száma csaknem eléri, a szóelőfordulásokra nézve pedig meghaladja a latinokét. Egynél többször a bor, az idő, az orosz és a szél ’légáramlat’ jelentkezik (3-3). — A német jövevényszavak csak egyszer fordulnak elő: fiáker, fillér, hokedli, sáfár, sut. — Ugyanígy az olaszok: pálya, piccinina ’varrólány’. — Az iráni jövevényréteg egyetlen képviselője az alán eredetű asszony.

A „több nyelvből” minősítés azt fejezi ki, hogy korrekt jövevényszavunk előbb a latinból, majd a németből is bekerült nyelvünkbe. Nem ezt a minősítést, hanem a szlávot használtam a szlovénból és a szlovákból átvett rőzse esetében, hiszen ott mindkét átadó nyelv szláv.

A vándorszók közül csupán a szoba fordul elő többször (3), az esperes és az ispotály nem. — A szavak készletéből a nemzetközi elemek 1%-kal részesednek, a szövegmintában egyikük sem ismétlődik: egzakt, epizód, optimizmus, szabotázs, tabu, téma, veranda.

A tisztázatlan származásúak főkategóriájában a bizonytalan eredetű elemek száma megközelíti a szövegminta szókészletének 3%-át. A leggyakoribb képviselőik: gyerek, s kötőszó (5-5). Az ide tartozó szavak számításba vehető eredeztetéséről a 2. táblázattal kapcsolatban, a b) szakaszban írok. [320]

A vitatott etimológiájúak részesedése a szavak készletét tekintve eltörpül a bizonytalan és az ismeretlen eredetűeké mellett, a szóelőfordulásokat vizsgálva viszont megközelíti őket. A vitatott eredetű szavakra ugyanis átlagosan 10 (!) előfordulás jut; gyakorisági sorrendjük: az névmás (16), ez (12), öröm (2). A számításba vehető etimológiákat a 2. táblázat elemzésekor sorolom fel.

Az ismeretlen eredetűeknek a szókészletbeli aránya megegyezik a bizonytalanokéval, előfordulási számuk pedig megközelíti azokét. A leggyakoribb reprezentánsok: csak (8), öböl (3).

b) A 2. szóstatisztikai táblázat hátránya, hogy egybeolvadnak benne a biztos(abb) és a kevésbé meggyőző etimológiák. Előnye és értelme az, hogy a bizonytalan és a vitatott eredetű szavak nem differenciálatlan, az ismeretlen eredetűekéhez hasonló tömbként jelennek meg benne, hanem láthatóbbá válnak az összefoglaló címkék alatt rejtőző származtatási lehetőségek, s ezzel együtt persze a számításba vehető eredetkategóriák arányai. — A 2. táblázattal kapcsolatban először azt célszerű megvizsgálnunk, hol találtak helyet benne a bizonytalan és a vitatott etimológiák. Ezután kerülhet sor a változtatások nyomán kialakult összkép rövid áttekintésére.

A bizonytalan eredetű szavaknak az 1. táblázatban szereplő, 20 tagú csoportjából 11 az ősi örökség főkategóriájába, 4 a belső keletkezésűekébe, 5 pedig a jövevényekébe került át. A felsorolásokban külön jelzem a szó egynél többszöri előfordulását.
Az ősi örökség körébe 6 olyan szó lépett be, amely talán a finnugor korból való: s kötőszó (5), nagy (2), csúcs, tart, vég, vél. — A másik 5 szó az „ősi örökség magyar képzővel” csoportot növelte: fehér (2), orvos (2), fény, marad, nyaláb.

A „bizonytalan ® belső keletkezésű” minősítésváltozás csak a fiktív tövű származékokat érintette: akar (4), alak, beteg, hínár.

A jövevények főkategóriájába a bizonytalan eredetű szavak közül 2 talán iráni származású lépett át: az alán egész (2), valamint az ing főnév. — A török jövevények csoportja egy gyakorinak mondható elemmel, a gyerek-kel (5) bővült. — A német eredetűekhez a fegyver csatlakozott. — Egy bizonytalan eredetű szónak, az enged-nek az átsorolásával a főkategóriában új típus jelent meg. Ezt az ősi örökséghez tartozó hasonló csoport mintájára „jövevényszó magyar képzővel” néven szerepeltetem. Az enged (töve) talán török jövevény a honfoglalás előtti időből, végződése (nem honosító!) magyar képző.

A vitatott eredetű szavak közül az az és ez névmások származtatásában az EWUng. alapján ezzel a két lehetőséggel számolhatunk: 1. ősi örökség a finnugor vagy az ugor korból; 2. belső keletkezésű származék. A 2. táblázathoz az ilyen esetekben az EWUng.-ban 1. helyen megadott magyarázatot vettem figyelembe, ezért a két névmást az ősi örökséghez soroltam. Mivel ebben a típusban a főkategórián belül is az első helyen szereplő réteg volt a kedvezményezett (l. alább), az az (16 előfordulással) és az ez (12-vel) a finnugor elemek közé került. — Az öröm két etimológiája az EWUng.-ban: 1. ősi örökség, a finnugor korból való tőhöz magyar képző kapcsolódik; 2. származékszó török eredetű tőből. Ennek megfelelően a 2. szóstatisztikai táblázatban az öröm (2 előfordulással) az „ősi örökség magyar képzővel” csoportot gazdagította.

A 2. táblázat készítésekor arra törekedtem, hogy a biztos főkategórián belüli („második szintű”) bizonytalanság vagy vitatottság helyébe is a számításba vehető magyarázati lehetőségek lépjenek.

Az ősi örökségen belül a tisztázatlan rétegből való 7 szónak kellett helyet keresnem az egyes alapnyelvi rétegek képviselői között. Az ilyen típusú elemekre általában az jellemző, hogy egy fiatalabb, az időben hozzánk közelebb eső alapnyelvi rétegben már biztosan megvoltak, de esetleg korábbi réteghez is tartozhatnak. Ezekben az esetekben mindig az óvatosabb megoldást választottam, például az „Ősi örökség a finnugor, esetleg [321] az uráli korból” minősítést látva a finnugor réteg javára döntöttem. Így került a finnugor elemek (és nem az uráliak) közé a két számnév, a ki névmás és az öl főnév; az ugor rétegbe (az urálival szemben) az út (3 előfordulással) és a fázik; az ugor elemekhez (nem pedig a finnugorokhoz) a jön. — Más típusú a nyom főnév esete. Ennek alapnyelvi eredetét az EWUng. valószínűnek tartja, ezen belül azonban a vitatott megfelelések kétféle származásra mutatnak: 1. ugorra; 2. finnugorra. Ahogy a vitatottsággal kapcsolatban máskor is, az 1. lehetőség mellett döntöttem, vagyis a nyom az ugor eredetűek csoportjába került.

A belső keletkezésű elemek közül 10 szó kialakulásmódja bizonytalan, illetőleg vitatott. Ezeket igyekeztem beilleszteni a biztosabb etimológiájú társaik közé. — A bizonytalan keletkezésmódú szavak csoportjából a számításba jövő magyarázat alapján a származékokhoz került a lépcső és a milyen, a megszilárdult ragos alakulatokhoz a majd (ez 6 előfordulással), a szóhasadás eredményei közé pedig az igény. A már-t (9) sehová sem lehet megnyugtatóan besorolni, ezért a 2. táblázatba (is) kénytelen voltam felvenni a „belső, de bizonytalan” kategóriát. — A vitatott keletkezésmódú szavak esetében (ahogy máskor is a vitatott etimológiákkal kapcsolatban) az EWUng. 1. magyarázatát követtem. Ennek megfelelően a megszilárdult ragos alakulatokhoz (és nem a származékokhoz) került az így (3 előfordulással), az egy számnév (2), a hogy határozószó (2) és az úgy (2); szófajváltás eredményének (nem önállósulásnak) minősült a kocsi.

A jövevények főkategóriáján belül maradó, de bizonytalan vagy vitatott etimológia (pl. „Jövevényszó, de az átadó nyelv vitatott”) a korpusz szóanyagában nincs. Az effajta származtatáshoz viszonylag közel áll a konyha és az olasz EWUng.-beli minősítése („Szláv, esetleg szerbhorvát vagy szlovén jövevényszó”, ill. „Szerbhorvát vagy szlovén jövevényszó”); csakhogy ezek nem lépnek ki a szláv nyelvek köréből, ezért statisztikáimban egyszerűen szláv, nem pedig vitatott eredetűnek számítanak.

A 2. szóstatisztikai táblázat összképe az előzőekben ismertetett változtatások eredménye. A bizonytalan és a vitatott etimológiák „felszámolásával” az ősi örökség főkategóriájának szókészlete 14, a belső keletkezésűeké 4, a jövevényeké pedig 5 elemmel bővült. A bizonytalan vagy vitatott eredetű szavaknak tehát a 61%-a az ősi örökség állományát gyarapította. — Még feltűnőbb e főkategória nyeresége a szóelőfordulásokat tekintve. Ebből a szempontból adatainak száma 48-cal nőtt, míg a belső keletkezésűek többlete csupán 7, a jövevényeké pedig 10 adat. Ez azt jelenti, hogy a bizonytalan vagy vitatott eredetű szavak előfordulási adatainak a 74%-a az ősi örökséghez „vándorolt”. A 2. táblázat szerint a szóelőfordulások között e főkategória képviselőinek aránya nem sokkal marad el a 20%-tól; az ősi szókészlet egy-egy elemére 3,01 előfordulás jut. Különösen jól járt a finnugor réteg: részesedése megközelíti a korpusz szóállományának 5%-át, a szóelőfordulásoknak pedig a 10%-át.

A bizonytalan és a vitatott etimológiájú szavak átsorolásával az ismeretlen eredetűek természetesen főkategóriává léptek elő, változatlan részesedéssel.

    8. Az etimológiai vonatkozású használati statisztika jellegzetes és elsődleges típusának a szóstatisztikát tartom. A használati statisztika lényege, célja ugyanis elsősorban az, hogy a szövegben ténylegesen közvetlenül jelen lévő szavaknak, még inkább a szóelőfordulásoknak az arányait feltárja az etimológiai kategóriák szempontjából. Ehhez képest a szótövek eredete a használati gyakorisági vizsgálatban másodlagos kérdés. Egy-egy konkrét használati statisztika megítélésem szerint mellőzheti a tövek eredetbeli arányainak megállapítását, de a ténylegesen megjelenő szövegszókkal ezt kevésbé teheti meg, hiszen akkor éppen arra nem tud felelni, amire keresi a választ: arra, hogy (a szótárival szemben) milyenek az etimológiai kategóriák arányai a valós nyelvhasználatban. [322]

Mindezzel természetesen nem azt akarom állítani, hogy a használati tőeredet-statisztika felesleges és mellőzendő. Pusztán amellett érvelek, hogy ha az elemző valamilyen okból választásra kényszerül a tő- és a szóstatisztika között, akkor inkább az előbbiről mondjon le. Ezért bíráltam a 4. pontban Hajdú Mihály és tanítványai döntését: a tőeredet-statisztika önmagában (a szóstatisztika nélkül) nem ad hiteles képet a vizsgált szövegről. — Az ellenben aligha kétséges, hogy a szóstatisztika mellett elkészített tőstatisztika az etimológiai háttér feltárásával nagyon hasznos információkkal teheti pontosabbá, árnyaltabbá, érthetőbbé a szóstatisztika alapján tanulmányozható képet. Annak a kutatása pedig, hogy az ősi örökséghez tartozó, illetőleg az idegen nyelvekből átvett szókészlet/tőkészlet mekkora szerepet játszott és játszik a belső keletkezésű elemek kialakulásában (vö. Benkő: NyK. 1962: 127), csakis a használati szóeredet- és tőeredet-statisztika együttes, egymásra vonatkoztatott alkalmazásával lehetséges.

Az etimológiai szempontú használati tőstatisztika a szakirodalomban hosszú ideig nem jelent meg; talán azért sem, mert Tolnai (MNy. 1924: 55) nem hívta fel rá a figyelmet. (A Tolnai-féle statisztikaosztályozást és a vele kapcsolatos bírálatomat, kiegészítésemet l. a 2. pontban.)

Olyan módszert, amely a használati szó- és tőstatisztika szembeállításához hasonló, először Benkő Loránd próbált ki. Tanulmányában (NyK. 1962: 117—8, 125—6) megkülönböztette a „tényleges” és a „felbontott” elemek statisztikáját. Az előbbiek közé a valójában előforduló, etimológiai felbontás nélküli szövegszókat sorolta. A felbontással kapott statisztikáiban viszont benne vannak az etimológiai-morfológiai elemzéssel nyert szóegyedek is: például a kínzat ’kínzás’ főnév nemcsak önmagát, hanem a kínoz igét és annak kín alapszavát is képviseli, vagyis a felbontott elemek statisztikájában mindhárom szó jelen van. Ugyanez a szabály az összetételi elemekre is vonatkozik. — A Benkő-féle felbontás különösen azért hasznos, mert segítségével kimutathatók a szavak létrejöttének, továbbalakulásának etimológiai-morfológiai lépcsőfokai, így az etimológiai statisztikába a relatív tövek eredetminősítése is bekerül. A módszer a nyelvtipológia számára is értékes lehet, hiszen a felbontási statisztika egyfajta agglutinációs indexül is szolgálhat. — Hogy a felbontásnak van-e más hátránya azon kívül, hogy hosszú, bonyolult munkát követel, azt csak többszöri kipróbálásával lehetne megállapítani. Annyit mégis szeretnék megjegyezni, hogy nem látom világosan a fiktív töveknek a felbontásban elfoglalható helyét.

Egyszerűbben és gyorsabban készíthetjük el az abszolút tövek etimológiai statisztikáját. Igaz, ezzel lemondunk arról, hogy egy-egy szövegszó kialakulásának mindegyik mozzanatát figyelembe vegyük.

Az etimológiai szempontú gyakorisági vizsgálatok közül Hajdú Mihály egyetemi hallgatóinak dolgozatait (Szóet. 1994. és 1997.) nevezhetjük használati tőstatisztikának: „A szótár [= a dolgozatban vizsgált szövegminta szójegyzéke — H. L.] készítésekor a nyelvtörténeti ismeretek birtokában az önálló szótöveket kellett címszóként fölvenni. Az összetételeket föl kellett bontani, a képzőket, ragokat le kellett hagyni a szóról. Tehát a mai nyelvtudomány álláspontja szerint abszolút tövek szerepelhettek a szótárban. Az etimológiailag is elhomályosult összetételeket lehetett csak önálló szavaknak tekinteni [...], a ragszilárdulásokat az alapszónak megfelelően kellett vizsgálni és osztályozni.” (Hajdú: i. h. 1994. 5.) — Az előszóból való idézetben szereplő műveletek az abszolút tő keresésének legjellegzetesebb és legfontosabb eszközei. Az azonban nem derül ki, volt-e egységesen alkalmazandó módszer a nem morfológiai természetű etimológiai mozzanatok (szófajváltás, szóhasadás) kezelésére. (A dolgozatokból sejthetően nem.) Az elhomályosult összetételeket pedig az abszolút töveket vizsgálva valószínűleg célszerűbb felbontani.

Az a tőstatisztika, amelyet a korpusz szóanyaga alapján állítottam össze (a táblázatokat l. a 9. pontban), erősen különbözik a Benkő-féle felbontási statisztikától. Az ő [323] példáját kölcsönözve: a kínzat :> kínoz :> kín a felbontási statisztikában három szóegyedként szerepel (mindegyik a maga etimológiai minősítésével), míg tőstatisztikámban csak a kín típusú elemnek, vagyis az abszolút tőnek az etimológiai minősítését vettem figyelembe. — Használati tőstatisztikám inkább a Hajdú-tanítványokéira hasonlít, de bizonyos eseteket tőlük eltérően ítéltem meg, és szükségesnek találtam az elvek és módszerek pontosítását, valamint kiegészítését.

Néhány példával szeretném bemutatni, hogyan dolgoztam fel, rendeztem át a korpusz szókészletét a tőstatisztikához. — Az összetett szavakat elemeikre bontottam: például a gomblyuk összetételi tagjai a gomb, illetőleg a lyuk tőhöz, a csaknem-éi a csak-hoz, illetőleg a nem tagadószóhoz kerültek. Az elhomályosult összetételeket is szétválasztottam, például az ember-t em- és er(j), a férj-et fiú és er(j) elemekre. — A származékszavak tövéről levágtam a képzőt vagy képzőket, függetlenül attól, hogy tőlexémához vagy fiktív tőhöz jutok. Így lett a tőstatisztika számára a baromság-ból barom, a gondolat-ból gond, a rekesz-ből rek-, a csobbanás-ból csobb-. Ugyanígy kaptam meg a játszi képzésű tapsikol-ból a top tőigét. — Szintén lemetszettem a tőről a megszilárdult alakulatok rag- vagy jelmorfémáját: helyett ® hely, maga ® mag stb. — Egyes szavak tövéhez, illetőleg töveihez többféle etimológiai-morfológiai műveleten át vezetett az út. A lehetőleg megszilárdult ragos alakulat le- abszolút (ige)tövét például rag és képző(k) elhagyásával kaptam meg. A cserbenhagy-ot előbb összetételi tagokra bontottam, majd az előtagról leválasztva a határozóragot eljutottam a cser és hagy tövekhez. A többszörösen összetett börtönfaliújság esetében is először az összetételi tagok határait állapítottam meg, majd a képzők elhagyásával megkaptam a töveket: börtön, fal főnév, új. — Külön említést érdemel, hogy összetételi elemként kezeltem az igekötőket, és néhányuk esetében a végződés leválasztásával juthattam el a tőhöz. Például: belenyugszik ® bél + nyug-; visszafordít ® vissz- + for-.

Vannak olyan etimológiai kategóriák is, amelyek képviselői közvetlen előzményükhöz képest nem tartalmaznak morfématöbbletet. Jellegzetesen ilyen a szófajváltás és a szóhasadás. — A szófajváltás eredménye tőszó, illetőleg toldalékolhatatlan szófaj is lehet: ok(ik) ige ® ok főnév, de fokozó szócska ® de kötőszó stb. Az ilyen esetekben a szóeredet-, illetőleg a tőeredet-statisztikai besorolás nem „szó : tő”, hanem „etimológiai következmény : etimológiai előzmény” típusú szembenállást tükröz. Ez azt jelenti, hogy a szóstatisztikában az ok főnév és a de kötőszó szófajváltás eredményeként szerepel, a tőstatisztikába ellenben az okik (török jövevény) és a de fokozó szócska (onomatopoetikus) minősítése számít be. Ha a szófajváltás produktuma több morfémából áll (pl.: folyó, rendező), akkor az etimológiai visszavezetésben a szófajváltás csak egyetlen (noha meghatározó) mozzanat: a tőstatisztikába az abszolút tő minősítése kerül be (folyik: bizonytalan eredetű, talán ősi örökség az ugor korból; rend: szláv jövevény). — Ugyanezek az altípusok a szóhasadás körében is megvannak. A hoz szó például a tőstatisztikában etimológiai előzményének, az ugor korból örökölt húz-nak az adatait gyarapítja.
A vörös-t viszont nem a szóhasadás kiindulásáig, a veres ~ véres származékszóig vezetjük vissza, hanem továbblépve annak tövéig, a vér-ig: a tőstatisztikába (egyedül) a vér minősítése (finnugor örökség) kerül.

Az elvonással keletkezett szavakra is érvényes, hogy közvetlen etimológiai előzményük hozzájuk viszonyítva nem tő; sőt az elvonás alapja hosszabb szó, mint a folyamat eredménye. A tőstatisztikához az elvonás alapját kellett megvizsgálnom. Ha ez etimológiai-morfológiai szempontból alkalmatlan volt a további elemzésre (például a csendes, amelyből a csend-et elvonták), akkor magának az elvonási alapnak a minősítése került be a tőstatisztikába (példánkban: ismeretlen eredetű). Ha azonban az elvonás alapja etimológiai-morfológiai szempontból elemezhető volt (mint a körül, amelyből a kör-t elvonták), [324] akkor folytattam az etimológiai visszavezetést az abszolút tőig, s annak a minősítése került be a statisztikába (a példában a ker- tő finnugor). — A képzőcsere, a szórövidülés és egyes tudatos szóalkotások eseteit a szófajváltási vagy elvonási altípusok analógiájára oldottam meg.

A tőstatisztika készítésének alapelve volt, hogy az etimológiai visszavezetésben legföljebb egy lépést tehetek a magyar szókészlet határán kívülre. — A jövevények főkategóriájában ennek a szóstatisztikához képest gyakorlati következménye nem volt; csupán elméleti szempontból kapott nagyobb hangsúlyt, hogy a nyelvünkbeli etimológiai minősítést nem befolyásolja, hogy az átvett szó előzménye az átadó nyelvben milyen morfológiai felépítésű, illetve ott milyen eredetű. Például a fillér „német jövevényszó” minősítése független attól, hogy eredetije a németben képzés eredménye; a dézsa nálunk attól még szláv jövevény marad, hogy a szlávban indoeurópai örökség. — A bekezdés elején említett alapelvnek olyankor lehetett konkrét hatása a tőstatisztikára, ha valamelyik alapnyelvi rétegből nem (abszolút) tövet, hanem képzős szót örököltünk. Jellegzetes példa erre a vitatott eredetű az névmásnak az 1. magyarázata, amely szerint a -z névmásképző már a finnugor vagy az ugor alapnyelvben, nem pedig a magyarban járult a tőhöz. Ezzel a származtatással átlépjük a magyar szókészlet határát, tehát több lépést az etimológiai visszavezetésben nem tehetünk. Hiába tudjuk, hogy a finnugor névmás töve már az uráli alapnyelvben is élt (és azonos a névmásunk eredetijével), ez az alapnyelvi rétegek „belügye”: a magyar az a tőstatisztikában legföljebb finnugor örökségként szerepelhet, uráliként nem.

A továbbiakban tőstatisztikám elemeit egységesen tövekként emlegetem, függetlenül attól, morfológiai természetű etimológiai elemzéssel jutottam-e el hozzájuk vagy nem morfológiai jellegűvel (az utóbbihoz l. a szófajváltásról stb. írtakat).

A tövek keresésekor — magától értetődően — azt tapasztaltam, hogy a korpusz szókészletének sok olyan tagja van, amely egy vagy több társával együtt közös tőhöz vonható. A közös tövek némelyikét a szövegmintában tekintélyes és változatos szóállomány képviseli. Példáimban a vastagabb szedésű tövet betűrendben követik a hozzá tartozó szavak; zárójelben az egynél többszöri szóelőfordulást is feltüntetem: bél: behömpölyög, bejárat, belejönni, belenyugszik, belső (2), benne, beszakad, beszakadhat; ho-: dehogyis (2), ha (6), habár (2), hát bevezetőszó stb. (3), hogy ’hogyan’ (2), hogy kötőszó (21), hol, máshol, mintha (3), néha (2), néhány, soha (2), valahol; jó: börtönigazgató, eligazítás, gyógyír, igaz, igazán, igazgató, igazítani, jó (5), jól, jóságos, jótékony, jótétemény, leginkább (2), legjobb, LHR ’leginkább hiteles rab’, LHR-jelölt. — A szövegmintában 164 olyan tövet találtam, amelyhez egynél több szó tartozik, ez a tőállomány 36%-a.

Mielőtt megszámoltam a korpuszbeli töveket és tőelőfordulásokat, csak abban lehettem biztos, hogy — az összetett szavak felbontása miatt — a szóelőfordulásoknál több tőelőfordulást találok. A tőkészletnek a szókészletéhez viszonyított nagyságát illetően még óvatos becslésre sem mertem vállalkozni. Az nyilvánvaló volt, hogy az összetételek felbontása a tövek számát a szavakéhoz képest növeli, ugyanakkor az sem volt kétséges, hogy sok szónak a töve azonos, ez pedig arra mutatott, hogy a tövekből a szavaknál kevesebb van. A számlálás azt bizonyította, hogy az utóbbi tényező az erősebb: a korpusz 739 szavával 457 tő áll szemben. Az 1793 tőelőfordulás viszont (a várakozásnak megfelelően) meghaladja a szóelőfordulások számát (1421). Egy-egy tőre tehát átlagban 3,92 tőelőfordulás jut (a szavak előfordulási hányadosa: 1,92). Egy-egy tőhöz átlagosan 1,62 szó tartozik.

A tövek gyakorisági listáját az a névmás(tő) vezeti 147 előfordulással, mögötte a sorrend: 2. e névmás (114), 3. s kötőszó (90), 4. az névmás (55), 5. nem [325] tagadószó (50), 6. mi kérdő névmás (49), 7—8. ho- (ha, hogy, hol stb.) és van (47), 9. mög (42; pl.: meg igekötő, meg kötőszó, még), 10. el- (27; pl.: el igekötő, elé, ellen), 11. ki(v) (23; pl.: ki igekötő, kinti, különös), 12. melléknév (21).

    9. Ugyanazzal az indoklással és céllal, mint a szóstatisztikai vizsgálatban (l. a 6. és 7. pontot), tőstatisztikám eredményeit is két táblázattal szemléltetem.

a) Az 1. tőstatisztikai táblázat azt mutatja, hogy a szóstatisztikához képest a négy főkategória arányai erősen átrendeződtek.

A tövek készletének majdnem 40%-a az ősi örökségből való. Ez azt jelenti, hogy itt e főkategória részesedése a szóállománybelinek jóformán a négyszerese. — A tisztázatlan eredetű tövek 29%-os eredménye önmagában is nagy figyelmet érdemel, arról nem is beszélve, hogy ez az arány a szóállományinak az ötszöröse. — A tőkészletnek csaknem minden negyedik tagja jövevényelem. — A főkategóriák közül a nagy vesztes a belső keletkezésűeké. Részesedése a szókészletbelinek a tizedére (!) zsugorodott, így kiemelkedő szerepe helyébe a sereghajtóét kapta meg.

1. tőstatisztikai táblázat

Eredetkategória

Tőelőfordulás

 

db

%

db

%

uráli

45

9,85

519

28,95

finnugor

84

18,38

393

21,92

ugor

33

7,22

109

6,08

ősi, tisztázatlan rétegből

16

3,50

90

5,02

kétforrású ősi

1

0,22

9

0,50

ősi összesen

179

39,17

1120

62,47

tudatos szóalkotás

1

0,22

1

0,06

onomatopoetikus

33

7,22

65

3,63

belső összesen

34

7,44

66

3,68

iráni

1

0,22

1

0,06

török

25

5,47

59

3,29

német

13

2,84

18

1,00

latin

13

2,84

21

1,17

olasz

3

0,66

5

0,28

szláv

38

8,32

54

3,01

több nyelvből

1

0,22

1

0,06

átadója tisztázatlan

3

0,66

3

0,17

vándorszó

4

0,88

7

0,39

nemzetközi

9

1,97

9

0,50

jövevény összesen

110

24,07

178

9,93

bizonytalan

55

12,04

215

11,99

vitatott

19

4,16

102

5,69

ismeretlen

60

13,13

112

6,25

tisztázatlan összesen

134

29,32

429

23,93

Összesen

457

100,00

1793

100,01

[326]

A tőelőfordulások között ugyanez a sorrend, de további arányeltolódással. A mérleg még inkább az ősi tövek javára billen: részesedésük itt 60% feletti. A másik három főkategória így persze veszít a súlyából: igaz, a tisztázatlan eredetűek aránya a tőelőfordulásokat tekintve sem csekély (majdnem minden negyedik adat ide tartozik), a jövevényeké azonban 10% alá csökken, a belső keletkezésűeké pedig még a tőállománybelihez képest is megfeleződik. — A tövek ismétlődésének szerepét az etimológiai főkategóriák arányainak változásában az egy-egy tőre jutó előfordulások szerinti sorrend is jelzi: 1. ősi 6,26; 2. tisztázatlan 3,20; 3. belső 1,94; 4. jövevény 1,62. (Összehasonlításul és emlékeztetőül: a korpusz átlaga 3,92.) Érdekes és jellemző, hogy a sorrend ugyanaz, mint a szóelőfordulási hányados esetében (l. a 7. pontban).

A főkategóriák természetéről az is sokat elárul, hogy az őket képviselő tövekhez egy vagy több szóegyed tartozik-e. A táblázatban az első típust a „Magányos”, a másodikat a „Társas” címke jelöli.

2. tőstatisztikai táblázat

Eredetkategória

Tőelőfordulás

 

db

%

db

%

uráli

57

12,47

538

30,01

finnugor

118

25,82

677

37,76

ugor

50

10,94

162

9,04

kétforrású ősi

1

0,22

9

0,50

ősi összesen

226

49,45

1386

77,30

tudatos szóalkotás

1

0,22

1

0,06

onomatopoetikus

36

7,88

68

3,79

belső összesen

37

8,10

69

3,85

őspermi

1

0,22

1

0,06

iráni

7

1,53

11

0,61

török

35

7,66

86

4,80

német

14

3,06

19

1,06

latin

13

2,84

21

1,17

olasz

4

0,88

6

0,33

szláv

40

8,75

57

3,18

több nyelvből

1

0,22

1

0,06

vándorszó

4

0,88

7

0,39

nemzetközi

9

1,97

9

0,50

jövevény összesen

128

28,01

218

12,16

ismeretlen

66

14,44

120

6,69

Összesen

457

100,00

1793

100,00

[327]

A tövekhez tartozó szóegyedek táblázata

Eredetkategória

Magányos

Társas

Összes

 

db

%

db

%

 

ősi

089

49,72

090

50,28

179

belső

027

79,41

007

20,59

034

jövevény

090

81,82

020

18,18

110

tisztázatlan

087

64,93

047

35,07

134

Összes

293

64,11

164

35,89

457

A két típus egyedül az ősi örökséget tekintve van egyensúlyban; másutt azok a tövek dominálnak, amelyekhez a szövegmintának csupán egy szóegyede kapcsolható. A tisztázatlan eredetű töveknek több mint a harmadából sarjadt legalább két szóegyed, a belső keletkezésűek körében azonban ez az arány alig nagyobb 20%-nál, a jövevények főkategóriájában pedig ennél is kisebb. Érdekes és nyilván nem véletlen, hogy ez a kategória-sorrend megegyezik a tőelőfordulási hányadosokéval. Az egész szövegminta tőállományának 64%-ához csak egy-egy szó tartozik.

Az ősi eredetű tövek főkategóriáján belül, egyben az 1. tőstatisztika összes kategóriáját tekintve a finnugor réteg 18%-os részesedése a legnagyobb. A korpuszbeli tövek 10%-a az uráli alapnyelvből való örökség, a tőelőfordulásokat vizsgálva pedig 20%-os arányával ez a réteg veszi át a vezető szerepet a 22%-kal részesedő finnugor előtt. A helycserét az magyarázza, hogy egy-egy finnugor kori tőre hiába jut a szövegminta átlagát felülmúló érték, 4,68 előfordulás, az uráliak ennél is sokkal gyakrabban ismétlődnek: előfordulási hányadosuk 11,53! Ez leginkább az uráli korból örökölt névmástöveknek köszönhető; természetesen mai alakjukban adom meg őket, zárójelben előfordulási számukkal: a (147), e (114), mi kérdő (49), ho- (47), mi személyes (12). Az uráli alapnyelvig visszavezethető fogalomszói tövek közül a szövegmintában a mon- (15; l. a mond igét és származékait) és a tud (14) a leggyakoribb. A finnugor kori tövek listáját a nem tagadószó (50) vezeti, utána következik a van (47), a mög (42; pl.: meg igekötő, meg kötőszó, még) és a má- (20; pl.: majd, más, most). — Az ugor kori elemek részesedése különösen a tőelőfordulások között marad el a korábbi rétegekétől, mivel az egy tőre eső előfordulási szám kisebb a korpusz átlagánál: 3,30 (<3,92). Az ugor alapnyelvből való tövek leggyakoribb reprezentánsai: kiv- (23; pl.: ki igekötő, kinti, különös), melléknév (21), fog (segéd)ige (10).

Az olyan tövek állománya, amelyekről nincs egyértelműen eldöntve, melyik alapnyelvi rétegből származnak, az ugorokénak a felét sem éri el. Mivel azonban előfordulási hányadosuk jóval a korpuszátlag feletti (5,63), a tőelőfordulások szempontjából 1%-nyira megközelítik az ugorokat. A tisztázatlan rétegből való ősi tövek közül a leggyakoribb a finnugor vagy esetleg uráli el- (27; pl.: el igekötő, elé, ellen) és a ki névmás (13), valamint az ugor vagy esetleg uráli út (10). — Akárcsak a szóstatisztikában, a „kétforrású ősi” tételt egyetlen (igaz, 9-szer előforduló) tő, a hall ige kedvéért kényszerültem felvenni.

A belső keletkezésűek főkategóriája nemcsak számarányát tekintve tizedelődött meg a szóstatisztikához képest, hanem változatosságából is nagyon sokat vesztett. A belső szóalkotás, illetve kategóriaváltás lényege — akár morfológiai természetű (képzés, összetétel, elvonás stb.), akár nem morfológiai (szófajváltás, szóhasadás) — az etimológiai „levezetettség”, motiváltság, ezért nem csoda, hogy a szóstatisztikának tőstatisztikává alakításakor a belső keletkezésmódok többsége „eltűnt”. A (tudatos) szóalkotásnak csupán [328] egyetlen, metanyelvi képviselője maradhatott meg a tőstatisztikában: az ny betűnév.

A szóteremtésből hiányzik a szóalkotáséhoz hasonló levezetettség, tehát az onomatopoetikus elemek kategóriája a tőstatisztikának is résztvevője lett, sőt csak a mesterséges szóalkotásnak egy kivételszerű reprezentánsa (az ny betűnév) akadályozta meg abban, hogy etimológiai főkategóriává, a belső keletkezésűek helyettesítőjévé lépjen elő. A kategória részesedése a tőállományból 7%-os; a tőelőfordulásokat tekintve csak feleakkora, mivel egy-egy onomatopoetikus tőre a korpusz átlagának mindössze a fele, 1,97 előfordulás jut. A leggyakoribb képviselők: de fokozó szócska (15), kap (5).

A jövevények főkategóriájából a szláv eredetű tövek aránya a legnagyobb: 8% feletti. Az előfordulásokat tekintve jóval kisebb, 3%-os a képviseletük, a tőelőfordulási hányados mindössze 1,42. A legtöbbször a barát és a rab bukkan fel (4-4). — A török elemek részesedése a tőállományból majdnem 3%-kal csekélyebb a szlávokénál; a szövegmintabeli megjelenésük ennek ellenére gyakoribb, mivel előfordulási hányadosuk 2,36. A legsűrűbben az idő (7), továbbá a bor és a szél ’légáramlat’ (6-6) ismétlődik. — A német és a latin eredetű tövek száma egymáséval megegyezik, a törökökének pedig körülbelül a fele. A tőelőfordulások között éppen 1%-nyi a német elem, latinból ennél alig van több. A német eredetű tövek listáját a kalap és a kantin (3-3) vezeti, a latinokét az anglus (4). — Az olaszból átvett tövek kis csoportjában a szóstatisztikához képest a part (3) az újdonság. — Az egyetlen iráni elem természetesen itt is az asszony, a több nyelvből (latinból és németből) származó pedig a korrekt.

A szóállományhoz viszonyítva új a „jövevény, de átadója tisztázatlan” típus. Ide tartozik a talán óiráni vászon, illetőleg a török (csuvas) vagy délszláv bér, továbbá a szláv vagy oszét gaz.

A vándorszók mint tövek részesedése 1% alatt marad. A szavak állományához képest itt a pézsma (2) új. — A tőkészletben a nemzetközi elemek képviselete 2%-os, mivel azonban mindegyikük egyszer bukkan fel, az előfordulási arány csupán 0,5%. A szóstatisztikához viszonyítva újdonság a büfé és a móló.

A tisztázatlan származású tövek közé tartozó bizonytalan eredetűek 12%-os részesedése — mind a tőállományt, mind az előfordulásokat tekintve — a kategóriák gyakorisági listáján a harmadik. Előfordulási hányadosuk nagyjából azonos a korpusz átlagával: 3,91. Kiemelkedően legtöbbször adatolt reprezentánsuk az s kötőszó (90; ne feledjük, hogy ez — többek között — az és, valamint az is alkotórésze!), de vannak még más viszonylag gyakran használt bizonytalan eredetű tövek is: má- (10; már és máris), ér ’érint; érkezik’ (8) stb.

Vitatott etimológiájú tőből sokkal kevesebb van, mint bizonytalanból: alig több a korpusz készletének 4%-ánál. Ugyanakkor figyelmet érdemel, hogy a vitatott eredetű tövek részesedése az azonos szókészleti kategóriáénak a tízszerese. Mivel itt egy-egy tőre az átlag feletti érték, 5,37 előfordulás jut, a tőelőfordulások között 1,5%-kal nagyobb a vitatottak aránya, mint a tőkészletben. A leggyakoribb képviselőjük két névmás(tő), az az (55) és az ez (18), a fogalomszói tövek közül pedig az ör- (3; a kétszer felbukkanó öröm és az örülni képviseli).

Az ismeretlen eredetűek kategóriája 13%-os részesedésével a tőállomány gyakorisági listáján a finnugorok mögött a második helyet foglalja el. Egy-egy ilyen tő azonban átlagosan csupán 1,87-szor ismétlődik, ezért az előfordulásokat tekintve a kategória képviselete a tőállománybelinek a felénél is kisebb. A leggyakoribb a csak partikula (9) és a hi(sz) igető (7).

b) A 2. tőstatisztikai táblázat összképének áttekintése előtt érdemes megvizsgálni, hol találtak benne helyet a bizonytalan és a vitatott etimológiák. A szóstatisztikai elemzéssel (l. a 7. pontban) szemben itt az adatok nagyobb száma miatt lemondok [329] a teljes felsorolásról, ehelyett példákra szorítkozom. (A példaként szereplő tövek mellett az egynél többszöri előfordulást külön feltüntetem.)

A bizonytalan eredetű töveknek az 1. táblázatban szereplő, 55 tagú csoportjából 37 az ősi örökség főkategóriájába, 3 a belső keletkezésűekébe, 12 a jövevényekébe, 3 pedig az ismeretlenekébe került át.

Ez azt jelenti, hogy a korpusz bizonytalan eredetű tőállományának több mint kétharmada talán ősi örökség. Az ide vonható tövekből 18, vagyis ennek a csoportnak majdnem a fele a finnugor réteghez tartozhat: s kötőszó (90), má- (10; már, máris), ügy ’dolog stb.’ (7), le igekötő (6), nagy (5) stb. Az uráliak csoportját 11 tő növelte: for- (4; vö.: fordít, fordul), né- (3; l.: néha, néhány) stb. Az ugor rétegbe pedig 8 bizonytalan eredetű tő sorolható: foly(ik) (5), ak- (4; akar) és ked- (4; pl.: kedvel, kedves) stb.

Mindhárom tő, amely talán belső keletkezésű, természetesen onomatopoetikus lehet: gomb, kob- (elkoboz), sim- (elsimul).

A jövevények főkategóriájához csatlakozó csoport felének török eredete vehető számításba: ér ’érint; érkezik’ (8), gyerek (5) stb. Ide tartozik a kocsi alapszava, a kos-sal összefüggésbe hozható (FNESz.) Kocs helynév (3) is; ez az egyetlen olyan tulajdonnév, amelyet (a kocsi miatt) nem zártam ki a szövegmintából. — Ebben a csoportban a törökön kívül az iráni rétegnek van egynél több képviselője: egész (4), nád (2), ing főnév. — A fegyver-nek német, a kagyló-nak olasz származtatása jöhet számításba. — Újdonságként lép színre a 2. táblázatban az őspermi kategória, mivel a korpuszbeli egyetlen reprezentánsa, a harminc számnév -minc eleme az 1. statisztikában a bizonytalan eredetűek között „rejtőzött”.

Tévedésnek, de legalábbis furcsának tűnhet, hogy a bizonytalan eredetű tövek között olyanok is akadtak, amelyek a 2. statisztikában az ismeretlenek számát növelték. Ez olyankor történhetett meg, ha az EWUng. egy lexémát így minősített: „Bizonytalan eredetű, talán származékszó egy fiktív tőből”. Ebben az esetben egyrészt nem biztos, hogy a feltételezett tő valóban tőelem, másrészt a bevezető mondat után az etimológiai magyarázat konkrét származtatási lehetőséget is kínálhat (pl. a tő onomatopoetikus), ezért az 1. tőstatisztikában ezt a típust nem oszthattam be máshová, mint a bizonytalan eredetűek közé. A bevezető mondat utáni folytatás azonban természetesen ez is lehet: „A tő ismeretlen eredetű”. Ez az oka a két táblázat közötti „bizonytalan ® ismeretlen” irányú átsorolásnak. Érintettjei: is(mer) (2), bet(eg), hín(ár).

Az 1. táblázat 19 vitatott eredetű tövéből 10 az ősi örökség főkategóriájába, 6 a jövevényekébe, 3 pedig az ismeretlenekébe került át.

A legtöbbel, 8 tővel, ezúttal is a finnugor elemek állománya gyarapodott. Az előfordulásokra nézve is nagy nyereség az az (55) és az ez (18) névmás(tő). Ide tartoznak még: leg- (6), ör- (3; l.: öröm, örülni), fiz- (kifizet), hiu (hiány), kettő, szir(ony) (rózsaszirom). — Az uráli tövek számát a bűz, az ugorokét a haj- (ráhajt <kocsival>) növelte.

A jövevények főkategóriájába átemelt vitatott eredetű tövek fele a török elemek sorában kapott helyet: ír ige, ör(eg), úr (2-2). Az iráni származású tövekhez került a méreg és a zöld, a szlávokhoz a mér (2).

Az, hogy egy vitatott etimológiájú elem a 2. táblázatban az ismeretlen eredetűek közé illeszkedjék be, a szóstatisztikában ki van zárva: az, hogy két magyarázatból az egyik szerint a szó ismeretlen származású, logikai képtelenség. A töveket tekintve viszont lehetséges a kétféle statisztika közötti „vitatott ® ismeretlen” változás: ha egy szó morfológiai felépítése, illetve alapszava tisztázatlan, akkor megeshet, hogy két magyarázat közül az egyik (a valószínűbb) a szót ismeretlen eredetű tőre vezeti vissza. Így kerültek a 2. statisztikában az ismeretlen etimológiájúak közé a következő tövek: figy- (2; l. felfigyel), dör- (dörzsölget), el(egy)- (a vegyül előzményeként). [330]

A 2. szóstatisztikához hasonlóan a 2. tőstatisztika összeállításakor is el kellett érnem, hogy a biztos főkategórián belüli bizonytalanság vagy vitatottság helyébe is a számításba jövő konkrétabb magyarázatok lépjenek.

Az ősi örökségen belül a tisztázatlan rétegből való 16 tőnek kerestem helyet a szóstatisztikai elemzésben ismertetett szempontok (l. a 7. pontban) alapján. Közülük 8 a finnugor, 8 az ugor tövek állományát gyarapította. A finnugor eredetűekhez csatlakoztak például ezek: el- igekötő (27), ki névmás (13), a(z) (7; az akkor, annyi töveként); az ugorokhoz pedig többek között ezek: út (10), jön (7), reg ’reggel’ <főnév> (4).

A jövevények főkategóriáján belül az „átadója tisztázatlan” típusból a vászon-t az irániak, a bér-t a törökök, a gaz-t pedig a szlávok csoportjába vittem át.

Az ismertetett átrendezésnek az eredménye az az összkép, amelyet a 2. tőstatisztikai táblázat tükröz. A bizonytalan és vitatott etimológiák átsorolásával az ősi örökség főkategóriájának tőkészlete 47, a belső keletkezésűeké 3, a jövevényeké pedig 18 taggal bővült; a főkategóriává előlépő ismeretlen eredetűek csoportja 6 új képviselőt nyert. A bizonytalan vagy vitatott eredetű töveknek tehát csaknem a kétharmad része az alapnyelvből örököltek állományát gyarapította. — A tőelőfordulásokat tekintve az 1. statisztikához képest az ősi örökség főkategóriája 266, a belső keletkezésűeké 3, a jövevényeké 40, az ismeretlen eredetűeké pedig 8 adattal szaporodott. Ez azt jelenti, hogy a bizonytalan vagy vitatott eredetű tövek 84%-át (!) az alapnyelvi elemek főkategóriája „kapta meg”.

A 2. táblázat szerint az ősi tövek részesedése majdnem eléri a szövegminta állományának 50%-át, a tőelőfordulásoknak pedig a 77%-át is meghaladja; a tőelőfordulási hányados itt az 1. statisztikabelitől kissé elmarad: 6,13 (<6,26). Az egy-egy tőre jutó előfordulási sorrend további alakulása: 2. belsők 1,86; 3. ismeretlenek 1,82; 4. jövevények 1,70. — A kategóriák gyakorisági listáinak élén mind a tőkészlet, mind az előfordulások szempontjából a finnugor elemek csoportja áll: a korpusz tőállományának minden negyedik tagja finnugor örökség, a tőelőfordulások között pedig a finnugor eredetűek aránya 38%. A tőkészletet tekintve a második hely a maguk 14%-os részesedésével az ismeretlen eredetűeké, majd (szintén 10% feletti aránnyal) az uráliak és az ugorok következnek. A tőelőfordulásokat vizsgálva az első három helyen az alapnyelvi rétegek osztoznak:
a finnugoroké mögött az uráliak csoportjának aránya is 30% feletti, az ugoroké viszont 10% alatt marad.

    10. Azokat az elveket és módszereket, amelyeket etimológiai statisztikáim elkészítésekor szem előtt tartottam, illetőleg alkalmaztam, vitaalapnak szántam. Követésre alkalmas szempontrendszert és eszköztárat igyekeztem létrehozni a szakirodalom eredményeinek és néhány új gondolatnak, eljárásnak az ötvözésével. Maguk a statisztikák pedig összehasonlítási alapul szolgálhatnak a jövőbeli kutatásokhoz.

Ahhoz, hogy az etimológiai kategóriák arányairól megbízhatóbb képet tudjunk alkotni, szükség lenne a szövegminta növelésére. Annak megállapításához, hogy szókincsünk eredetkategóriái mekkora szerepet kapnak a nyelvhasználatban, természetesen más műfajokra, sőt a beszélt nyelvre is ki kellene terjeszteni a vizsgálódást. Magától értetődik, hogy szükség volna műfaji szempontokkal kombinált diakrón összevető statisztikai elemzésekre is: ezek elvégzése persze bonyolult feladat, de új és nagyon értékes eredményeket ígér (sőt garantál!), amelyeket a nyelvtörténet mellett más tudományokban (pl. irodalom- és művelődéstörténet) szintén feltétlenül hasznosítani lehetne. Az etimológiai statisztika módszerei és eredményei termékenyítőleg hathatnának az összehasonlító nyelvészeti és a tipológiai kutatásokra is. — Mindehhez szeretném hozzáfűzni, hogy a nagyobb és gazdagabb anyag feldolgozásához feltétlenül a számítógép segítségéhez kellene fordulni. [331]

Az etimológiai szempontú gyakorisági vizsgálatok az oktatás számára is kitűnő lehetőségeket kínálnak. Igen jól ismerte fel ezt Hajdú Mihály (l. Szóet. 1994. és 1997.). Előadásom elhangzása és a kézirat leadása után jutott el hozzám, illetőleg jelent meg két további olyan füzet, amelyet az ő irányításával írtak egyetemi tanítványai: a „Hét bibliafordítás összehasonlító etimológiai vizsgálata” című (Bp., 1997.) a Károli Gáspár Református Egyetemen, míg a „Lakatos Demeter két versciklusának szóetimológiai vizsgálata” című (Bp., 2000.) az ELTE bölcsészkarán készült. — Az EWUng. megjelenése után az Eötvös Loránd Tudományegyetemen és a Pázmány Péter Katolikus Egyetemen Gerstner Károly készíttetett hallgatóival etimológiai statisztikákat. A vizsgálódás tárgya egyrészt maga az EWUng. volt; ezt Keresztes László statisztikája nem tette feleslegessé: nemcsak azért nem, mert a Keresztes megállapította szócikkszám valamelyest eltér az EWUng. mutatókötetében (1997. 159) közölttől, hanem azért sem, mert olyan kategorizálási elveket és módszereket is érdemes kipróbálni, amelyek különböznek Kereszteséitől. Más dolgozatok szerzői pedig az EWUng. segítségével készítették el választott szövegmintájuk szókincsének etimológiai szempontú használati statisztikáját és az ahhoz kapcsolódó elemzést. A Gerstner-tanítványok dolgozatai publikálatlanok: ez az oka annak, hogy tanulmányomban nem hivatkoztam rájuk. Annyit mégis érdemes megjegyezni, hogy a szerzők (nyilván szemináriumvezetőjük tanácsára is) a Hajdú-tanítványoktól eltérően a szavaknak (és nem a töveknek) a használati statisztikáját állították össze. — Fontosnak és hasznosnak tartom Hajdú és Gerstner kezdeményezését: a gyakorisági felmérések során életszerűbbé és maradandóbbá válnak az etimológiai ismeretek, az egyetemi hallgatók gyakorolhatják a szótárhasználatot, felfedezhetik az etimológiai búvárkodás örömeit és nehézségeit, önálló döntésekre és érvelésre kényszerülnek.

Véleményem szerint tehát szükség is, lehetőség is volna arra, hogy az etimológiai kategóriák előfordulási arányaikkal együtt a kutatásban és az oktatásban a jelenleginél nagyobb szerepet kapjanak. Tanulmányommal erre szerettem volna felhívni a figyelmet. Célomat nemcsak akkor érném el, ha az etimológiai statisztikai vizsgálatomban érvényesített elvek és az alkalmazott módszerek követőkre találnának, hanem akkor is, ha más szerzők pontosítanák, gondos és meggyőző érveléssel felülbírálnák, illetve kiegészítenék őket.

* L. MNy. 2000: 170—81.

Horváth László

 

Vissza a Tartalomhoz

 

nyitólap

 

Proportions of etymological categories in contemporary short stories

See abstract on p. 181, MNy. 2., this year.

László Horváth

Back to Contents

 

Main page