Az akadémiai helyesírási szabályzat és a számítógép

Napjainkban meglehetősen sok támadás éri a helyesírási normát, mivel azonban a normativitás szükségszerű voltát nehéz támadni, a kritika inkább a norma megvalósítására irányul. A konkrét megnyilvánulások eléggé ötletszerűek, a helyesírási szabályzat [1, 2]. egyes megoldásai ellen szólnak; ezeket erősen szubjektívnak ítélik, illetve azzal vádolják, hogy szemben állnak sokak közös nyelvérzékével.

E vita eldöntésében napjaink technológiai eredményei közül azok a számítógépes fejlesztések és produktumok kaphatnak szerepet, melyek a természetes nyelvek feldolgozására, kiszolgálására irányulnak. A helyesírás tekintetében is kiemelkedő szerepe a számítógépes írást elősegítő eszközöknek van.

Az írás és a számítógép

A számítógépes írás a nyelvi megjelenítés új generációja, elkülönül a korábbi írási technikáktól. Tekintsük át röviden az írás fajtáit a maguk történetiségében.

Thienemann az írás kialakulásáról így fogalmaz: Az írás „…láthatóvá teszi a nyelvet, és ezzel sokkal tökéletesebben, mint a szóhagyomány mnemotechnikai támaszai, az ismétlés, az alliteráció vagy a variáció, maradandóvá tudja rögzíteni a nyelvi kifejezést. Az írott betű hatalma abban rejlik, hogy a pillanatnyilag elhangzó és elmúló beszédet kiragadja az idő mulandóságából…, a térnek és időnek ismeretlen messzeségeibe elhangzóvá fokozza.” [3]

Az író ember csak lassan és bizonyos értelemben csak részben szakadt el a szóbeliségtől. Nemcsak arról van szó, hogy a régiségben kevesen írtak, bár ez is jelentős tényező, hanem arról, hogy aki ír, az is diktál magának, aki olvas, kiejti a szavakat. Az egyedfejlődés ebben az esetben is tükrözi a történelmi fejlődést: a kisgyerek néhány év alatt eljut odáig, hogy képes némán olvasni-írni. Ugyanakkor azonban bizonyosak lehetünk abban, hogy nincs olyan (felnőtt) ember, akinek tudatában ne jelenjen meg minden írás mögött a hangzó nyelv.

A könyvnyomtatás feltalálása óta eltelt korszakot szokás ma Gutenberg-galaxisnak nevezni (és fájdalmas könnyekkel elsiratni). Pedig nem csillagrendszer ez, hanem csak az írás idővilágának egyik bolygórendszere, mely születik és elpusztul. A nyomtatott könyv talán nem is akart minőségi különbséget hozni a kézírás technikájával készült kódexekhez képest. Thienemann idézi azt a mendemondát, hogy Gutenbergnek esze ágában sem volt „galaxist teremteni”, egyszerű hamisító volt, akinek első termékeit bizonyos Johann Faust kéziratként értékesítette [4].

Ami itt korszakos, az a szóbeliség háttérbe szorítása. A könyvnyomtatás feltalálásával ugyanis „a hallgatók közösségéből az olvasók társadalma lesz” [5].

Az írás, különösen a betűírás változatlanul a beszéd vizuális kódja, még akkor is, ha az idők folyamán egyre jobban „elnémult”, és eltérő sajátosságokat vett fel, olyannyira, hogy immár jogos az írást a nyelv különálló változatának tekinteni.

A nyomtatott könyv feltalálása a döntő forradalmi változást a tanulás terén hozta, hiszen a sokszorosítás új technikája révén lehetővé vált, hogy ki-ki a maga szobájának a sarkába bújva a saját könyvét olvassa, és közben a saját gondolatait fejlessze ki. Ez a tanulási technika az intellektuális teljesítmény nagymértékű fokozódásával járt.

Amikor McLuhan kitalálta a Gutenberg-galaxis robbanásának metaforáját, nem gondolt a számítógépre. Nem gondolt azért, mert 1962-ben, amikor hasonló című könyve [6] megjelent, még korántsem volt világos, előrelátható a számítógép szerepe a tömegkommunikációban.

Ray Bradbury, McLuhan kortársa a Fahrenheit 451-ben [7] a könyv haláláért a televíziót teszi felelőssé. Hasonló gondolatokat fedezhetünk fel Orwellnél [8] is. Szinte természetes, hogy a számítógépet, amelyik bizonyos értelemben folytatása, leszármazottja és hasonmása is a televíziónak, a gépek és számok iránt kevéssé érzékeny humán próféták nem tudják megkülönböztetni a többi elektronikus médiumtól. Pedig nem könyvpótlékként találták fel. Viszonylag későn és megalapozatlanul került a Gutenberg-galaxis antitézisei közé.

Adatkezelő, statisztikai képességei révén a számítógép korán szerepet kapott a nyelvtudományban. Ez azonban nem jelentett egyúttal nyelvi szerepet, ahhoz először meg kellett tanulnia írni (már tud), majd olvasni (tanulgatja), végül felolvasni és diktálásra írni (ez ma még kialakulóban van). Nem helyes azonban a gépet humanizálni, pontosabban az embernek nincs antropomorf gépre szüksége. A gép azt tudja jól, amire az ember csak korlátozottan képes!

A számítógép írástudása a szövegszerkesztők, illetve szedőprogramok kifejlődésével kezdődött. (Logikus lenne itt kitérni a grafikus képességek kifejlődésére is, azonban az más csillagképhez tartozik.) A folytatás egyszerű: amikorra a képernyő és a nyomtatók grafikus képességei elérték a hagyományos nyomdákét, megszülettek a megfelelő programok is a nyomdai munkák kiváltására, az úgynevezett asztali kiadványszerkesztők (Desktop Publishing).

A további út már valóban a csillagok közé vezet. Két létező eszköz, technika, a számítógép és a távközlés összekapcsolása új információs korszak kezdetét jelenti. Ma a világ különböző tájain élő emberek telefon vagy rádióhullám segítségével összekapcsolják számítógépeiket. Ennek az az eredménye, hogy az információs világ leszűkül, ugyanakkor az egyes ember lehetőségei a végtelenségig tágulnak.

A hálózati kommunikáció alapformái, a hálózati levelezés, illetve a hálózati hirdetőtáblák és újságok világa a kommunikáció lényegét érintő változást nem hoztak, viszont az átviteltechnika lényegesen olcsóbb és gyorsabb lett. Az igazi fejlődést a működő hálózatok világméretű összekapcsolódásából származó szuperhálózat, az internet hozta. Ez a gyors és könnyű levelezés lehetősége, melynek révén kialakult az írásos dialógus gyakorlata, és ezzel visszatérhettünk az ember kommunikációs kapcsolatainak interaktív formájához. Amikor az interneten a gép előtt ülők megszállottan „csevegnek”, visszatér valami, ami elmúlt (vagy inkább újjászületik), hiszen az írásos dialógus megtartja a szóbeli párbeszéd sajátos – nem tervezett, önmagára és a környezetre figyelő, a nem várt helyekről érkező hatásokat is magába építő – öntörvényű felépítését, ugyanakkor megjelenik a térben, ezzel elvileg az örökkévaló felé terjesztve ki saját magát (scripta manent).

A számítógépes írás

A számítógép és a hálózat révén kialakult kommunikációs formák mellett van a számítógépnek még egy nagy újdonsága, ígérete az írás terén. Az eddigiekben az írás gépesítésének minden eszköze passzív volt. Szolgálhatta az olvashatóságot, a sokszorosítási technikák révén a publicitást, az elérhetőséget, melyek lényeges tényezői a kommunikációnak. A számítógép azonban képes a szöveg módosítására, sőt bizonyos szinten szöveg önálló létrehozására. Nézzünk erre néhány példát:

A számítógéppel előállított szövegen most azokat a lehetőségeket értjük, amikor a számítógép – ugyan végső soron emberi forrásokból táplálkozva, de – önállóan módosít vagy hoz létre szöveget.

Az első ilyen forma a szövegszerkesztők keresés-csere funkciója, amikor az ember utasítására a gép megtalál egy megadott szöveget (ezen hangsúlyozottan jelkonfigurációt és nem szemantikai objektumot kell érteni), és kicseréli egy ugyancsak az embertől megadott másik szövegre. Például a szövegben a Péter név minden előfordulását Jánosra cseréli. Ennek során semmiféle nehézsége nem lesz a cserélendő szavak megtalálásával (próbálja meg valaki ezt manuálisan!), azonban a cserét követően egy csomó illeszkedési hiba lesz, hiszen ennek során a Péter magas hangrendű végződései nem változnak a János esetében használandó mély hangrendűekre.

Sok szövegszerkesztő képes arra, hogy a szöveg bizonyos kijelölt helyeire megadott forrásból válasszon ki egyes elemeket. Például a Word körlevelező programjával automatikusan címezhetünk leveleket valamilyen adatforrás, mondjuk a telefonkönyv alapján. Nemcsak a cím, hanem a levél egyéb részei is automatikusan illesztethetők az előre megírt szövegbe.

Jelentős mértékben önálló írótevékenységet végez a számítógép a listák automatikus számozásakor, illetve egyéb, úgynevezett mezőműveletek során, amikor a szöveg kijelölt részeit vagy különleges szövegelemeket (oldalszám, dátum stb.) ír fel önállóan más helyeken, ráadásul olyan módon, hogy a változásokhoz automatikusan igazodik (például a dátumot aktualizálja, vagy az élőfejbe a fejezetcímet írja).

Fejlettebb, ennek megfelelően önállóbb, többet szolgáltató automatizmus a helyesírás- és nyelvhelyesség-ellenőrzés, melyekre a későbbiekben részletesen kitérünk. Tulajdonképpen ez is keresés-csere, de beépített forrásokra támaszkodik, és lényegesen nagyobb a nyelvi alkalmazkodóképessége (pl. a hangrendi illeszkedés terén).

Más irányú problémát jelent a szövegfelismerés. Itt arról van szó, hogy a számítógép megfelelő digitalizáló eszközök segítségével maga olvas nyomtatott (kézzel írott) szöveget, amelyet értelmezni is próbál. Ennek során meg kell értenie a hibásan írt vagy nyomtatott szövegeket is.

Az automatikus szöveggenerálás egyik sajátos formája a gépi fordítás, amelynek általános (teljesen szabad szöveges) megvalósítása valószínűleg illúzió, azonban zárt szókincsű szövegek gépi fordítása nem ütközik akadályba.

A már csírájában létező beszédfelismerés is említendő, ahol egyrészt reagálnia kell a gépnek az emberi beszédre, illetve ennek egyik irányzatában ezt írássá kell átkódolni.

Végül szót kell ejteni egy más irányú, azonban az írás szempontjából igencsak lényeges kezdeményezésről, az SGML-ről, amelyik zárt szövegformák, például szótárak automatikus kialakítására szolgál (és ennek során szabványos szövegelemeket, pl. a szócikkekben szokásos utalószavakat automatikusan be is illeszt a szövegbe).

Látható, hogy a számítógép egyre több ember nélküli írási feladatot vállal, minek révén „önálló jogalannyá” válik a helyesírási norma tekintetében. Jogos tehát, hogy megvizsgáljuk e sajátos karakterű „jogalkalmazó” problémáit az alkalmazandó előírások vonatkozásában.

Miből áll a számítógépes szöveg?

A számítógép a világ minden jelenségét két egymástól megkülönböztethető áramimpulzus sorozatával ábrázolja, így a szöveget is. Az egyszerűség kedvéért két áttételes numerikus kódot alkalmaz, az első lépésben az ábécé betűit és a szöveg többi elemét jelöli tízes számrendszerbeli számokkal. (Figyeljünk fel erre! A számítógépes szöveg kódja az írott ábécét jelöli, az ábécé a beszédhangokat, így ez már a harmadik kódáttétel.) Minden betűnek egy két-, három- vagy négyjegyű szám felel meg. Kezdetben az angol ábécét a számítógép számára alkalmas 128-as számtartományon belül kódolták, ami azonban nem volt elegendő az angolénál több betűt tartalmazó nyelvek számára, ekkor áttértek egy 256 elemű kódrendszerre. Jelenleg már ennél is nagyobb kódtartományt használnak (a UNICODE, 2¹⁶ = 65 536 elemet tud ábrázolni), amely módot ad gyakorlatilag minden betűíró nyelv ábécéjének egyidejű ábrázolására.

A szöveg külalakját, tagolását a gép úgynevezett vezérlőkarakterek segítségével értelmezi, tárolja. Ezek a nyelvi kódnak ugyanolyan elemei, mint a betűk, esetleg a hatásuk tér el vizuális tekintetben (ezek a jelek a szövegben nem jelennek meg látható formában, de a gép érzékeli őket, és meg is tudja mutatni a jelenlétüket). Például a szóköz, amely a beszédben egyszerűen nem létezik, az írásban pedig hiány, a számítógépen ugyanolyan pozitív, létező jelenség, mint bármely betű (a kódja 32)!

Ezek a kódalakok teljesen homogének, mivel azonban viszonylag kis halmazt képeznek, a gép képes mindenféle tulajdonságukat megjegyezni. Így megadhatóak bizonyos fonetikai sajátosságok is, aminek a nyelv normatív alkalmazása során jelentősége lehet.

A számítógép és az írás fent jelzett kapcsolatai, viszonyai széles körű vizsgálódásokat tesznek lehetővé. Ezek sorából jelen esetben a helyesírást választjuk, a számítógép és a szabályozott helyesírás viszonyát. A címnek megfelelően a vizsgálat tárgya az AkH. és a számítógép, pontosabban a számítógépes írás.

Az akadémiai helyesírási szabályzat a számítógép felől

A magyar helyesírás szabályairól ebben a tanulmányban sem adunk új ismereteket, az eddigieket meghaladó részletességű elemzést, azonban szükséges, hogy felépítését áttekintsük a számítógép képességeivel, lehetőségeivel való összevetés szempontjából.

Vizsgálódásunk célja annak megállapítása, hogy miként tudja a számítógép a szabályzat utasításait végrehajtani. Ennek érdekében a szabályzat pontjait provokatív (tevékenységet indukáló) és deklaratív (magyarázó, összefoglaló stb.) részekre osztjuk. Részekről beszélünk, nem fejezetekről vagy szabálypontokról, hiszen a vizsgálat tárgyát képező elemek nem mindenütt esnek egybe a szabályzat pontjaival, a szabályokkal, az egyes szabályokon belül keveredhetnek a típusok.

A tanulmány további részeiben a provokatív részekre fordítjuk a fő figyelmet. A deklaratív szabályok általában közömbösek a számítógép szempontjából, bár nekik is vannak bizonyos összefüggéseik a számítógéppel, ha nem is reakciót kiváltó módon, hanem a működési terület kijelölésével, illetve alapfeltételek meghatározásával.

A tárgy vizsgálata során követjük a szabályzat struktúráját. A problémakitűzés azonban nem igazodik ehhez: sok pont a gépesítés tekintetében egyértelműen besorolható valamelyik kategóriába, ugyanakkor nem kevés az olyan, amelyik a gépesítés szempontjából különbözően értékelhető tényeket egyesít. Ennek figyelembe vételével megállapításainkat – a szabályzat szerkezetét követő áttekintés után – az általánosítható megállapítások szerint csoportosítjuk. Figyelmünket általában nem a szabályzat pontjaira, hanem az egyes szabályokban foglalt tényekre, nyelvi esetekre irányítjuk, bár az egyértelműség biztosítása végett hivatkozni a szabályok számaira, illetve alpontjaira fogunk.

Ez a vizsgálat óhatatlanul kritikus megállapításokhoz vezethet, mind az alkalmazott számítógépes módszerekről, mind az akadémiai helyesírási szabályzatról. A két oldal kritizálhatósága azonban nem azonos jogosultságú. Amikor az akadémiai helyesírási szabályzat jelenlegi kiadása elkészült, a most vizsgálandó szempontok még gyakorlatilag ismeretlenek voltak: az AkH. összeállítása során természetesen nem lehetett a számítógépesítés szempontjaira tekintettel lenni, így annak vizsgálata, hogy a szabályzat mennyire felel meg a számítógép követelményeinek, nem jogos, nem értelmes, anakronisztikus.

A számítógépes módszerek viszont még nem kiforrottak, folytonosan és gyorsan fejlődnek. Más területeken számtalanszor tapasztalhattuk, hogy a gép korlátai miatt kötött kompromisszumok hamar feleslegessé válnak. Például a közelmúltban felvetődött, hogy a magyar írásrendszerben engedélyezni kellene a kalapos , illetve a hullámos használatát, mivel a kétvesszős ékezet a magyar nyelv kizárólagos sajátja, és nem várható el, hogy a világ ezt a kuriózumot akceptálja. Jellemző példája ez a kis nemzet fölöslegesen alkalmazkodó szerénységének. Az első, úgymond nem ipari felhasználású számítógépes szedő-tördelő rendszer (Desktop Publishing System) kifejlesztője, Donald E. Knuth fontosnak tartotta, hogy rendszere, a TEX képes legyen írni ezeket a betűket [9]. Igaz, hogy környezetében, a Stanfordon nem kevés magyar is volt. Jellemző hogy azt a kódot, amellyel a kétvesszős ékezet létrehozható, Hungarian Umlaut-nak nevezi. A nagy fejlesztők is mutatnak hajlandóságot az ilyen kuriózumokhoz való alkalmazkodásra, aminek az okát a piaci viszonyokban találjuk meg: az eszközpiac telítődésének ellensúlyozására új szolgáltatásokat kell kínálni, melyek sorában például az elmúlt években nem kis hangsúllyal jelent meg a nemzeti nyelvek sajátosságainak figyelembe vétele. Ez a példa arra figyelmeztethet bennünket, hogy fenntartásokkal kell fogadni a fejlesztők olyan kijelentéseit, hogy ez vagy az lehetetlen.

A helyesírás „gépszerűtlenség”-ét, azaz a helyesírás elveinek és struktúrájának, illetve a számítógépesítés lehetőségeinek eltéréseit, ellentmondásait sem szabad eleve a norma kritikájának tekinteni. A helyesírási szabályzat emberek számára, az ember – a gépét intellektuális vonatkozásban messze meghaladó – képességeit figyelembe véve készült, nagy mennyiségben tartalmaz intuitív elemeket, amelyek a számítógéppel legfeljebb csak közelíthetők. Ezért a felvetődő problémák megoldását először a számítógép oldalán kell keresni, és nagyon meg kell fontolni, hogy ami ma megoldhatatlan, egy újabb eszköz vagy pusztán egy új ötlet megjelenésével és kifejlesztésével valósággá válhat. Mindazonáltal nem zárható ki, hogy a számítógépes módszerek alkalmazása valahol beleütközik a szabályzat szabta korlátokba, és a gépi módszerek alkalmazásának egyéb előnyei indokolttá tehetik, hogy egyes ilyen esetekben a szabályzat is „engedjen”.

Hogyan ellenőrzi a számítógép a helyesírást?

A helyesírás-ellenőrzés alapjában véve nem más, mint a bevitt jelsorozat és a számítógépen előre eltárolt, jónak tekintett minta betűről betűre, illetve karakterről karakterre történő összehasonlítása. A minta szótár formájában jelenik meg, a számítógép olyan mértékben „ismeri” a nyelvet, amilyen teljességgel tartalmazza a szótár a nyelv szókincsét. Az összehasonlítás a teljes azonosság megállapítására irányul. Ennek során tulajdonképpen mindegy, hogy betűket, írásjeleket vagy bármilyen más jelet hasonlítunk össze. Azonos eljárással lehetne mértani formákat, színes pontokat stb. összehasonlítani. Ezt azért szükséges hangsúlyozni, mert így látható, hogy az ellenőrzésnek ez a fázisa teljesen érzéketlen a szó jelentésével, nyelvi tulajdonságaival szemben. Emlékeztetünk arra, hogy a szöveget a számítógép számokkal kódolja, így tehát itt számpárok összevetésére kerül sor.

A szótár szavakat, tehát adott hosszú karaktersorozatokat tartalmaz. A számítógépbe vitt szöveg azonban folytonos jelsorozat. Ahhoz, hogy az összehasonlítás lehetséges legyen, a bevitt jelsorozatot fel kell osztani a szótári elemekkel azonos méretű diszkrét egységekre. A számítógép egyes kitüntetett karaktereket használ a szöveg tagolására. Ezek:

– a szóköz a szavak elhatárolására;

– a mondatzáró írásjelek, amelyek (több-kevesebb érvényességgel) a mondatokra való tagolást teszik lehetővé; és

– még más, a szövegszerkesztő megvalósításától függő jel, például a bekezdésjel.

(A Word szövegszerkesztőben a bekezdésnek, mint szövegegységnek az az alapvető ismérve, hogy mindig új sorban kezdődik. Emellett azonban a Word számos funkciója erre az egységre szervezve valósul meg. Így a bekezdésvége-jel egyúttal mindig szó, illetve mondat végét is jelöli. Ez a tagolás azonban nem mindig egyezik meg a nyelvi tagolással. Például, ha egy mondat matematikai képletet tartalmaz, és azt középre kell zárni, a Word ezt csak két vagy három bekezdés segítségével tudja megoldani, melyeket ő minimum 3 mondatnak érzékel. A nyelvi felületen ez egyetlen mondat, ebből következően itt a helyesírás-ellenőrző hibát fog jelezni, mégpedig azt, hogy „a mondatot nagybetűvel kell kezdeni”.)

A számítógépes ellenőrző eszközök fejlettségének mai állásán a helyesírás-ellenőrzés legnagyobb hatékonysággal a két szóköz között található karaktersorozatokra korlátozódik. Ez a magyar nyelvben elég erős korlátozás. Például az egybeírás-különírás hibái közül ezzel a módszerrel csak a hibás egybeírások vizsgálhatók, a hibás különírások nem. Lehetséges a szó értékű, de több szóból álló kifejezések vizsgálata is, azonban ez még nincs széles körűen, úgymond ipari szinten megoldva. Sokkal esetlegesebb viszont a szónál nagyobb szövegelemek, mondatrészek, mondatok, mondatnál nagyobb szövegegységek vizsgálatának lehetősége, ugyanis itt már nem lehet a szótáras hasonlító módszert alkalmazni.

Az ellenőrzés során a számítógép alapvetően a bevitt jel és a tárolt minta azonosságának megállapítására törekszik. Az ellenőrzés minőségét alapvetően meghatározza, hogy a mintaszótár mennyi szót tartalmaz, és mennyire felel meg a normának. Az ellenőrzési módszer sajátossága szerint a program, ha egyezést talál, nem reagál. Ezt normális állapotnak tekinti, amikor nincs tennivaló, de el lehet kezdeni a következő egység vizsgálatát. Ez a helyzet azonban nem jelenti feltétlenül azt, hogy a vizsgált szövegrész helyes: ha a hiba elkövetése során létrejött torzulás eredménye önmagában értelmes szó (azaz megegyezik a szótár valamely elemével), és csak az adott szövegkörnyezetben válik értelmetlenné, illetve pusztán az író szándékától eltérővé, a számítógép ezt a hibát nem képes megállapítani.

A szöveg tagolása azonban nem csak a szóközökkel való szétválasztás mechanikus szintjén lehetséges. Vannak olyan számítógépes nyelvkezelő eszközök, melyek alkalmasak a kapcsolt morfémák szétválasztására is, azaz meg tudják állapítani a különböző szintű tövek határait és a kötött morfémákat. Az eredeti fejlesztések során, amelyek angol nyelvi környezetben folytak, lehetséges volt a nyelv lexikai állományának elfogadható teljességű halmazát szótárba foglalni. Az agglutináló nyelvek esetében azonban technikailag lehetetlen valamennyi lehetséges szóvariánst belefoglalni szótárba. Ezért olyan eljárásokat kell alkalmazni, amelyek az összetett morfémákat alkotóelemeire bontják. A lehetséges szóalakok nagy száma kezelhető mennyiségű egyszerű morféma kombinációja. Ha a kombinációkat fel lehet bontani, a szótárazást, illetve a keresést ezt követően csak az alkotóelemeken kell végrehajtani. Az agglutináló nyelveknél a szókincs elfogadhatóan teljes mintaszótárát csak ezzel a módszerrel lehet kezelni.

Sajátos helyzetet teremt ez a körülmény, hiszen mint említettük, a módszerek kifejlesztése angol nyelvterületen indult, és az angol nyelv szókincsének szótára kezelhető méretű. Így a fejlesztés kezdeti szakaszában fel sem vetődött a szótári anyag elemzésének igénye. A morfológiai elemzéses módszer kialakulásában minden bizonnyal döntő szerepe volt annak, hogy a magyar nyelvhez kellett helyesírás-ellenőrzőt fejleszteni. E munkák eredménye jelentősen megkönnyítette például a német nyelvi rendszer megvalósítását, hiszen „a német az angol felől vizsgálva nagy bonyolultságú, viszont a magyar felől meglehetősen egyszerű nyelv” [10].

A számítógépes helyesírás-ellenőrzés klasszikus, szótáras megoldása semmiféle nyelvi viselkedést nem vár el a géptől. A teendő nem különbözik a vonalkód beolvasásától vagy bármilyen mintahasonlításon alapuló kereséstől. Mindaddig, amíg a helyesírást csak izolált, egymással kapcsolatban nem álló morfémákon vizsgáljuk, ez potenciálisan tökéletes megoldás. Amennyiben a rendszer öntanuló, és a használata eléggé gyakori, a szótár viszonylag hamar tökéletes lesz.

Ha a mintaszótár az adott szövegekben előforduló összes alakot tartalmazza – beleértve a származtatott alakokat is – akkor nincs is más eszközre szükség. Ez a megoldás azonban, mint láttuk, csak néhány nyelvnél – pl. az angolnál – reális, a nagyobb ragozási rendszert megtartó flektáló nyelvek, illetve, mint említettük, az agglutináló nyelvek esetében mind a tárolás, mind az elérési idő tekintetében a számítógép képességeinek korlátaiba ütközik. Emellett az olyan nyelvekben, ahol a morfémák viszonylag szabadon kerülhetnek kölcsönhatásba egymással, a szótáras módszer minduntalan új morfémakombinációkkal találkozik, és igényli a szótár bővítését. (Ilyen nyelv a magyar, ahol például az összetétellel való szóalkotásnak elvileg nincs korlátja.)

A helyesírás alapelvei és a számítógép

A helyesírás alapelvei lényegében behatárolják a számítógépes ellenőrzés lehetőségeit.

A fonetikus elv az önmagukban álló morfémák ellenőrzése során problémamentes. A hang-betű megfeleltetés egyértelmű, az írásváltozatok száma sem olyan nagy, hogy irreálissá növelné a szótárazandó anyag méretét. A magyar nyelv ezen a szinten nem különbözik az angoltól, az utóbbira kifejlesztett helyesírási rendszerek a magyar nyelvet is kellően képesek kezelni.

Ugyancsak nem okoz nehézséget a hagyományos elv, hiszen ez is egy szótárazható mennyiségű és egyértelműen kialakult írásváltozatot eredményez. Megjegyzendő, hogy a hagyományos írás elve nem írási, hanem inkább ejtési probléma (pl. a Dessewffy név minden szótárban így szerepel, és nem az írását szokták elhibázni, hanem az ejtését). Az ezzel kapcsolatos, elsősorban kötőjelezési problémákra visszatérünk.

A problémák a szóelemző írásmódnál kezdődnek. A helyesírás igazi nehézségei a morfémailleszkedéskor keletkeznek, és ezeket nem lehet morfológiai elemzés nélkül megoldani.

Az esetlegesség, illetve a lehetetlenség szférájába lép át viszont a számítógépes helyesírás-ellenőrzés, amikor az értelemtükröztetés elvét kell érvényesíteni, ugyanis a számítógép egyelőre igen távol áll a szemantikától.

A helyesírási szabályzat mentén

A helyesírási szabályzattól a használók általában azt várják, hogy minden pontja végrehajtható legyen, azaz iránymutatást adjon. A szabályok jelentős része ezt is teszi, azonban nem mindegyik. Vannak olyanok, amelyek elvi állásfoglalást közölnek, mások történelmi vagy más háttérmagyarázatot adnak, megint mások pedig az utánuk következő szabálypontok előzeteseként, fejcímeként jelennek meg. Ezek mégsem tekinthetők a számítógép vonatkozásában indifferensnek, hiszen alapvetően meghatározzák a helyesírás-ellenőrzők feladatait, kitűzik az elérendő célokat, és meghatározzák a korlátokat. Kétségtelen azonban, hogy nem kapcsolódik hozzájuk konkrét számítógépes művelet, nem írnak le várható hibát, választási lehetőséget, nem provokatívak.

A teljesíthető (és gyakorlatilag teljesített) helyesírási szabályok élén a 3. szabály áll, amelyik a magyar nyelv betűkészletét írja elő.

A betűk írásával kapcsolatos szabályok tárgyalása során azonban vannak követhetetlen megoldások. Például a 6. szabály, amely a magánhangzók időtartamával foglalkozik (akar–akár stb.) gépszerűtlen, mégpedig nem azért, mert a gép nem tudja a hosszú és a rövid magánhangzókat megkülönböztetni, hanem éppenséggel azért, mert a köztük fennálló rokonságot nem érzékeli – adott esetben az a és az á közötti különbség számára ugyanaz, mint az a és a t közötti. Hasonló a helyzet a mássalhangzók esetében is (9. szabály: a megy és a meggy a számítógép számára szignifikánsan különbözik, soha nem fogja őket összekeverni). Megjegyzendő, hogy ezekben az esetekben nem a szabály lényege gépszerűtlen, hanem megfogalmazása, leírásmódja.

A számítógép a hosszú mássalhangzókat annyi karakterként kezeli, ahány betűből állnak. Például a karosszék, illetve a karosszéria szavakban levő ssz karaktercsoport a számítógép számára ugyanaz. Így a többjegyű mássalhangzók problémáját például az elválasztás során külön eljárással kell kezelni. (Megjegyzendő, hogy ez lehetséges és megoldott.)

Az ábécé kapcsán a számítógép a helyesírás-ellenőrzésen túl is megfelelő, a szabályzattal összhangban lévő megoldásokra képes. Ami a régies írásmódot illeti (12. szabály), ez kizárólag a mintaszótárat érintő kérdés: ha az adott alakokat belefoglalják a szótárba, akkor felismerésük, helyes használatuk a számítógép számára nem jelent tovább problémát. A 13. szabály (az idegen ábécék betűinek használata) elvileg nem okoz nehézséget, csak a legkorszerűbb számítógépek és programok képesek azonban egyidejűleg többféle ábécében írni.

A betűrendbe sorolás szabályainak követése követelményként határozható meg minden számítógépes rendszer számára, és teljesítésének nincsen elvi akadálya. (Tehát, ha a gép nem csinálja, ez a program – javítható – hibája.)

A kiejtés szerinti írásmód

A kiejtés szerinti írásmód elveit a 17–48. szabályok rögzítik. Az, hogy a kiejtéssel való összehasonlításra a gépnek – az akusztikus kommunikáció eszközei híján – nincs módja, nem okoz gondot e szabályok jelentős részének alkalmazásában. Vagy azért, mert a morfémák viselkedése kellően szabályos, vagy azért, mert az eltérések nem az írást, hanem az ejtést érintik.

E szabálykörben is vannak azonban olyan meghatározások, amelyeket a számítógép nem tud alkalmazni. Például a 27. b) szabály mintákat ad bizonyos megoldásokhoz (kéz-kezet, út-utat stb.). A számítógép természetesen képtelen a mintakövetésre, az „olyan, mint” a számára nem értelmezhető, csak abban az esetben, ha ez azonosságot jelent; ezeket a problémákat csak olyan mértékben tudja megoldani, amennyire az adott változás algoritmizálható és tipizálható.

A szóelemző írásmód

A szóelemző írásmód szabályai (50–85.) elsősorban amiatt érdekesek a számunkra, mert a 49. pontban megfogalmazott törvényszerűség teszi szükségessé a morfológiai elemzést a helyesírás-ellenőrzés során. Ezek a szabályok egyébként kevés problémát okoznak. Nagy részük nem az írás, hanem az ejtés problémái: a szabályok visszatérően az ejtés eltérését, devianciáját fejtik ki, míg az írás a morfológiai szabályok szerint történik. Ez egyaránt vonatkozik az egyszerű szószerkezetekre (hideg tél), a szóösszetételekre (szénpor) és a toldalékolásra (ablakban), valamint a hasonulás, az összeolvadás, a redukció és a hangzókiesés eseteire.

A 62. szabály (pl. sakk-kör) valóban az írás módjára vonatkozik, de ez sem jelent gondot a számítógép számára.

A hagyományos írásmód

A hagyományos írásmód különlegessége abban rejlik, hogy a leírt szót másképpen kell ejteni, mint ahogy az adott betűk általános hangalakjából következik. Ha a szótár megfelelően tartalmazza a hagyományosan írandó eseteket, a számítógép helyesen kezeli őket.

A számítógép problémája az eltérő morfológiai viselkedés. Általánosságban az rögzíthető, hogy az olyan esetek, amikor a hagyományosan írandó szó (többnyire név) alakja nem esik egybe fonetikus-szóelemző írásmódú alakkal, a számítógép számára közömbösek (pl. Kossuth nevének kezelése nem okoz gondot), a többi eset (pl. Nagy Péter) pedig gépszerűtlen, hiszen az eltérő írásmód szükségessége a szöveg jelentéséből következik, aminek figyelésére a számítógép nem alkalmas.

Az egyszerűsítő írásmód

Ez a szabálykör általában másutt is szabályozott eseteket tartalmaz. A többjegyű mássalhangzók kérdéséről korábban volt már szó, más esetekre később visszatérünk. Annyit szükséges megjegyezni, hogy a helyesírás-ellenőrző ennek a szabályozásnak a finomságait azért tudja követni, mert a morfológiai elemzés során képes bizonyos grammatikai szempontok figyelembevételére, pél-dául a szófajok, a toldalékfajták felismerésére.

A különírás és az egybeírás

Ez a szabálykör (92–142. szabály) önmagában véve rendkívül bonyolult, és sok hiba forrása. Ennek megfelelően a számítógép lehetőségei is korlátozottak. Elvi probléma is van: mivel a számítógép a helyesírás-ellenőrzést olyan szövegelemen végzi, amelyik két szóköz közé esik, a téves egybeírást képes megállapítani, de a téves különírást nem.

Emellett általánosságban meg lehet állapítani, hogy az ide tartozó problémák kontextusfüggőek, a jelenleg alkalmazott számítógépes megoldások pedig a szövegkörnyezet értelmezésére alkalmatlanok.

Tipikusak ebben a szabálykörben az olyan esetek, ahol a helyzettől függően kétféle lehetséges írásmód közül kell választani (pl. a 112. szabály az -ó, -ő képzős melléknévi igenevet tartalmazó szerkezetek egybeírása vagy a 135. szabály: mintha, egyrészt stb.). A helyesírás-ellenőrzés nem rendelkezik eszközzel ahhoz, hogy eldöntse, az adott esetben melyik írásmód szükséges. Ilyenkor két eljárás lehetséges: a számítógép csak az egyik alakot fogadja el helyesnek, mely ilyen esetben általában a különírás; a másik az, hogy mind a kettőt elfogadja.

Ezzel szemben az alárendelő összetételekben nagy szerepet játszó jelöletlenség vizsgálatára a számítógép teljes mértékben alkalmas.

A kis és nagy kezdőbetűk

A kis és nagy kezdőbetűk esetében az alapértelmezés a kisbetűs írás. Ez önmagában nem problematikus, a gépnek az ettől való eltérést kell ellenőriznie.

A nagybetűs írás indokoltságának vizsgálatára a gép korlátozottan képes. A közismert, elfogadott nevek esetében segíthet a szótár. Láttuk azonban, ha egy név közszóval egybeeshet, a számítógépnek nincs módja ezt megállapítani. Ugyancsak képes a gép arra, hogy a mondatkezdő betűt ellenőrizze. Ennek azonban van veszélye is, mivel a mondathatárt a számítógép rendszerint olyan formális jegyek alapján (írásjel, bekezdés vége) állapítja meg, amelyek nem minden esetben egyértelműek. Pl. a Word szövegszerkesztő automatikus javításra felkínálja, hogy a pont utáni betűt nagybetűre javítja. Mivel a pont nemcsak mondatot zárhat, hanem a sorszámnevek és a rövidítések után is szabályosan áll, ezt nem lehet ellenőrzés nélkül elfogadni.

A felhasználó azonban hajlamos a gépi megoldásokat kritika nélkül elfogadni. Lényeges, hogy az adott jelenség mennyire mélyen vésődik be a tudatába. A mondatkezdő nagybetű kényszere az erős beidegződések közé tartozik. Bizonyosnak vehetjük, hogy a felhasználó csak ritkán kezd mondatot kisbetűvel, és ha mégis, ezt a hibát általában felfedezi és ki is javítja, ezért ezt a gépi segítséget ajánlatos kikapcsolni. A sorszámnév használata során a géptől nagybetűsre javított szavakat azonban sokan nem korrigálják, hanem elfogadják helyesnek, elhiszik, hogy ezt így kell írni. Ez a jelenség ma már megfigyelhető, kérdés azonban, hogy ez oka vagy következménye-e a szövegszerkesztők ilyen szolgáltatásának.

A tulajdonnevek írása

A tulajdonnevek írásmódját illetően (154–201. szabály) abból kell kiindulni, hogy a tulajdonnevek is szótárazhatók, és ennek során természetesen a kívánt vagy javasolt írásmód is rögzíthető a szótárban. Gond akkor keletkezik, ha a tulajdonnév egybeeshet valamely közszóval, mert a gép azt nem tudja eldönteni, hogy az adott előfordulás tulajdonnév-e vagy köznév. Emiatt a 154. a) pont (a nagybetűs írás a köznévtől való megkülönböztetés eszköze) tipikusan gépszerűtlen, hiszen a nagybetűs írás megkülönböztető szerepének eldöntésére a számítógép általában képtelen. Némileg más a helyzet a b) pont esetében, hiszen az egybeírt alakok a szótárban elkülöníthetők.

Az idegen közszavak és tulajdonnevek írása

A 202–238. szabálykörben tárgyalt problémák jelentős mértékben a mintaszótár teljességét illetik.

Különös probléma akkor merül fel, amikor e szavakban a magyar ábécében nem szereplő betűk is szerepelnek, ezzel fentebb már foglalkoztunk.

Szükséges azt is megemlíteni, hogy a szövegszerkesztők általában lehetővé teszik, hogy a vegyes nyelvű szövegeket – speciális megoldások alkalmazásával – az egyes nyelvek saját ellenőrzőjével egy menetben vizsgáljuk.

Az elválasztás

Az elválasztás (223–238. szabály) alkalmazásának puszta ténye nem helyesírási kérdés, a szabályzat csak az alkalmazás módjára vonatkozik. A számítógép lényegében minden elválasztási szabályt képes ellenőrizni, mi több, automatikusan alkalmazni is.

Gondot azok a szavak okoznak, amelyek egy összetett, illetve egy egyszerű szó homonimái (megint, felül, legelőre stb.). A helyesírás-ellenőrző e szavak jelentős részét nem engedi elválasztani. Ezek sorában van közel húsz szótározott eset, azonban gyakran előfordul, hogy valamilyen rag hozzátétele révén keletkezik ilyen alaki egybeesés (jellemző például az országút szó, amely kétféleképpen elemezhető), melyek kezelése problémát jelenthet.

Az idegen szavak elválasztásában van néhány apróbb eltérés:

– a 230. a) szabály (idegenes magánhangzó-csoportok) csak külön kivételszótárral oldható meg;

– a 230. b) pont (mássalhangzó-csoportok) döntési szempontja (egy hangot jelölő msh.) nem kezelhető géppel.

Az átlátható esetek kivételszótárral megoldhatók, általános megoldás azonban csak a forrásnyelvi ellenőrző használatával lehetséges.

Az írásjelek

Az írásjelek számítógépes ellenőrzése-javítása csak kis mértékben lehetséges.

Leginkább még az összetett szavak kötőjeles írásmódja közelíthető meg, de ez is csak abban az esetben, ahol ez eléggé egyértelmű (pl. az ún. 6–3-as szabály).

A kötőjel használatáról általában azt lehet megállapítani, hogy a gép csak akkor fogja a jelenlétét hibának jelezni, ha két olyan szó közé kerül, amelyek között sohasem állhat. (Ha van ilyen!) Minden olyan esetet, amely maga vagy analógiája kötőjellel is íródhat, a gép helyesnek ítél, a gyakorlatban a helyesírás-ellenőrző ilyen hibát nem fog jelezni. Mint nem ritka hibát érdemes megemlíteni, hogy az elválasztás nem megfelelő alkalmazása miatt gyakran marad a szöveg belsejében kemény elválasztójel. Ez lényegében azonos a hibás kötőjelírással, de csak véletlenül kerül szóhatárra. A helyesírás-ellenőrző ennek a hibának a javítására kiválóan alkalmas.

Ugyanakkor a kötőjel hiányát érzékeli, például a 6–3 szabály hatálya alá eső szavaknál, a „szokatlan, alkalmi összetételek” azonban géppel nem fedezhetők fel.

A tagmondatok közötti írásjelek használata értelemtől függő. Pl. a 243. c) szabály, amelyik a mint kötőszóval foglalkozik, gépesíthető, de arra természetesen alkalmatlan a gép, hogy a -ként értelmű (vessző nélküli) eltérő esetet külön kezelje, mert ennek kritériuma a kontextusból következik.

A 240. pont (mondatzáró írásjelek) vizsgálalata strukturális akadályba ütközik. A helyesírás-ellenőrző a mondatot az írásjel alapján határolja el, így általában nem képes ennek hiányát felismerni (az adott szövegrészt csak akkor tekinti mondatnak, ha írásjelet talál a végén), illetve a mondathatár és a bekezdéshatár összemosása a szövegszerkesztők használatának bizonyos sajátosságai miatt tévedéseket okoz.

A 266–275. szabályok az írásjelek használatának különböző szokásokat tükröző megoldásait tartalmazzák. Többnyire olyan szerzői szándékot fejeznek ki, amelynek a mondatban egyéb jele nincs (sok esetben még a mondat jelentéséből sem következik), így ezek hiányát vagy esetleg hibás jelenlétét a gép nem tudja ellenőrizni. Természetesen itt is lehetnek ellenőrizhető részmegoldások, például azok a rövidítések, amelyek belekerülnek a szótárba a pont tekintetében, vagy az idézőjelek használatánál az alsó-felső váltakozás.

A rövidítések és a mozaikszók

A rövidítések vizsgálata (276., 282. szabály) szótározással megoldható. Az AkH. 282. szabályában felsorolt rövidítéseket a számítógép helyesen kezeli. Természetesen itt sincs mód az úgynevezett értelmes hibák javítására. Így az ’állami’ jelentésű áll rövidítés pont nélküli alakját a gép sohasem fogja hibásnak ítélni, ezzel szemben az ún. pont nélküli alakjánál olyan figyelmeztetést kapunk, hogy vagy az u rövid, vagy pont kell a szó után.

A mozaikszavak kezelése is megoldható szótár segítségével. Általános megoldásra azonban nincsen mód, mert a helyesírás-ellenőrzés során a nagybetűket és a kisbetűket nem szabad megkülönböztetni. Ha ezt tennénk, például csupa nagybetűs szövegben nem lehetne helyesírás-ellenőrzést alkalmazni. (Megjegyzendő, hogy pl. a Word helyesírás-ellenőrzőjében mód van arra, hogy a nagybetűs szavakat kizárjuk a vizsgálatból.)

A számok írása

A betűvel írt számok esetében a számítógépes ellenőrzés csak korlátozottan alkalmazható. A szabályzatban előírt formát a program helyesnek tekinti, hosszabb számok esetében felismeri a hibás tagolást, azonban nem veszi hibásnak a szóközzel való tagolást, és a legálisnak tekinthető helyzetekben mindenütt elfogadja a kötőjelet, még akkor is, ha annak használata nem indokolt (pl. negyvenhétezer-ötszáz-hatvanhárom). Ismeri viszont a 289. a) szabályt, amelyik kétezertől ír elő eltérő formát (egyezernégyszázhetvenkettő; kétezer-négyszáznegyvenkettő). Ezzel a szabállyal kapcsolatban megjegyzendő, hogy a megfogalmazása félreérthető, ugyanis a „szokásos hármas számcsoportok” szerinti tagolás csak a számjegyes írásmódra értelmezhető. Pl. a kétezer-kettő így betűvel írva összesen három számnévből áll, mégis kötőjellel kell írni.

Nem gépesíthető szabálytípusok

Vannak szabályok, amelyek a szabályzat szervezésében töltenek be funkciót: fejcímek, egymással bizonyos tekintetben azonos kategóriába tartozó szabályok összefoglaló leírásai, melyeket az utánuk következő néhány – azonos szinten számozott – szabályleírás követ. (Lehet, hogy célszerűbb lenne e pontokat eltérő módon számozni.) Ilyen szabálypont például a 19., amely a 20–32. szabályok preambuluma, önmaga követhető előírást nem tartalmaz.

Ide sorolhatjuk azokat a pontokat, illetve részleteket, amelyek rendeltetése nem valamely eljárásmód megfogalmazása, hanem megmagyarázása, megindokolása, megértetése. Ezek a szabálypontok igen jelentősek a helyesírás elsajátítása tekintetében, azonban egyrészt olyan apparátusra támaszkodnak (ejtés, szövegkörnyezet, nyelvérzék, nyelvtörténeti ismeretek), amelyek a számítógép számára – egyelőre – nem megközelíthetőek. Ilyen voltaképpen az 1., a 2. és a 3. szabály.

A szabályzat magától értetődő módon olyan pontokat is tartalmaz, amelyek az összeállítók oktatási tapasztalatait tükrözik. Ilyen például a 74. szabály, amely az új szó nyelvjárási hosszú ejtésével foglalkozik. Bár a szabályzat ezt így nem írja le, nyilvánvaló, hogy ez egy tipikus hibahelyzet. Ezért kap helyet a szabályban az ujj szó írásának részletezése, annak ellenére, hogy ezt spontán módon általában senki nem hibázza el (az ejtés és az írás minden esetben egybeesik), szemben az új szóval. A szabályzat nagyon helyesen foglalkozik azokkal az esetekkel, amelyek a nyelvhasználók egy részének problémát okozhatnak. Ezek közül azonban csak azok relevánsak a számítógép számára, amelyek esetében az alapértelmezéstől való eltérés a probléma. Az a veszély, hogy a beszélő speciális eljárást alkalmaz, és a szabálypont a főmederbe kívánja visszaterelni, nem ad feladatot a számítógépnek.

Az ejtéssel foglalkozó szabálypontok

A beszéd és az írás közötti összefüggés a helyesírás szabályozásában nem hagyható figyelmen kívül. Ez az összefüggés azonban kétféleképpen jelenhet meg:

– hogyan kell leírni ezt vagy azt a hangalakot;

– hogyan kell ejteni ezt vagy azt az írásképet.

A nyelv használata során a két fő fizikai megjelenési forma, az akusztikus és a vizuális, párhuzamosan él a nyelvhasználó tudatában. Sok olyan ember van, aki írás közben hallja is a szöveget, mintegy diktál magának. Nagyon sok esetben az a helyesírási hiba forrása, hogy az író ember kezét a „füle” vezeti. Jellemző, hogy a nyelvi humornak az a vonulata, melyet Rejtő Jenő nagy népszerűséggel képvisel, éppenséggel a szélsőségesen alkalmazott fonetikus írásra alapoz. A helyesírási szabályzatnak van egy ezzel összefüggő didaktikai vonala. Vannak olyan szabályok, amelyek nem tükröznek nyelven belüli összefüggéseket, hanem az írott és a hangzó nyelv egymásnak való megfelelésében szükségképpen megjelenő viszonylagosságot óhajtják egyértelművé tenni.

A számítógép számára (legalábbis egyelőre) az ember-gép kommunikáció alapformája az írás. Ennek során az ember belső hallása folytán érintkezik a beszéddel, a számítógép azonban nem. A számítógépnek sem belső hallása, sem akusztikus emlékei nincsenek, így ilyen jellegű hibákat nem tud elkövetni, de a javítás során sem tud ezekre támaszkodni.

Az analógia és az asszociációk hiánya

A számítógép intellektuális képességeinek viszonylagosságát bizonyítja, hogy a helyesírás-ellenőrzés nem, illetve csak elenyésző mértékben képes asszociációs megoldásokra, a vizsgált szöveg és a szótár közötti megfelelésnek betűről betűre, vonásról vonásra 100%-osnak kell lennie. (Az más kérdés, hogy elindult a fejlesztés a rögzített alakok variációs terének kialakítására. Ez teszi lehetővé, hogy a helyesírás-ellenőrzők a hibás szóalakok javítására vonatkozó javaslatokat tegyenek. A művelet azonban a betűkészlet variációs behelyettesítésén alapul. Tudomásom szerint ebben asszociációs szempontok egyelőre nem érvényesülnek, a mechanikus behelyettesítés idő- és eszközigényességét legfeljebb statisztikai módszerekkel próbálják csökkenteni.)

A 27. szabály az í, ú, ű hangot tartalmazó szavak kétféle viselkedését írja le. Több eltérő formát ismertet, melyek tendenciái nincsenek feltárva. Az embernek erre nincs is szüksége, mivel ha ép nyelvérzékkel rendelkezik, analógiák segítségével releváns helyzeteket is meg tud oldani, fiktív alakokat is képes helyesen alkalmazni. Erre a számítógép nem alkalmas. Tűnjön ez a dolog bármilyen kicsiségnek, az emberi agy olyan képességeit veszi igénybe, amelyek ma még nemhogy nem utánozhatók, de valószínűleg még egyértelműen megfogalmazni sem lehet őket.

Ez a szabálypont mutat példát arra, hogy a mintahasonlításos helyesírás-ellenőrzés milyen esetben válik alkalmatlanná – a szemantikai vizsgálat lehetősége hiányában – a hiba megállapítására: az irat-írat pár ellenőrizhetetlen.

Szemantikai döntés

A mellérendelő összetételekkel foglalkozó 100. szabály megkülönbözteti az alkalmi, illetve a jelentésváltozáson átesett összetételeket. Ennek a megítélésére a számítógép alkalmatlan. A süt, főz, illetve a süt-főz írásmód eltérő szerepe géppel nem kezelhető. A helyesírás-ellenőrzés emiatt mind a két esetet elfogadja, mivel egyikre nézve sincs kifejezett tiltás. Gépszerűtlenek az olyan kritériumok, mint „két, azonos szerepű toldalékkal ellátott szó…”, mivel az „azonos szerep” megítélése nem áll a gép módjában.

A 213. pont a meghonosodott idegen szavak változó írásmódját határozza meg. Ennek szempontját is csak a mondat tágabb szövegkörnyezetében és tartalmi jegyek alapján lehet meghatározni, amire a gép nem alkalmas.

Az író szándéka

A számítógép magától értetődően nem képes a szerző szándékát kitalálni, következésképpen nem gépesíthetőek az ezzel kapcsolatos helyesírási döntések sem.

A 30. szabály (borjút–borjat; lét–levet) éppenséggel nem tiltó, hanem megengedő. Ez annyiban kedvező a számítógép szempontjából, hogy csak arra kell gondot fordítani, hogy a gép a lehetséges alakváltozatokat elfogadja, tehát ha a szótárba vagy a programba bekerülnek, a gép nem vizsgálja őket. A választásra a számítógép azonban alkalmatlan. Be kell látni, hogy ez voltaképpen ránk, emberekre is vonatkozik: kevés az olyan ember, aki tudatosan képes az alakváltozatok közül választani, a legtöbben érzés, nyelvérzék alapján döntünk, és nem ismerjük föl, ha hibázunk. Ugyanakkor a hibás választás tudatos is lehet, hiszen ez is alkalmas mögöttes tartalom kifejezésére.

Előfordulhat, hogy valaki egy szöveget kiemelés célzatával végig nagy betűkkel ír. Ezt helyesírási szempontból nem lehet kifogásolni, de ebben az esetben azok a helyesírási szabályok, melyek a kis- és nagybetűk különbségét írják elő, értékelhetetlenné válnak.

Sok esetben, főleg levelekben fordul elő, hogy a nagybetűs írás tisztelet jele vagy udvariassági forma, ugyancsak tipikus a nagybetűs írás költeményekben (150. szabály). A számítógép ezeket a szempontokat természetesen nem érzékelheti, bár vannak olyan megoldások, amelyek ebbe az irányba mutatnak (pl. a megszólítást a gép írja a levélre).

Következetlenségek

A szabályzaton belül van néhány következetlenség, amelyek oka történetileg minden bizonnyal megfogalmazható, a számítógépes megoldást azonban – ha nem is döntő fontosságú kérdésekben – akadályozzák.

Az idegen szavak toldalékolásával kapcsolatos szabály (217.) gépesíthető. Gondot okoz azonban, hogy a néma hangra, pontosabban nem ejtendő betűre végződő szavak toldalékolása az előírás szerint másképp történik, mint a hagyományos írásmódú személyneveké (Voltaire-rel – Móriczcal).

Sajátos, a szabályzat következetességét sértő helyzet tükröződik a 262. szabály a) pontjában. Ez a szabály a három azonos mássalhangzó egymás mellé kerülése esetén kötőjelezést ír elő. Egyúttal hivatkozik a 62. szabályra, illetőleg a 94. szabályra, amelyek egyértelművé teszik, hogy más az eljárás a magyar közszavak, illetve a magyar családnevek, az idegen tulajdonnevek és az összetételek esetében (sakk-kör, de sakkal; Mariannal, de Mann-nal; Mann-né és Mann-nal). Az összetételek kezelése a számítógépnek nem okoz gondot, ugyanakkor a családnevek, idegen tulajdonnevek gépi azonosítása csak a szótározott egyedeknél lehetséges, az előre nem látott szavakat a gép nem tudja kezelni.

Lehet, de nem éri meg mindig

Bizonyos szabálypontok érvényesítése elvileg nem okoz gondot a számítógépnek, a ritkán előforduló, kivételes helyzetek kezelése azonban akkora munkabefektetést igényelhet, amely aránytalan a gépi megoldás révén elérhető haszonnal.

A személynevek írásának különböző szabálypontjai általában mind gépesíthetőek (ha nincs köznyelvi párjuk). Problémát jelent azonban a 163. b) pont, amely a régies családnevek toldalékolásáról szól. Bizonyos kiemelt nevek esetében mód van az eltérések kivételszótáras megoldására, a fonetikus írásmódtól való eltérést azonban a gép automatikusan nem tudja követni. Ugyanígy szótárat érintő kérdés az idegen szavak meghonosodása. A helyesírás-ellenőrző rendszerek módot adnak egyéni szótárak kialakítására, melyek segítségével a gép megoldja a felhasználó speciális, egyedi problémáit, lehetővé teszi a jellemző esetek gyűjtését, így az ellenőrző rendszer „továbbképzését”. A karbantartást azonban nem lehet a gépre bízni, a felhasználónak magának kell elvégeznie.

Összefoglalás

Összefoglalásképpen vizsgáljuk a 95. szabályt a gépszerűség vonatkozásában. Emlékeztetőül, ez a szabály a különírás és az egybeírás csoportjának első, összefoglaló pontja.

Szöveg	Megjegyzés
„Az összefüggő szövegben egymás után következő szavakat általában egymástól külön írjuk le.”	Ez a gép számára magától értetődik.
„…két vagy több szó összekapcsolódásával keletkezett (azaz összetett) szavakat…” „…egybeírással vagy… olykor kötőjeles kapcsolással fejezzük ki.”	A gép tudja, hogy milyen fajú szavak alkothatnak összetételt, és milyenek nem. Azt, hogy a konkrét összetétel valójában létezik-e, a gép nem tudja eldönteni.
„Mondatainkban a szavak nagy többségükben alkalmi szókapcsolatok tagjaiként…”	A gép az alkalmiságot nem tudja megítélni.
„Egybeírjuk viszont az összetett szavakat. Ezek többféleképpen keletkezhetnek. …, hogy két szó kapcsolatának jelentése több vagy más, mint a tagok jelentésének összege.”	A számítógép számára a szavak nem jelentenek semmit; nem tud a jelentés alapján dönteni az írásmódról.
„Ha egy raggal jelölhető különírt szókapcsolat elemei… rag nélkül állnak együtt…”	A ragot és a szófajt a számítógép felismeri. Ha a szórend és a szófajok együtt arról tanúskodnak, hogy ott ragnak kellene lennie, és még sincs, a számítógép összetett szót ismer fel. Tehát ez az eset gépszerű.
„A meggyökeresedett szokást megtartva nemegyszer jelentésváltozás nélküli szókapcsolatokat is egybeírunk…”	A számítógép nem érzékeli a szokásokat, ez az elem gépszerűtlen.
„A jelentésváltozás miatt egybeírt összetétel alkotó tagjai természetesen alkalmi kapcsolatban kerülhetnek egymás mellé. Ilyen előfordulásukban külön kell írnunk őket…”	Az alkalmi kritériumot a számítógép nem tudja vizsgálni. A különírás az alapértelmezés, az eltérő eseteket a gép felülbírálásával érvényesítjük.
„A különírás és az egybeírás szabályai a szavakon … alapulnak. Helyesírásunk e területén mégis meglehetősen nagy számban vannak ingadozások, többféleképpen is megítélhető esetek.”	Az ingadozások általában nem algoritmizálhatók, tehát gépszerűtlenek. Ugyanakkor a megfogalmazható szabályosságok jelentős részét gépesíteni lehet, és a nyelvi helyzetekben a gép – ha önálló döntést nem is tud hozni – segítséget nyújthat a helyes megoldás kiválasztásához.
„…a különírás és egybeírás szabályainak megfogalmazása más szabálypontokhoz képest olykor határozatlannak látszik, bár valójában csak a hangos nyelv és az írás természetéhez alkalmazkodik.”	A számítógépnek a ma reálisan elérhető képességei nem alkalmasak a hangos nyelv elemzésére és modellálására.

Ezzel a dolgozattal nem célom bizonyítani a helyesírás-ellenőrzés lehetséges voltát, sem ennek terepét előkészíteni és megtisztítani az akadémiai szabályzatban. A helyesírás-ellenőrzés lehetősége tény, még akkor is, ha korlátai miatt vannak, akik alkalmazhatóságát, értelmét vitatják. Különösen jelentőssé válik ez a számítógépes szolgáltatás annak az ambivalenciának a tükrében, amelyik az író embereknek a helyesírási szabályokhoz való viszonyát jellemzi. A nyelvművelők tudják, hogy a helyesírásról folyó vitákban, a társadalom reagálásában igen sok az irracionális elem. Külön tanulmányt érdemelne, hogy ki miért érzékeny a helyes írásra, kit bánt a más hibája, kit idegesít, ha kijavítják, milyen hibát tartanak az emberek szégyellnivalónak, és melyek esetében hozakodnak elő a régi, de igazságtalan váddal, hogy „naponta változik”. Ennek kapcsán az a megfigyelésem, és nemcsak a szójáték kedvéért, hogy a helyesírás általában azon a pontjain népszerűtlen – amelyeken „gépszerűtlen”. Ez a szempont annyiban jelenthet változást a helyesírás értékelésében, hogy bízhassuk és bízzuk is a számítógépre az összes gépszerű hiba javítását. A számítógép úgy segít a hibák javításában, hogy az írónak nem kell félnie egy külső személy ítéletétől, így kevésbé frusztráló. Bízzuk tehát a géppel javítható eseteket a gépre, és az oktatás és a nyelvművelés erőforrásait koncentráljuk a népszerűtlen-gépszerűtlen helyesírási esetekre. Persze, ez csak akkor lehetséges, ha az emberek (és nem utolsósorban a magyar szakos tanárok) megtanulják, hogyan kell a gépet erre a célra használni.

SZAKIRODALOM

1. A magyar helyesírás szabályai. Tizenegyedik kiadás, 3. (változatlan utánnyomás). Akadémiai Kiadó, Budapest, 1986.

2. Szathmári István 1995. A magyar helyesírás alapjai. Nemzeti Tankönyvkiadó, Budapest, 1995.

3. Thinemann Tivadar 1931. Irodalomelméleti alapfogalmak. In: Halász László (szerk.): Vége a Gutenberg-galaxisnak? Gondolat, Budapest, 1985. 48–9.

4. Thinemann Tivadar: i. m. 141–2.

5. Thinemann Tivadar: i. m. 234.

6. McLuhan, Marshall 1962. The Gutenberg Galaxy. Toronto–London. In: Halász László (szerk.): Vége a Gutenberg-galaxisnak? Gondolat, Budapest, 1985.

7. Badbury, Ray 1966. Fahrenheit 451. In: Marsbéli krónikák. Európa Kiadó, Budapest. 277–450.

8. Orwell, George 1990. Az irodalom felszámolása. Európa, Budapest. 305–22.

9. Knuth, Donald. E. 1986. The TEXbook. Addison Wesley, 52.

10. Prószéky Gábor 1998. A magyar nyelvtan számítógépes közelítésben. Előadás a Magyar Nyelvtudományi Társaságban, 1998. március 31-én.

Kis Ádám

Kis, Ádám: The Academic Orthographical Regulations and the Computer. These days, many people condemn the official spelling standards. Critics rather object the implementation because it is difficult to question the need for standards. The criticism consists of ad hoc objections against particular rules in the spelling regulations. These rules either seem quite subjective (i. e. reflecting the linguistic taste of one or another committee member), or do not correspond to what many people sense as correct language use.

Some of today’s technical achievements, namely computer software for natural language processing, might help to make decisions in these questions. Among the software products, those that assist in writing with a computer – especially spelling checkers in word processors –, have special importance. This paper examines the relationship between the Hungarian Spelling Regulations [of the Hungarian Academy of Sciences] (Akadémiai Helyesírási Szabályzat) and a Hungarian spell checking system.