Laurence Danlos
Informatikai nyelvészet – automatikus fordítás

Stanley Kubrick híres filmjében, a 2001. Ûrodüsszeiá-ban a HAL nevû számítógép megérti az embert, az õ nyelvén párbeszédet folytat vele, végrehajtja a parancsait, átérzi az érzéseit. 1968-ban Marvin Minsky, a film tudományos tanácsadója, a mesterséges intelligencia szakértõje úgy gondolta, 2001-ben valóban létre lehet majd hozni egy HAL-hoz hasonló számítógépet. Ma vajon közel állunk-e hozzá, hogy megalkossuk HAL-t? Elõadásomban megpróbálom elmagyarázni, miért vagyunk még messze ettõl.
Egy ilyen állítás persze nyomban bírálhatónak tûnik, hiszen manapság az informatikai lingvisztika (általánosabban: a mesterséges intelligencia) alkalmazásai egyre gyorsuló ütemben árasztják el hétköznapjainkat. Számos autó beszél, minden szövegszerkesztõben van helyesírásellenõrzõ, az automatikus diktáló- és fordítórendszerek forgalma virágzik a piacon. Rendszeresen jelentenek be olyan fénymásolókat és telefonokat, amelyek képesek fordításra, a weben keresõmotorok kínálnak a talált szövegekhez kivonatolást vagy fordítást, virtuális személyi asszisztenst használhatunk, aki intézi a találkozásainkat, és így tovább. Egyszóval ma már nagyon is léteznek olyan alkalmazások, amilyeneket még csak elképzelni sem tudtunk négy vagy öt évvel ezelõtt. Akkor hát miért vagyunk oly messze HAL-tól? A kérdésre adott válasz egy kulcsfogalmon nyugszik: a megértésen. HAL létrehozásához az kellene, hogy a számítógép megértse a nyelvet, míg azok az alkalmazások, amelyeket ma kínálnak, nem tételezik fel a megértést, vagy ha igen, csak nagyon felületesen. Itt van a különbség: számítógépen ma még nem tudjuk szimulálni a nyelvértést.
Elõadásomat két részre osztottam. Az elsõben bemutatom azokat az alkalmazásokat, amelyeknél a számítógép anélkül kezeli az írott vagy a beszélt nyelvet, hogy bármit is megértene belõle (vagy ha igen, éppen csak). Közben azt is bemutatom, mit jelentene a megértés egy számítógép esetében, és megvitatjuk a humanoid robotokat is. A második részben egy sajátos alkalmazásról szeretnék beszélni, az automatikus fordításról, ahol a számítógépnek muszáj volna értenie a fordítandó szöveget – megértés nélkül lehetetlen fordítani. Az alkalmazás ürügyén megtárgyalunk majd néhány roppant nagy nehézséget, amellyel az írott nyelv automatikus kezelésénél találkozunk. Ezek a nehézségek magyarázzák a gyakori tévedéseket, amelyeket az automatikusan fordított szövegeknél megfigyelhetünk, és jelzik azt az utat is, amelyet meg kell tennünk ahhoz, hogy az emberi megértést számítógépen szimuláljuk.

***Értés nélkül vagy felszínes értéssel mûködõ alkalmazások

Két alkalmazást mutatunk be, az egyiket 1964-ben, a másikat napjainkban alkották. Így a már megtett és a még megteendõ utat is érzékeltethetjük.
1964-ben J. Weizembaum és MIT-s kollégái létrehoztak egy szoftvert, az Elizát, amely nemcsak akkor volt lenyûgözõ; még ma is az. A szoftver olyan írott párbeszédet szimulál, amely egy pszichoterapeuta és a páciense közt zajlik le. A pszichoterapeuta szerepét a számítógép játssza. Álljon itt példaként az egyik párbeszéd: a páciens válaszai, amelyeket emberi segédlettel rögzített a számítógép, dõlt betûvel szerepelnek, a pszichoterapeuta válaszai vastag betûvel.
– Jó napot, én vagyok az ön pszichoterapeutája. Beszéljen, kérem, a problémáiról.
– Nagyon aggódom.
– Miért mondja, hogy aggódik?
– A feleségem miatt.
– Beszéljen a családjáról.
– Imádom a gyerekeimet.
– Szeretném, ha beszélne a gyerekeihez fûzõdõ kapcsolatáról.
– Engem senki se szeret.
– Zavarja, hogy önt senki sem szereti?
– Igen, magányosnak érzem magam.
– Ebben talán szerepe van az ön szexuális életének is. Folytassa, ne féljen.
– ...
Alig hihetõ! A párbeszéd elképesztõ! Pedig a pszichoterapeuta-számítógép semmit sem ért, abszolúte semmit a páciens válaszaiból. Hogyan lehetséges ez? A pattern-matching technikával, amelyet most röviden elmagyarázok az iménti párbeszédet alapul véve.
„Jó napot, én vagyok az ön pszichoterapeutája. Beszéljen, kérem, a problémáiról.” Ez az egyik elõre felvett szöveg, amellyel a pszichoterapeuta-számítógép elkezdi a beszélgetést. A szöveget véletlenszerûen választották ki, számos hasonló tartalmú, elõre felvett szöveg közül.
„Nagyon aggódom.” Ez a páciens szabadon adott válasza, amely egy R1 változóban van elraktározva.
„Miért mondja, hogy aggódik?” A pszichoterapeuta kérdése csak morfoszintaktikus illeszkedés a karakterek láncolatához: miért mondja, hogy R1? A számítógépnek nem kell megértenie az R1 értelmét, hogy a kérdést feltehesse. Elég, ha az egyes szám elsõ személyt átalakítja magázó formára. Ha a páciens azt mondja: „Teljesen fel vagyok dobva”, a „pszichoterapeuta” nyugodtan megkérdezte volna: „Miért mondja, hogy fel van dobva?”
„A feleségem miatt.” Ez a páciens szabadon adott válasza, amely tartalmazza a „feleség” szót.
„Beszéljen a családjáról.” Ez a rendszerben rejlõ kérdése a pszichoterapeutának; ezt kell választania, ha a páciens válasza tartalmazza a „feleség”, „férj”, „apa”, „anya” stb. szavakat.
„Igen, magányosnak érzem magam.” A páciens szabadon adott válasza, amely semmi speciálisat nem tartalmaz.
„Ebben talán szerepe van az ön szexuális életének is. Folytassa, ne féljen.” Ez a pszichoterapeuta válasza, ha már végképp nem tudja, mit mondjon.

Összefoglalva: a pszichoterapeuta-számítógép semmit sem ért páciense megszólalásaiból: beéri azzal, hogy válaszokat generál az elõre rögzített több száz vagy több ezer válasz valamelyikét aktiválva, miközben végrehajtja a morfoszintaktikus átalakításokat (az egyes szám általában magázás lesz).
Csaknem negyven évvel Eliza után J. Cassel és MIT-s kollégái éppen egy szoftvert készítenek, a Reát, amely a legfejlettebb kutatásokat és technológiát testesíti meg. A szoftver lehetõséget ad szóbeli párbeszédszimulációkra egy ingatlanügynök és egy vevõ közt. Az ingatlanügynök szerepét egy humanoid robot játssza, azaz egy ember formájú robot, amely gesztusokkal, tekintettel és szavakkal is képes kommunikálni (ami „multimodális kommunikáció” néven ismert). A fejlõdés Eliza (1964) és Rea (2000) közt tekintélyes: az írott dialógusról áttértünk a szóbeli dialógusra (ami a felismerésben és a beszéd szintézisében bekövetkezett óriási haladásnak köszönhetõ), a számítógéprõl a humanoid robotra (ami a robotika óriási fejlõdésének köszönhetõ), végül áttértünk a multimodális  kommunikációra a különféle technológiák sikeres integrációjának köszönhetõen. Mi a helyzet a megértéssel? A haladás itt csekély: Rea nagyjából megérti, amit az ügyfele mond, de csak akkor, ha az ügyfél beéri azzal, hogy az ingatlant érintõ kérdéseket tegyen fel. Ha a lakásvásárlásról áttér az autóvásárlásra, Reának vége. Ami annak tudható be, hogy a megértési modulnak csak az ingatlanokra vonatkozó nyelvi vagy nyelven kívüli ismeretei vannak. Mindenekelõtt a szótára korlátozódik az ingatlanokkal kapcsolatos szókészletre. Általánosabban fogalmazva szó sincs semmiféle generikus megértési rendszerrõl, azaz olyanról, amely a hétköznapi beszédben és számos körülhatárolható területen (ingatlan, jog, orvoslás stb.) is mûködik. Jelen pillanatban a számítógép csak akkor képes megérteni egy szöveget (kiszámítani ennek a szövegnek a kellõképpen elvont szemantikai megjelenítését, hogy aztán ezt értelmezhesse), ha az valamely körülhatárolható területrõl származik, azaz nyelvileg és fogalmilag korlátozott. Ennek a korlátozásnak a technikai okait az elõadás második részében magyarázom meg.
A humanoidok korlátozott értését gyakran a következõ szavakkal fordítják le a médiában: „Rea észbeli képességei egy hároméves gyerekének felelnek meg.” Úgy gondoljuk, hogy minden ilyen típusú állítás alapjaiban téves. Nem azért, mert az életkort nem két vagy négy évben jelöli meg, hanem egyszerûen azért, mert megtévesztõ összehasonlítani egy humanoid robot mentális életkorát egy gyerekével. Ismereteink szerint nincsen olyan gyerek, aki csak egy körülhatárolt terület nyelvezetét (mondjuk a táplálkozásét) volna képes megérteni, és az összes többi területét (mondjuk a játékokét vagy a kedveskedésekét) nem. Ez még azokra a gyerekekre is igaz, akik nyelvi zavarokkal küszködnek. A nyelv elsajátítása (és a világ észlelése) kisgyerekkorban olyan mechanizmusok révén történik, amelyeket ma még kevéssé ismerünk, de biztosra vehetjük, hogy semmi közük azokhoz a mechanizmusokhoz, amelyeket egy Reához hasonló humanoidba építenek be; nála ugyanis a szókincset tudatosan az ingatlanok területére korlátozták, és fel sem merült, hogy megpróbálják a kört szélesíteni.
Gyakran halljuk azt is, hogy a humanoid robotok „lelkiállapotáról” beszélnek. Így például azt mondják, a humanoid „a lelkiállapotáról számol be”, amikor azt mondja: „Lemerültek az áramforrásaim”. Akkor viszont az autónk is a lelkiállapotáról értesít bennünket, amikor kigyullad az üzemanyagjelzõ piros fénye. Az elv tudniillik ugyanaz, csak a kommunikáció módja és a „közlõ” tárgy formája különbözõ. Elegendõ-e tehát az emberi forma és a vokális közlésmód ahhoz, hogy valamely tárgynak lelkiállapota legyen?

***Az automatikus fordítás

Az automatikus fordítás (a továbbiakban AF) rendszerében a forrásnyelvi (a továbbiakban Fny, például a francia) szöveget elektronikus formában viszik be az AF rendszerbe, amely a szöveget a célnyelvre (Cny, például az angol) ülteti át. Az elektronikus formában zajló fordítás nyomtatásra kész, de továbbítható a weben is.
Az AF a legrégebbi informatikai nyelvhez köthetõ alkalmazás: az AF-kutatások az informatika kezdeteivel egyidõsek (az 1940-es évek vége). Igen értékes alkalmazásról van szó, minthogy óriási szükség van rá. Így például az Európa Tanács hozzávetõleg egymillió oldalt fordíttat le évente, a multinacionális cégeknél pedig ez a szám megközelíti az évi egymilliárdot.
Az elsõ AF rendszerek szó szerinti fordításon alapultak, amit az 1. ábrán vázoltunk. A vezérszavak beazonosítása az Fny-en abból áll, hogy a fõneveket egyes számúvá, az igéket fõnévi igenévvé alakítja át a program. Az áttétel pedig nem más, mint hogy egy Fny-en megadott szóhoz a Cny-re fordított szót társítja (például „fekete” = black). A rendbetétel a Cny morfoszintaktikus szabályainak alkalmazását jelenti (például a jelzõ az angolban a szó elé kerül).

---------------
1. ábra – A szó szerinti fordítás

Le chat noir a mangé deux pommes (A fekete macska megevett két almát)
A VEZÉRSZAVAK BEAZONOSÍTÁSA FNY-EN

Le chat noir manger deux pomme (A fekete macska megenni két alma)
SZÓ SZERINTI ÁTTÉTEL FNY-BÕl CNY-BE
the cat black eat two apple

RENDBETÉTEL A CNY-BEN
The black cat ate two apples
--------------------

Persze túlságosan is jól ismerjük a szó szerinti fordítás korlátait, amely az adott mondatra (1) téves fordítást ad (2) a helyes fordítás (3) helyett.
1. Un pied-noir a mangé une pomme de terre. (Egy algériai francia [fekete lábú] megevett egy krumplit [földi almát].)
2. A black foot ate an apple of earth.
3. An Algerian-born Frenchman ate a potato.
A szó szerinti fordítás kudarcra van ítélve, hiszen tudjuk, hogy megértés nélkül lehetetlen fordítani. Az AF rendszernek tehát (elvileg) tartalmaznia kell egy elemzõ modult és egy generáló modult. Az elemzõ modul feladata a szöveg megértése FNY-en és a szöveg szemantikai megjelenítésének kialakítása. Ez kerül át aztán a generáló modulba, amely a szöveget a CNY-en létrehozza.
Csakhogy egy ilyen AF-rendszerarchitektúra inkább az elmélet, mint a valóság világához tartozik, mert nemigen sikerült eddig elemzõ és generáló modulokat létrehozni. Miért? Mert a nyelvben végtelenül sok kétértelmûség van. Az értelem/forma viszonyban nincs semmi egyértelmûség: egyfelõl egy adott lingvisztikai formának több értelme is lehet (ami az elemzésben vezet bizonytalan értelmezésekhez), másfelõl egy adott értelem többféle értelemmel is kifejezhetõ (ami a generálásban okoz bizonytalanságokat). A nyelvi kétértelmûségeket kizárólag az elemzésnél és kizárólag azonos alakú szavakkal fogjuk illusztrálni. Így a francia „le” lehet névelõ (a, az) vagy névmás (õt), a „savoir” lehet ige (tud) és fõnév (tudás). Az „avocat” ugyan mindig fõnév, de jelenthet jogászt (és akkor lawyer-nek fordítandó), és jelenthet gyümölcsöt is (ami avocado-nak fordítandó). Az esetek többségében az „avocat” kétféle értelme nem jelent valódi kétértelmûséget: az alább olvasható 4. és 5. példamondatban egy emberi lény könnyedén egyértelmûsíti a szót a kontextus alapján.
4. Zoé a mangé un avocat. (Zoé megevett egy avokádót)
5. Zoé a rendez-vous avec un avocat. (Zoénak egy ügyvéddel van találkozója)
A számítógép esetében azonban virtuális kétértelmûség van, amelyet az elemzõ modul hozott létre, hiszen az „avocat” szó mindkét jelentését ismeri. Ezt a virtuális kétértelmûséget kötelezõ feloldani, hogy elkerülhetõk legyenek a 6. és 7. példamondatban szereplõ hibás fordítások.
6. Zoe ate a lawyer.
7. Zoe has a meeting with an avocado.
Az azonos alakú szavak virtuális kétértelmûségének feloldása két feladat elvégzését kívánja meg:
– el kell végezni a fõnév szemantikai osztályba sorolását (az osztályok nevét nagybetûvel szerepeltetjük), például: az „avocat” GYÜMÖLCS, tehát ÉTEL / az „avocat” EMBER;
– meg kell állapítani az igei kiegészítõk szemantikai kategóriáját, például: EMBER eszik ÉTELT / EMBER találkozik EMBERREL.
A dolog azonban tovább bonyolódik, minthogy gyakran az igék is azonos alakúak. Így a „manger” (enni) szónak a 4. példamondatban említett értelmén túl a következõ jelentései lehetnek:
8. Ce poele mange beaucoup de charbon. (A kályha sok szenet fogyaszt)
KÉSZÜLÉK eszik ÉTELT
This stove uses a lot of coal.
9. Les grosses entreprises mangent les petites. (A nagyvállalatok lenyelik a kicsiket)
SZERVEZET eszik SZERVEZETET
Big firms swallow up smaller ones.
A 4. példa tehát kereszt-kétértelmûséget mutat: hogy egyértelmûsítsük az „avocat”-t, egyértelmûsíteni kell a „manger”-t, hogy egyértelmûsítsük a „manger”-t, egyértelmûsíteni kell az „avocat”-t. A kereszt-kétértelmûségek kombinatorikai robbanást okoznak, amelyet számszerûsítve így írhatunk le: ha egy mondatban n szó van (sz1, sz2... szi... szn), és ha az sz1 szónak k1 jelentése van (tehát általában k1 fordítása), akkor a számítógépnek K mennyiségû hipotézis közül kell választania, ahol a K = k1 x k2 x ... x ki x ... x kn. Úgy mondjuk, hogy az elemzõ modell „túlgenerál”, azaz a hipotézisek burjánzását idézi elõ. Ráadásul az is megesik, hogy egy azonos alakú szót nem lehet egyértelmûsíteni sem a közvetlen szövegkörnyezet alapján (a mondatban, ahol megjelenik), sem tágabb kontextusban. Így a 10. példamondatban nem egyértelmûsíthetõ az „avocat” szó sem az „aimer” (szeret), sem a „véreux” (romlott) alapján, minthogy mindkét állítmány alkalmazható a gyümölcsökre éppúgy, mint az emberekre.
10. Zoé a aimé cet avocat. Pourtant, il était véreux. (Zoé szerette ezt a jogászt/avokádót. Pedig az romlott volt)
Zoé loved/liked this lawyer/avocado. However, he/it was shady/worm-eaten.
Hangsúlyozzuk, hogy a 10. példamondat szövege valóban kétértelmû, de beszédhelyzetben ritkán észleljük annak, például két személy párbeszédében, minthogy a beszélõk pontosan tudják, Zoé szerelmeirõl van-e szó vagy arról, hogy mit evett délben. Az AF-ben, vagy általánosabban a megértésben, ezt a tudást azzal szimulálhatjuk, ha az adott szövegek területét korlátozzuk: egy elemzõ modullal ellátott rendszer csak akkor produkálhat kielégítõ eredményeket, ha a terület zárt – például ha a jog, az informatika vagy ingatlan terepére szûkítjük le. Ilyenkor az elemzõ modul, amelyet a jog területére állítottak be, az „avocat” szónak csak a „jogász” értelmét veszi majd figyelembe, azaz korlátozza az azonos alakú szavakból következõ hipotézisburjánzást. Ez a módszer azonban, amely azért hibáktól sem mentes, csak egy kötelezõ közbülsõ állomás, mert ne feledjük, hogy az azonos alakú szavak csak illusztrációk a nyelv kétértelmûségeire: szemantikai típusú kétértelmûség, csakhogy vannak más szemantikai kétértelmûségek is (általában az igeidõk használata, például a jövõidejûségre alkalmazott jelen idõ – „Zoé vient demain” [Zoé holnap jön]), és a nyelv tele van más típusú – morfológiai, szintaktika, gyakorlati – kétértelmûségekkel is. A kétértelmûségek rendkívüli bõsége, amely egy szöveg esetében a kereszt-kétértelmûségek bonyolult hálóját adhatja, tényleges nagyságrendjében nem kezelhetõ, azaz nem tudjuk szimulálni az emberi megértést, amely a hétköznapi beszédet éppúgy érti, mint a technikaibb jellegû beszédmódokat.
Ez azonban nem jelenti azt, hogy az automatikus fordítási rendszerek lassacskán ne fejlõdnének, ám ez két tendencia mentén történik. A kutatólaboratóriumokban olyan prototípusokat fejlesztenek ki, amelyek a körülhatárolt területeken viszonylag kielégítõ eredményeket adnak. A piacon pedig virágzik a kereskedelemnek szánt termékek forgalma. Ezek gyakran adnak téves fordításokat, de legalább annak meghatározásában segítenek, mirõl szól a szöveg. Az ilyen termékek nagy szókészlettel rendelkeznek, PC-n mûködnek, és azonnal elkészítik a fordítást. Úgy vélhetnénk, a számítógépek teljesítményének növekedésével a két tendencia közeledik majd egymáshoz. Természetesen ez így lesz, de ennyi nem elég. Hatalmas munkát kell még elvégezni, azaz formalizálni és rögzíteni a számítógépben minden nyelvi és nyelven kívüli ismeretet, amivel biztosan nem végzünk, még 2002-re sem!

MIHANCSIK ZSÓFIA FORDÍTÁSA


Kérjük küldje el véleményét címünkre: lettre@c3.hu


C3 Alapítványc3.hu/scripta/