Stanley Kubrick híres filmjében, a 2001. Ûrodüsszeiá-ban
a HAL nevû számítógép megérti
az embert, az õ nyelvén párbeszédet folytat
vele, végrehajtja a parancsait, átérzi az érzéseit.
1968-ban Marvin Minsky, a film tudományos tanácsadója,
a mesterséges intelligencia szakértõje úgy
gondolta, 2001-ben valóban létre lehet majd hozni egy HAL-hoz
hasonló számítógépet. Ma vajon közel
állunk-e hozzá, hogy megalkossuk HAL-t? Elõadásomban
megpróbálom elmagyarázni, miért vagyunk még
messze ettõl.
Egy ilyen állítás persze nyomban bírálhatónak
tûnik, hiszen manapság az informatikai lingvisztika (általánosabban:
a mesterséges intelligencia) alkalmazásai egyre gyorsuló
ütemben árasztják el hétköznapjainkat. Számos
autó beszél, minden szövegszerkesztõben van helyesírásellenõrzõ,
az automatikus diktáló- és fordítórendszerek
forgalma virágzik a piacon. Rendszeresen jelentenek be olyan fénymásolókat
és telefonokat, amelyek képesek fordításra,
a weben keresõmotorok kínálnak a talált szövegekhez
kivonatolást vagy fordítást, virtuális személyi
asszisztenst használhatunk, aki intézi a találkozásainkat,
és így tovább. Egyszóval ma már nagyon
is léteznek olyan alkalmazások, amilyeneket még csak
elképzelni sem tudtunk négy vagy öt évvel ezelõtt.
Akkor hát miért vagyunk oly messze HAL-tól? A kérdésre
adott válasz egy kulcsfogalmon nyugszik: a megértésen.
HAL létrehozásához az kellene, hogy a számítógép
megértse a nyelvet, míg azok az alkalmazások, amelyeket
ma kínálnak, nem tételezik fel a megértést,
vagy ha igen, csak nagyon felületesen. Itt van a különbség:
számítógépen ma még nem tudjuk szimulálni
a nyelvértést.
Elõadásomat két részre osztottam. Az elsõben
bemutatom azokat az alkalmazásokat, amelyeknél a számítógép
anélkül kezeli az írott vagy a beszélt nyelvet,
hogy bármit is megértene belõle (vagy ha igen, éppen
csak). Közben azt is bemutatom, mit jelentene a megértés
egy számítógép esetében, és megvitatjuk
a humanoid robotokat is. A második részben egy sajátos
alkalmazásról szeretnék beszélni, az automatikus
fordításról, ahol a számítógépnek
muszáj volna értenie a fordítandó szöveget
– megértés nélkül lehetetlen fordítani.
Az alkalmazás ürügyén megtárgyalunk majd
néhány roppant nagy nehézséget, amellyel az
írott nyelv automatikus kezelésénél találkozunk.
Ezek a nehézségek magyarázzák a gyakori tévedéseket,
amelyeket az automatikusan fordított szövegeknél megfigyelhetünk,
és jelzik azt az utat is, amelyet meg kell tennünk ahhoz, hogy
az emberi megértést számítógépen
szimuláljuk.
***Értés nélkül vagy felszínes értéssel mûködõ alkalmazások
Két alkalmazást mutatunk be, az egyiket 1964-ben, a másikat
napjainkban alkották. Így a már megtett és
a még megteendõ utat is érzékeltethetjük.
1964-ben J. Weizembaum és MIT-s kollégái létrehoztak
egy szoftvert, az Elizát, amely nemcsak akkor volt lenyûgözõ;
még ma is az. A szoftver olyan írott párbeszédet
szimulál, amely egy pszichoterapeuta és a páciense
közt zajlik le. A pszichoterapeuta szerepét a számítógép
játssza. Álljon itt példaként az egyik párbeszéd:
a páciens válaszai, amelyeket emberi segédlettel rögzített
a számítógép, dõlt betûvel szerepelnek,
a pszichoterapeuta válaszai vastag betûvel.
– Jó napot, én vagyok az ön pszichoterapeutája.
Beszéljen, kérem, a problémáiról.
– Nagyon aggódom.
– Miért mondja, hogy aggódik?
– A feleségem miatt.
– Beszéljen a családjáról.
– Imádom a gyerekeimet.
– Szeretném, ha beszélne a gyerekeihez fûzõdõ
kapcsolatáról.
– Engem senki se szeret.
– Zavarja, hogy önt senki sem szereti?
– Igen, magányosnak érzem magam.
– Ebben talán szerepe van az ön szexuális életének
is. Folytassa, ne féljen.
– ...
Alig hihetõ! A párbeszéd elképesztõ!
Pedig a pszichoterapeuta-számítógép semmit
sem ért, abszolúte semmit a páciens válaszaiból.
Hogyan lehetséges ez? A pattern-matching technikával, amelyet
most röviden elmagyarázok az iménti párbeszédet
alapul véve.
„Jó napot, én vagyok az ön pszichoterapeutája.
Beszéljen, kérem, a problémáiról.” Ez
az egyik elõre felvett szöveg, amellyel a pszichoterapeuta-számítógép
elkezdi a beszélgetést. A szöveget véletlenszerûen
választották ki, számos hasonló tartalmú,
elõre felvett szöveg közül.
„Nagyon aggódom.” Ez a páciens szabadon adott válasza,
amely egy R1 változóban van elraktározva.
„Miért mondja, hogy aggódik?” A pszichoterapeuta kérdése
csak morfoszintaktikus illeszkedés a karakterek láncolatához:
miért mondja, hogy R1? A számítógépnek
nem kell megértenie az R1 értelmét, hogy a kérdést
feltehesse. Elég, ha az egyes szám elsõ személyt
átalakítja magázó formára. Ha a páciens
azt mondja: „Teljesen fel vagyok dobva”, a „pszichoterapeuta” nyugodtan
megkérdezte volna: „Miért mondja, hogy fel van dobva?”
„A feleségem miatt.” Ez a páciens szabadon adott válasza,
amely tartalmazza a „feleség” szót.
„Beszéljen a családjáról.” Ez a rendszerben
rejlõ kérdése a pszichoterapeutának; ezt kell
választania, ha a páciens válasza tartalmazza a „feleség”,
„férj”, „apa”, „anya” stb. szavakat.
„Igen, magányosnak érzem magam.” A páciens szabadon
adott válasza, amely semmi speciálisat nem tartalmaz.
„Ebben talán szerepe van az ön szexuális életének
is. Folytassa, ne féljen.” Ez a pszichoterapeuta válasza,
ha már végképp nem tudja, mit mondjon.
Összefoglalva: a pszichoterapeuta-számítógép
semmit sem ért páciense megszólalásaiból:
beéri azzal, hogy válaszokat generál az elõre
rögzített több száz vagy több ezer válasz
valamelyikét aktiválva, miközben végrehajtja
a morfoszintaktikus átalakításokat (az egyes szám
általában magázás lesz).
Csaknem negyven évvel Eliza után J. Cassel és
MIT-s kollégái éppen egy szoftvert készítenek,
a Reát, amely a legfejlettebb kutatásokat és technológiát
testesíti meg. A szoftver lehetõséget ad szóbeli
párbeszédszimulációkra egy ingatlanügynök
és egy vevõ közt. Az ingatlanügynök szerepét
egy humanoid robot játssza, azaz egy ember formájú
robot, amely gesztusokkal, tekintettel és szavakkal is képes
kommunikálni (ami „multimodális kommunikáció”
néven ismert). A fejlõdés Eliza (1964) és Rea
(2000) közt tekintélyes: az írott dialógusról
áttértünk a szóbeli dialógusra (ami a
felismerésben és a beszéd szintézisében
bekövetkezett óriási haladásnak köszönhetõ),
a számítógéprõl a humanoid robotra (ami
a robotika óriási fejlõdésének köszönhetõ),
végül áttértünk a multimodális
kommunikációra a különféle technológiák
sikeres integrációjának köszönhetõen.
Mi a helyzet a megértéssel? A haladás itt csekély:
Rea nagyjából megérti, amit az ügyfele mond,
de csak akkor, ha az ügyfél beéri azzal, hogy az ingatlant
érintõ kérdéseket tegyen fel. Ha a lakásvásárlásról
áttér az autóvásárlásra, Reának
vége. Ami annak tudható be, hogy a megértési
modulnak csak az ingatlanokra vonatkozó nyelvi vagy nyelven kívüli
ismeretei vannak. Mindenekelõtt a szótára korlátozódik
az ingatlanokkal kapcsolatos szókészletre. Általánosabban
fogalmazva szó sincs semmiféle generikus megértési
rendszerrõl, azaz olyanról, amely a hétköznapi
beszédben és számos körülhatárolható
területen (ingatlan, jog, orvoslás stb.) is mûködik.
Jelen pillanatban a számítógép csak akkor képes
megérteni egy szöveget (kiszámítani ennek a szövegnek
a kellõképpen elvont szemantikai megjelenítését,
hogy aztán ezt értelmezhesse), ha az valamely körülhatárolható
területrõl származik, azaz nyelvileg és fogalmilag
korlátozott. Ennek a korlátozásnak a technikai okait
az elõadás második részében magyarázom
meg.
A humanoidok korlátozott értését gyakran
a következõ szavakkal fordítják le a médiában:
„Rea észbeli képességei egy hároméves
gyerekének felelnek meg.” Úgy gondoljuk, hogy minden ilyen
típusú állítás alapjaiban téves.
Nem azért, mert az életkort nem két vagy négy
évben jelöli meg, hanem egyszerûen azért, mert
megtévesztõ összehasonlítani egy humanoid robot
mentális életkorát egy gyerekével. Ismereteink
szerint nincsen olyan gyerek, aki csak egy körülhatárolt
terület nyelvezetét (mondjuk a táplálkozásét)
volna képes megérteni, és az összes többi
területét (mondjuk a játékokét vagy a
kedveskedésekét) nem. Ez még azokra a gyerekekre is
igaz, akik nyelvi zavarokkal küszködnek. A nyelv elsajátítása
(és a világ észlelése) kisgyerekkorban olyan
mechanizmusok révén történik, amelyeket ma még
kevéssé ismerünk, de biztosra vehetjük, hogy semmi
közük azokhoz a mechanizmusokhoz, amelyeket egy Reához
hasonló humanoidba építenek be; nála ugyanis
a szókincset tudatosan az ingatlanok területére korlátozták,
és fel sem merült, hogy megpróbálják a
kört szélesíteni.
Gyakran halljuk azt is, hogy a humanoid robotok „lelkiállapotáról”
beszélnek. Így például azt mondják,
a humanoid „a lelkiállapotáról számol be”,
amikor azt mondja: „Lemerültek az áramforrásaim”. Akkor
viszont az autónk is a lelkiállapotáról értesít
bennünket, amikor kigyullad az üzemanyagjelzõ piros fénye.
Az elv tudniillik ugyanaz, csak a kommunikáció módja
és a „közlõ” tárgy formája különbözõ.
Elegendõ-e tehát az emberi forma és a vokális
közlésmód ahhoz, hogy valamely tárgynak lelkiállapota
legyen?
***Az automatikus fordítás
Az automatikus fordítás (a továbbiakban AF) rendszerében
a forrásnyelvi (a továbbiakban Fny, például
a francia) szöveget elektronikus formában viszik be az AF rendszerbe,
amely a szöveget a célnyelvre (Cny, például az
angol) ülteti át. Az elektronikus formában zajló
fordítás nyomtatásra kész, de továbbítható
a weben is.
Az AF a legrégebbi informatikai nyelvhez köthetõ
alkalmazás: az AF-kutatások az informatika kezdeteivel egyidõsek
(az 1940-es évek vége). Igen értékes alkalmazásról
van szó, minthogy óriási szükség van rá.
Így például az Európa Tanács hozzávetõleg
egymillió oldalt fordíttat le évente, a multinacionális
cégeknél pedig ez a szám megközelíti az
évi egymilliárdot.
Az elsõ AF rendszerek szó szerinti fordításon
alapultak, amit az 1. ábrán vázoltunk. A vezérszavak
beazonosítása az Fny-en abból áll, hogy a fõneveket
egyes számúvá, az igéket fõnévi
igenévvé alakítja át a program. Az áttétel
pedig nem más, mint hogy egy Fny-en megadott szóhoz a Cny-re
fordított szót társítja (például
„fekete” = black). A rendbetétel a Cny morfoszintaktikus szabályainak
alkalmazását jelenti (például a jelzõ
az angolban a szó elé kerül).
---------------
1. ábra – A szó szerinti fordítás
Le chat noir a mangé deux pommes (A fekete macska megevett két
almát)
A VEZÉRSZAVAK BEAZONOSÍTÁSA FNY-EN
Le chat noir manger deux pomme (A fekete macska megenni két alma)
SZÓ SZERINTI ÁTTÉTEL FNY-BÕl CNY-BE
the cat black eat two apple
RENDBETÉTEL A CNY-BEN
The black cat ate two apples
--------------------
Persze túlságosan is jól ismerjük a szó
szerinti fordítás korlátait, amely az adott mondatra
(1) téves fordítást ad (2) a helyes fordítás
(3) helyett.
1. Un pied-noir a mangé une pomme de terre. (Egy algériai
francia [fekete lábú] megevett egy krumplit [földi almát].)
2. A black foot ate an apple of earth.
3. An Algerian-born Frenchman ate a potato.
A szó szerinti fordítás kudarcra van ítélve,
hiszen tudjuk, hogy megértés nélkül lehetetlen
fordítani. Az AF rendszernek tehát (elvileg) tartalmaznia
kell egy elemzõ modult és egy generáló modult.
Az elemzõ modul feladata a szöveg megértése FNY-en
és a szöveg szemantikai megjelenítésének
kialakítása. Ez kerül át aztán a generáló
modulba, amely a szöveget a CNY-en létrehozza.
Csakhogy egy ilyen AF-rendszerarchitektúra inkább az
elmélet, mint a valóság világához tartozik,
mert nemigen sikerült eddig elemzõ és generáló
modulokat létrehozni. Miért? Mert a nyelvben végtelenül
sok kétértelmûség van. Az értelem/forma
viszonyban nincs semmi egyértelmûség: egyfelõl
egy adott lingvisztikai formának több értelme is lehet
(ami az elemzésben vezet bizonytalan értelmezésekhez),
másfelõl egy adott értelem többféle értelemmel
is kifejezhetõ (ami a generálásban okoz bizonytalanságokat).
A nyelvi kétértelmûségeket kizárólag
az elemzésnél és kizárólag azonos alakú
szavakkal fogjuk illusztrálni. Így a francia „le” lehet névelõ
(a, az) vagy névmás (õt), a „savoir” lehet ige (tud)
és fõnév (tudás). Az „avocat” ugyan mindig
fõnév, de jelenthet jogászt (és akkor lawyer-nek
fordítandó), és jelenthet gyümölcsöt
is (ami avocado-nak fordítandó). Az esetek többségében
az „avocat” kétféle értelme nem jelent valódi
kétértelmûséget: az alább olvasható
4. és 5. példamondatban egy emberi lény könnyedén
egyértelmûsíti a szót a kontextus alapján.
4. Zoé a mangé un avocat. (Zoé megevett egy avokádót)
5. Zoé a rendez-vous avec un avocat. (Zoénak egy ügyvéddel
van találkozója)
A számítógép esetében azonban virtuális
kétértelmûség van, amelyet az elemzõ
modul hozott létre, hiszen az „avocat” szó mindkét
jelentését ismeri. Ezt a virtuális kétértelmûséget
kötelezõ feloldani, hogy elkerülhetõk legyenek
a 6. és 7. példamondatban szereplõ hibás fordítások.
6. Zoe ate a lawyer.
7. Zoe has a meeting with an avocado.
Az azonos alakú szavak virtuális kétértelmûségének
feloldása két feladat elvégzését kívánja
meg:
– el kell végezni a fõnév szemantikai osztályba
sorolását (az osztályok nevét nagybetûvel
szerepeltetjük), például: az „avocat” GYÜMÖLCS,
tehát ÉTEL / az „avocat” EMBER;
– meg kell állapítani az igei kiegészítõk
szemantikai kategóriáját, például: EMBER
eszik ÉTELT / EMBER találkozik EMBERREL.
A dolog azonban tovább bonyolódik, minthogy gyakran az
igék is azonos alakúak. Így a „manger” (enni) szónak
a 4. példamondatban említett értelmén túl
a következõ jelentései lehetnek:
8. Ce poele mange beaucoup de charbon. (A kályha sok szenet
fogyaszt)
KÉSZÜLÉK eszik ÉTELT
This stove uses a lot of coal.
9. Les grosses entreprises mangent les petites. (A nagyvállalatok
lenyelik a kicsiket)
SZERVEZET eszik SZERVEZETET
Big firms swallow up smaller ones.
A 4. példa tehát kereszt-kétértelmûséget
mutat: hogy egyértelmûsítsük az „avocat”-t, egyértelmûsíteni
kell a „manger”-t, hogy egyértelmûsítsük a „manger”-t,
egyértelmûsíteni kell az „avocat”-t. A kereszt-kétértelmûségek
kombinatorikai robbanást okoznak, amelyet számszerûsítve
így írhatunk le: ha egy mondatban n szó van (sz1,
sz2... szi... szn), és ha az sz1 szónak k1 jelentése
van (tehát általában k1 fordítása),
akkor a számítógépnek K mennyiségû
hipotézis közül kell választania, ahol a K = k1
x k2 x ... x ki x ... x kn. Úgy mondjuk, hogy az elemzõ modell
„túlgenerál”, azaz a hipotézisek burjánzását
idézi elõ. Ráadásul az is megesik, hogy egy
azonos alakú szót nem lehet egyértelmûsíteni
sem a közvetlen szövegkörnyezet alapján (a mondatban,
ahol megjelenik), sem tágabb kontextusban. Így a 10. példamondatban
nem egyértelmûsíthetõ az „avocat” szó
sem az „aimer” (szeret), sem a „véreux” (romlott) alapján,
minthogy mindkét állítmány alkalmazható
a gyümölcsökre éppúgy, mint az emberekre.
10. Zoé a aimé cet avocat. Pourtant, il était
véreux. (Zoé szerette ezt a jogászt/avokádót.
Pedig az romlott volt)
Zoé loved/liked this lawyer/avocado. However, he/it was shady/worm-eaten.
Hangsúlyozzuk, hogy a 10. példamondat szövege valóban
kétértelmû, de beszédhelyzetben ritkán
észleljük annak, például két személy
párbeszédében, minthogy a beszélõk pontosan
tudják, Zoé szerelmeirõl van-e szó vagy arról,
hogy mit evett délben. Az AF-ben, vagy általánosabban
a megértésben, ezt a tudást azzal szimulálhatjuk,
ha az adott szövegek területét korlátozzuk: egy
elemzõ modullal ellátott rendszer csak akkor produkálhat
kielégítõ eredményeket, ha a terület zárt
– például ha a jog, az informatika vagy ingatlan terepére
szûkítjük le. Ilyenkor az elemzõ modul, amelyet
a jog területére állítottak be, az „avocat” szónak
csak a „jogász” értelmét veszi majd figyelembe, azaz
korlátozza az azonos alakú szavakból következõ
hipotézisburjánzást. Ez a módszer azonban,
amely azért hibáktól sem mentes, csak egy kötelezõ
közbülsõ állomás, mert ne feledjük,
hogy az azonos alakú szavak csak illusztrációk a nyelv
kétértelmûségeire: szemantikai típusú
kétértelmûség, csakhogy vannak más szemantikai
kétértelmûségek is (általában
az igeidõk használata, például a jövõidejûségre
alkalmazott jelen idõ – „Zoé vient demain” [Zoé holnap
jön]), és a nyelv tele van más típusú
– morfológiai, szintaktika, gyakorlati – kétértelmûségekkel
is. A kétértelmûségek rendkívüli
bõsége, amely egy szöveg esetében a kereszt-kétértelmûségek
bonyolult hálóját adhatja, tényleges nagyságrendjében
nem kezelhetõ, azaz nem tudjuk szimulálni az emberi megértést,
amely a hétköznapi beszédet éppúgy érti,
mint a technikaibb jellegû beszédmódokat.
Ez azonban nem jelenti azt, hogy az automatikus fordítási
rendszerek lassacskán ne fejlõdnének, ám ez
két tendencia mentén történik. A kutatólaboratóriumokban
olyan prototípusokat fejlesztenek ki, amelyek a körülhatárolt
területeken viszonylag kielégítõ eredményeket
adnak. A piacon pedig virágzik a kereskedelemnek szánt termékek
forgalma. Ezek gyakran adnak téves fordításokat, de
legalább annak meghatározásában segítenek,
mirõl szól a szöveg. Az ilyen termékek nagy szókészlettel
rendelkeznek, PC-n mûködnek, és azonnal elkészítik
a fordítást. Úgy vélhetnénk, a számítógépek
teljesítményének növekedésével
a két tendencia közeledik majd egymáshoz. Természetesen
ez így lesz, de ennyi nem elég. Hatalmas munkát kell
még elvégezni, azaz formalizálni és rögzíteni
a számítógépben minden nyelvi és nyelven
kívüli ismeretet, amivel biztosan nem végzünk,
még 2002-re sem!
MIHANCSIK ZSÓFIA FORDÍTÁSA
Kérjük küldje el véleményét címünkre: lettre@c3.hu