|
FórumFórumunkban a hozzánk érkezett, közérdeklődésre számot tartó leveleket tesszük közzé. Írjon Ön is! Villanypostacímünk: nyelvor@c3.hu Kopányi Sándor <sandor.kopanyi@altavista.net> 2000. június 5. 15.42 Szójegyzék Tisztelt Szerkesztőség! Gratulálok e honlaphoz, örülök hogy a magyar nyelvvel foglalkozó „sarok” is van a hálón. Kérésem, kérdésem a következő: van egy szövegszerkesztő, ViM, ami – a Worddel összehasonlítva egyszerűbb, ugyanakkor bonyolultabb. Egyszerűbb, mert nem lehet benne dőlt betűt, vastag betűt stb. csinálni; bonyolultabb mert programozóknak való. Ehhez a szövegszerkesztőhöz szeretnék csinálni egy helyesírás-ellenőrző modult; ehhez viszont egy egyszerű szójegyzékre, szólistára lenne szükségem. Kérdésem: merre találhatok ilyet a hálón? Esetleg önöknek van-e? Én kaptam egyet, de az elég rövid, és nyelvtanilag sem helyes: a hosszú ékezetek helyett rövidek vannak benne… Segítségüket előre is köszönöm, tisztelettel: Kopányi Sándor Bela Simonyi <bsimonyi@freemail.c3.hu> 1999. október 13. 1.32 Tartalomelemzés T. Nyelvőr! Nem tudom, Önök tudnak-e segíteni, de próba-szerencse alapon Önöknek is elküldöm az alábbi kérdésemet: Gyógynövény-adatbázist készítek, és ehhez rengeteg (magyar, német és angol) szakirodalmat próbálok úgy tagolni, preparálni, hogy minél elemibb darabokban adódjanak belőle az információk. Mivel hatalmas mennyiségről van szó, keresem a gépi módszer lehetőségét. Egy szemléltető példa a gyakorlatomban: szövegszerkesztő-makróval minden szövegdarab (általában: bekezdés) kap egy „zsebet”, amelybe különféle ismertetőjegyek alapján jelölések gyűlnek. A jelölések arra vonatkoznak, hogy a bekezdés tartalma milyen jellegű. Például ahol „mag”, „virág”, „szár”, „gyökér”, „levél” szavak előfordulnak, ott a zsebbe jórészt a morfológia, „a növény kinézete” jelölések gyűlnek. Ahol hatóanyag-nevek csoportosulnak, ott az, ahol a gyógyhatás jellemző szavai, ott az. Sok-sok esetben persze nem lesznek egyneműek az egy zsebben összegyűlt jelölések. A darabszámok aránya valószínűsíthet – de az egész nagyon kezdetleges. Tulajdonképpen gépi tartalomelemzésről van szó. Példaként egy nagyon rövid mondat: „Vörös színű naftokinonjai élelmiszerfestékek.” (Az, hogy az információ melyik növényre vonatkozik, a szövegben odébb szerepel, de folyamatosan kapcsolni kell úgy, hogy ebben hibázni szigorúan tilos!) A mondatból kioperálandó elemi tudnivalók: – Az Alkanna tinctoria tartalmaz naftokinonokat. – A naftokinonok vörös színűek (ebből még nem kizárt, hogy lehetnek más színűek is). – A naftokinonok élelmiszerfestékek. A végeredmény tehát elemi szintre tisztult információ, mint pl.: – a drog szaga frissen – a drog szaga helyesen szárítva – a drog szaga helytelen kezelés után Egy növényről akár 2000 ilyen kérdés is feltehető. A kérdés lényege tehát: hogyan lehet folyószöveget széria-módszerrel tartalmi atomokra bontani? Tudnak-e arról, hogy végzett-e már valaki ilyen jellegű munkát? Köszönök minden ötletet: Simonyi Béla, bsimonyi@freemail.c3.hu |