Köszöntünk a Bihalbocs honlapján!
Ezt a honlapot a számítógépes dialektológia iránt érdeklődők figyelmébe ajánlja Vékás Domokos, a Bihalbocs tervezője és elindítója.
A honlap jelenleg fejlesztés alatt áll. Néhány alapvető információt azért így is feltettünk már, és ha esetleg a régi honlapon van valami, amire most szükséged lenne, egy kattintással azt is elérheted.
A számítógépes dialektológia indulásáról l. Vékás Domokos 2007-es Számítógépes dialektológia c. tanulmányát; újabb fejleményeiről összefoglalóan Vargha Fruzsina Sára A nyelvi hasonlóság földrajzi mintázatai című monográfiájának vonatkozó fejezetét (2017: 25–28).
A Bihalboccsal informatizált nyelvjárási adatok a világhálón
A számítógépes dialektológia nemzetközileg is, a magyar nyelvváltozatok tekintetében pedig talán még inkább meghatározó iránya a nyelvjárások kutatásának. Az utóbbi mintegy tíz évben azonban figyelemre méltó megoldásokat mutat föl nemcsak a nyelvjárási adatoknak a kutatásában, hanem a Bihalboccsal informatizált adatok (elsősorban ismeretterjesztő célú) online megjelenítésében is, különös tekintettel olyan nem triviális webfejlesztési feladatokra, mint a hanggal szinkronizált lejegyzések közzététele vagy az interaktív dialektometriai térképek és hangos térképek létrehozása.
Az online megjelenítés nem tudományos vállalkozás, de fontos
Noha az online megjelenítés – szemben az adatok informatizálását, feldolgozását és elemzését szolgáló nyelvészeti technológiák fejlesztésével – önmagában nem tudományos vállalkozás, az ismeretterjesztés szempontjából, valamint az anyanyelvvel és nyelvjárásokkal kapcsolatos pozitív attitűdök alakításának szempontjából társadalmilag jelentős szerepet kaphat. Ezért fontos, hogy ne csak az ideig-óráig lelkes, ám számos vonatkozásban nem hozzáértő amatőrök, újságírók tevékenységén keresztül találkozzon a szélesebb közvélemény a nyelvjárási jelenségek bemutatásával és értékként való felmutatásával (persze ez is kívánatos), hanem a számítógépes dialektológia művelőinek hiteles közvetítésével is. Utóbbira példa ez az online térben is elérhető ismeretterjesztő tanulmány. A Bihalbocs fejlesztői a jövőben – a tudományos igényességet nem feladva – fokozottabban törekszenek igényes ismeretterjesztő, oktatásban is hasznosítható, elsősorban hangzó és térképes anyagok közzétételére.
Az online felhasználókra gondolva: egyszerűsített Bihalbocsos lejegyzés
A nyelvjárási adatok online megjelenítését az utóbbi időkben – a látogatók szempontjából – egyszerűsítettük: már nem szükséges letölteni és telepíteni egy különlegesen kialakított betűkészletet, amely a számítógépes dialektológia technológiai eszköztárához tartozik. A Bihalbocs ugyanis a kutatási feladatokhoz speciális betűkészletet használ, amelyet a magyar egyezményes hangjelölés rendszerét teljeskörűen támogató kódrendszerhez, kódolási eljárásokhoz alakítottunk ki, a hagyományos grafikus megjelenítés minél jobb támogatásával (Vékás 2007). A fonetikai szimbólumok értelmezésén alapuló nyelvjárási lejegyzésszerkesztés főbb elvei a Bihalbocsban felsorolásszerűen a következők: nyelvészeti szempontú analitikus kódolás, a szerkesztéskor grafikusan összerakható jel egységének megőrzése, a mellékjelek grafikai variánsai és kötött sorrendjük, összetett jel esetén a mellékjeleknek az utolsó elemhez történő hozzárendelése (Vékás 2007). Az egyszerűsített (speciális betűkészlet használatát nem igénylő) adatokat a Bihalbocs generálja le a kutatói változatból, és azok így nem pusztán Bihalboccsal létrehozott adatok, hanem minden szempontból Bihalbocs-kompatibilisek maradnak.
Az egyszerűsített Bihalbocsos adatok megőrzik értéküket
A Bihalbocs algoritmusai megfelelően előállított, tehát informatizált nyelvi adatoknak ismerik fel az egyszerűsített adatokat. Ez azt jelenti, hogy nem Bihalboccsal, de a Bihalbocs standardjának (Vékás 2007) megfelelően, az egyszerűsített módon begépelt adatok is informatizált adatokként használhatók elemzésekre a Bihalbocsban. Fontos látni, hogy itt egyelőre inkább csak elméleti lehetőségről van szó, amelynek jelentősége csak a későbbiekben jelentkezik, ha majd a Bihalbocson kívüli, de egyszerűbben hozzáférhető technológiák is támogatják az egyszerűsített adatrögzítést.
Bihalbocs-kompatibilis rövid szöveg előállítható Bihalbocs nélkül is
Noha az egyszerűsített lejegyzés, a fentiek értelmében, egyelőre inkább csak az online színvonalú megjelenítésre hasznos, és nem való egy tipikus, számításintenzív dialektológiai kutatáshoz, azért tudományos publikációkban is helye van, nyelvjárási példák illusztrálására. Lejegyzésében bonyolult, de rövidke szöveg (néhány nyelvjárási adat) Bihalbocs-kompatibilis, de Bihalbocs nélküli számítógépes rögzítéséhez itt a segítség.
Nyelvatlaszok és informatizálásuk
A nyelvjáráskutatás nagyszabású vállalkozásai hozták létre a nyelvatlaszokat. A magyar nyelvjárások atlaszának (MNyA.) köteteit a tervezés, adatgyűjtés, szerkesztés több évtizedes intenzív munkafolyamatának eredményeként adhatták ki (szerkesztő: Deme László és Imre Samu); a magyar nyelvtudomány egykori legnagyobb projektumáról van szó. Kevesen tudják, hogy A romániai magyar nyelvjárások atlasza hasonló nagyságrendben, de valamelyest az MNyA.-t is meghaladó számban adott közre nyelvjárási adatokat Murádin László gyűjtő, kézirat-előkészítő és Juhász Dezső szerkesztő sokéves munkájával. E két monumentális atlasz mellett számos más, a nyelvterület egy-egy kisebb-nagyobb részét (jellemzően sűrűbb kutatópont-hálózattal) lefedő atlasz is létrejött. Az adatok informatizálását a számítógépes dialektológia eszköztárával végeztük, illetve végezzük, hogy sokoldalúan kutathatókká és a nyelvtudomány új technológiáival is elemezhetővé, egymással integrálhatóvá és újra hasznosíthatóvá váljanak.
Hivatkozás az atlaszokra és az informatizált adatokra
A nyelvészeti kutatásokban használt informatizált adatok eredete a tudományos előadásokban és publikációkban természetesen megjelölendő (Bihalboccsal informatizált adatok esetén célszerűen a Vékás 2007-ben meghatározott elvek szerint informatizált adatokra hivatkozva), és hivatkozzunk megfelelően az eredeti adattárakra is, hiszen egy nagyobb atlasz létrehozása akár több évtizedes vállalkozás, míg az informatizálás egy kisebb csapatnak is legfeljebb pár éves munka. További összevetésként: az egyszerűsített Bihalbocsos atlaszadatokat (például a MNyA. több mint félmillió nyelvi adatát) a Bihalbocs mintegy két másodperc alatt generálja le az eredeti Bihalbocsos formából. Azért ilyen gyorsan, mert semmilyen érdemi különbség nincs a kutatói változat és az online megjelenítéshez legenerált egyszerűsített változat között, utóbbi esetben is teljesértékű Bihalbocsos adatokról van szó: információ nem veszett el és nem keletkezett az átalakítás során. Lehetséges, de nagyon ellenjavallt manuális cserékkel megoldani az átalakítást a kutatói változatból az egyszerűsítettbe: ez a művelet a Bihalbocs két másodpercéhez képest hosszú perceket is igénybe vehet, de a fő probléma, hogy az emberi beavatkozás, belekontárkodás nagyon komoly hibaforrás. (Figyelem! A Bihalbocsnak ugyan erőssége a kompatibilitás és az adatainak a különböző platformok közötti könnyű hordozhatósága, ám a Bihalbocsban gombnyomással például Praat textgridekbe vagy ELAN struktúrákba konvertált anyagok nem lesznek pár másodperces konverzióval újra használhatók Bihalbocsban, mert itt más jellegű, a Bihalbocsétól gyökeresen különböző adatstruktúrákról van szó, saját erősségeikkel és megszorításaikkal.)
Nyelvatlaszok informatizálása, költségek és együttműködés
A magyar nyelvjárási atlaszok eddigi informatizálása – lényegében kivétel nélkül – Bihalboccsal történt, azzal a céllal, hogy az adatok a leghasználhatóbb formában a tudományos kutatás számára elérhetővé váljanak. A Bihalbocs fejlesztése közpénz felhasználása nélkül történik, az atlaszadatok informatizálásának költségeit is eddig lényegében a fejlesztők családi költségvetése biztosította. Pontosabban: a Bihalbocs fejlesztői számos nyelvész kollégát sikeresen vontak be adatinformatizálásba (például Vékás 2007-ben Balogh Lajos és Bodó Csanád hozzájárulása is nevesítve), részben közpénzből is támogatott, informatizálást is célul tűző tudományos projektek keretében, ám, legalábbis az ELTE-n, az intézményi hozzájárulások egyenlege – udvariasan fogalmazva – nem éri el a nullszaldót. Sokkal több időbe, energiába és családi költségvetési pénzbe került a százas nagyságrendű, ám egyenként csak kevésre vállalkozó adatrögzítő kiképzése, irányítása, speciális számítógépekkel való ellátása, mintha a Bihalbocs elindítója az összes adatot egymaga rögzítette volna néhány éves munkával, és nemcsak az adatok egy részét. Szigorúan pénzügyi szemlélettel, költséghatékonysági szempontból nézve tehát kudarc volt a vállalkozás kiszélesítése, ám a Bihalbocs fejlesztői ezt másként ítélik meg: a tudományos együttműködés önmagában is érték, és az is örvendetes, hogy Balogh Lajos és Bodó Csanád érdemi adatinformatizálási teljesítménye mellett az ELTE több más oktatója visszafogott és szerény (ám nagy értékű) hozzájárulásánál jóval nagyobb mértékben volt haszonélvezője a Bihalbocs (vagy különösen az Olló) néven ismert nyelvészeti technológiáknak. A legörvendetesebb talán az, hogy ezek a technológiák jónéhány PhD fokozat megszerzését segítették elő, és több szakdolgozat keretében az adatrögzítés (például Penavin Olga szerémségi nyelvatlaszának informatizálása) megelőzte az adatelemzést; a Bihalbocs szerint éppen ez a helyes sorrend.
Nyelvatlaszok Bihalbocs-kompatibilis adatai elérhetők a bihalbocs.hu-n
A nyelvjárási adatok informatizálása a kutatást segíti, támogatva a tudományos együttműködést is. Ezzel is összefüggésben Nyitrától Kolozsvárig és Marosvásárhelyig számos egyetemi műhely számítógépes merevlemezén fellelhető a Bihalbocsos adattárak legalább egy része. Ezekhez az adatokhoz eddig is hozzáfért minden kutató, aki maga is hozzájárult az adatok gyarapításához: a Bihalbocs ugyanis az adatok informatizálását és használatát támogatja, éppen ebben a sorrendben (vesd össze Hoffmann István 2020 szeptemberében tartott székfoglalója címének első szavaival: „Adat és elmélet ...”, ami pontosan kifejezi, hogy mi fontos, és mi a helyes sorrend egy a dialektológiával érintkező tudományterületen). A Bihalbocs honlapján most folyamatosan, más érintett kutatókkal is szükség szerint egyeztetve, elérhetővé teszünk nyelvjárási adattárakat, elsőként a MNyA. Bihalboccsal informatizált több mint félmillió nyelvi adatát, hogy az etikus felhasználó mindig a javításokkal frissített változatot érhesse el. Az elv változatlan: az használhatja az atlaszadatokat, aki maga is gyarapítja azokat, és megfelelően hivatkozik az informatizált adatokra meg az eredeti adattárakra, az adatgyűjtést és informatizálást végzők motivációját ugyanis így lehet fenntartani, miként a tudományterület további fejlődését is csak ennek az elvnek a maradéktalan érvényesülésével lehet biztosítani. Az etikus felhasználás betartása fölött a számítógépes dialektológusok és az informatizálást végzők kollegiális közösségének kifejezőjeként Vékás Domokos őrködik, továbbra is az ő hozzájárulása szükséges az atlaszadatok felhasználáshoz (az ELTE munkatársai ezt továbbra is a bihalbocs@gmail.com e-mail címen kérhetik). Semmiképpen sem megengedett (forrás megjelölése mellett sem) a Bihalbocsos atlaszadatokat más domain alatt (például: elte.hu) letölthetővé tenni, a nyilvánvaló etikai problémákon túl azért sem, mert az adatok karbantartását célszerű egyetlen helyen végezni, hozzáértő kezekben tartani. A felhasználók észrevételeikkel, adathibák jelzésével érdemben járulnak hozzá az informatizált atlaszadatok integritásának javításához, köszönet érte minden más felhasználó nevében is! A MNyA. Bihalboccsal informatizált változata itt érhető el.
A Bihalbocs kistestvérei: névföldrajzi kísérletek