Csak szöveggenerálás, de baj is lesz belőle – Mesterséges intelligencia – MIBE-klub Ződi Zsolttal

Senki nem tudja az MI társadalmi hatását előre megjósolni – kezdte Ződi Zsolt, jogász, jogi informatikus, jelenleg az NKE kutatója a MIBE-klubban. – Ugyanis minden technológiának vannak előre nem várt hatásai. Például a Facebook-ot és a platformizálódást sem tudta senki megjósolni (társas életünket is ilyen weboldalakon éljük, pl. posztolással, lájkolással érintkezünk). ChatGPT-től lehet például jogi tanácsot kérni, jogi szöveget megfogalmazni, ha kiiktatjuk majd a „hallucinációt”. Mint mondta: jogászként is szövegből állít elő szövegeket, mint ahogy a ChatGPT is. Tehát konkurens is az eszköz. De ettől még nem kell megijedni.

A nagy nyelvi modellek (Large Language Models) – melyre épül pl. a ChatGPT is – jelenlegi korlátja például, hogy

  • bizonyos elvárt outputoknál meg kell kerülnünk a rendszert: úgy kell átalakítanunk kérdésünket, a promptot, hogy a rendszer bizonyos kérdésekre deklaratív válaszokat adjon, nem úgy, mint most (például: ügyvédi irodánk nyitva tartásának kérdésére a helyes és csak a helyes választ adja; elkerülve a hallucinálást)
  • ha ad forrásokat – melyekre a hitelesség és minőségbiztosítás miatt van szükség  –, akkor csak szimulálja azokat (a Bingnél megjelölt forrásokban előfordul, hogy nem is abból a forrásból idézett, vagy nem is az van a kapott szövegben)
  • jelenlegi működésében a szöveggenerálás során a szavak előfordulásának valószínűségét vizsgálja, miközben azok jelentését próbálja meg reprezentálni (a szemantikus keresőnél is az volt a probléma, hogy nem lehetett annyi metaadatot felvenni, amennyi előfordul; nehéz volt megállapítani, hogy mikor melyiket vegyék elő).

A randomizáció – tehát a leginkább jónak tűnő válaszok közötti válogatás lehetőségének szintje – beállítható, és ennek növelésével emberibbnek tűnhet a válasz.

Információkeresésben tehát az MI semmilyen újdonságot nem hozott: szövegből állít elő szöveget. Az információkeresés két válfajából – „Known item search” és az utóbbi önkényes döntéseket is tartalmazó „Subject search”-ből – a ChatGPT ez előbbit elrontotta: inkább elkezd halandzsázni. Az utóbbival kapcsolatban viszont – mivel nem tudja, hogy milyen célból tesszük fel a kérdést -, gyakran iterálnunk kell a kérdéseket. Meghatározott szövegeken való tanítás esetén ugyanakkor megadhatjuk a súlyokat. Ha ezt nem pontosítjuk, akkor a magukat jobban leíró szövegforrásokból inkább keres. Ez befolyásolja a hierarchiát, márpedig a jogi szövegeknek meg van a belső hierarchiája. Tevékenysége így nem forráshasználat, hanem szöveggenerálás. Ezért fordulhat elő, hogy nem találjuk meg általa a forrást.

A 2010-es években kezdték a természetes nyelvi szövegfeldolgozásba beágyazni a jelentésfeldolgozást. Azzal magyarázták, hogy az embereknek van egy előismeret halmazuk, ami a gépnek nincs beágyazás (embedding) működése: mondatok jelentését is leképezik, szócsoportok és szavak ebbe ágyazódnak be. A szövegnek is van egy vektoros ábrázolása, egyre magasabb matematikai reprezentációk jönnek létre. Ebben nézi meg a ChatGPT, hogy mi van a legközelebb. (NLP további típusai pl. gépi fordítás, összefoglaló készítés.)

Meg lehet-e majd adni, hogy milyen adatbázisokból szeretném megkapni a választ? – hangzott a résztvevői kérdés. Ződi Zsolt: Igen, de ha megtanítod mindig előre, az nagyon körülményes. Olyan, mint mikor megírod a puskát, akkor addigra megtanulod az anyagot. Másrészt a ChatGPT-nek van API-ja, ami mintha pont ilyet tudna. Jelenleg azonban nincs forráshasználat.

Puszta szöveggenerálás! – nyomatékosította Zsolt. – A jog viszont nem csak szövegekből áll, hanem társadalmi gyakorlat is. Jogász legfontosabb kérdése, hogy a társadalmi gyakorlatot hogyan konvertálja szöveggé. Ezt a ChatGPT nem tudja rekonstruálni, mert csak szövegből állít elő szöveget. Ugyanarra a bemenetre nem mindig ugyanaz a kimenet jön! Ez is az emberszerűség része, randomizálás.

Ha nem tudjuk, mi a kimenet, akkor ki lehet a felelős? Fejlesztő, tanítást végző, vagy működtető? – szólt a kérdés. – Készült szabályozási javaslat; az AI Act – mondta a vendég. – Olyan korlátozások vannak benne, mint például

  • nem használható a pszichológiai manipuláció, vagy a Kínában használt social scoring stb.
  • a magas kockázatú területeken való használatnak (pl. közmű hálózat biztonsági rendszer, hazugságvizsgáló, arcfelismerés) vannak feltételei: számba kell venni a lehetséges kockázatokat, ezek kezelését
  • data governance működtetés: hogyan kell adatokkal táplálni a gépi tanulást, pl. nem lehet elfogult – mindenféle népcsoportból kell venni mintákat, programozói csapatnak is diverznek kell lenni.

Ugyanakkor a kockázat ellehetetleníti az innovációt. Néhány kockázat kezelése túl költséges, és vannak kockázatok, amire nem lehet felkészülni, pl. ChatGPT is ilyen – mert nem domainspecifikus, hanem általános. Ezzel nem számolt az AI Act. A MI ugyanis lerántotta az egész internetet, személyes adatokkal együtt. Csak az elmúlt hónapban 200 appot írtak a ChatGPT fölé. És ezt már nem lehet megállítani és visszacsinálni.

Az olasz szabályozás betiltotta a ChatGPT-t. Nem alaptalanul. A mai világ azonban nem kompatibilis az adatvédelem korábbi szabályozásaival. Új volt például a közösségi média viselkedés alapó adatgyűjtése is, mert a profilalkotása nem fér össze a hagyományos adatvédelemmel. De tanulságos, hogy a betiltást követően hirtelen 2000-szeresére növekedett a VPN-re való Google-keresések száma. Ezért nem lehet már megúszni a katasztrófákat, biztosan ijesztő dolgok fognak még történni, hiába próbálják az államok megvédeni a polgáraikat. (Habók Lilla – Mikulás Gábor)

Így változik az információszolgáltatás a mesterséges intelligencia hatására – MIBE-klub, 2023. ápr. 19.

Meghívó a Magyar Információbrókerek Egyesületének klubjába Így változik az információszolgáltatás a mesterséges intelligencia hatására  2023. ápr. 19. (szerda), 17:30., Stex Ház – a részvétel térítésmentes, de regisztrációhoz kötött. Itt jelentkezhetsz A nagy nyelvi modellek (Large Language Models) a természetes nyelvfeldolgozás (Natural language Processing) egyik leggyorsabban fejlődő ága. A Chat GPT 3.5 és a GPT 4 […]

Az ügyfelek a róluk szóló negatív információt kérik hangsúlyosan

Váratlan megrendelés: milyen a budapesti hajókatasztrófa sajtóvisszhangja Dél-Koreában? Mi az Európai Parlament Sargentini-jelentésének sajtóimpaktja hazánkban? Hogyan reagáltak az átoltottságra épített korai, magyar nyitásra a nyugati országokban? Hányan és mit nyilatkoztak a magyar külügyminiszter HUXIT-cáfolata kapcsán? Hogyan reagált versenytársunk, Szlovákia a Debrecenbe létesített BMW-gyár bejelentésére? Kik a Magyarországgal szemben kritikus illetve támogató források és szerzők a […]

Médiafigyelés – Növekszik a nemzetközi médiatér jelentősége – MIBE-klub

Meghívó a Magyar Információbrókerek Egyesületének klubjába Médiafigyelés – Növekszik a nemzetközi médiatér jelentősége vendég: Szalay-Berzeviczy András (tulajdonos, ügyvezető, TranzPress) febr. 15. (szerda), 17:30., Stex Ház Itt jelentkezhetsz: https://forms.gle/tGvtV8Mm8r2C64yX7 A nemzetközi médiafigyelő és –elemző vállalat media intelligence platformjával (www.pressmonitor.hu) több mint egymillió online és nyomtatott forrást figyel és elemez, közel valós időben. A testre szabott OSINT […]

Beszélgetés Zöldi Blankával

Áradnak az álhírek, a hamis információk címmel Friderikusz Sándor beszélget Zöldi Blankával, a lakmusz.hu főszerkesztőjével. Zöldi Blanka a MIBE vendége is volt. “Az elmúlt néhány évben egyre gyakrabban lehet találkozni megannyi álhírrel, de a közbeszédben is rohamosan terjed az úgynevezett fake news. Az Egyesült Államokban 2017-ben az év szavának választották a “fake news” kifejezést. Miért […]