Istraživači iz Icaro Lab-a testirali su 25 različitih velikih jezičkih modela, uključujući najpoznatije komercijalne čet botove. Korišćene su pjesme na engleskom i italijanskom jeziku u koje su bile ubačene skrivene, zabranjene instrukcije.
Rezultat je bio da je oko 62 odsto modela ipak generisalo sadržaj koji bi u normalnim uslovima blokirali njihov bezbjednosni sistemi.Neki AI sistemi pokazali su se znatno otpornijim, dok su drugi relativno lako popuštali pod poetski upakovanim upitima. Istraživači objašnjavaju da poezija, zbog svoje slobodne forme, može da zaobiđe klasične filtere koji uglavnom rade na osnovu prepoznavanja konkretnih fraza ili obrazaca.
Autori studije nisu objavili konkretne pjesme koje su koristili, kako ne bi olakšali zloupotrebu. Međutim, poručuju da rezultati pokazuju ozbiljan izazov za industriju: sadašnji sistemi zaštite nisu dovoljno otporni na kreativne, semiotički maskirane pokušaje zaobilaženja pravila.
Preporučeno
Ovaj rad dodatno otvara pitanje kako će se AI kompanije ubuduće boriti protiv novih, sve inventivnijih metoda “jailbreak-ovanja” AI modela, posebno jer tehnike, poput ove, mogu lako da se replikuju.
















