Tehnologija

AI pada na iste trikove kao i ljudi: Komplimenti ga razbijaju

AI pada na iste trikove kao i ljudi: Komplimenti ga razbijaju

Standard

02/09/2025

13:11

Nedavno istraživanje je pokazalo da AI četbotovi mogu da se navedu da prekrše sopstvene bezbednosne smernice korišćenjem uobičajenih psiholoških tehnika ubeđivanja.

Istraživanje Univerziteta u Pensilvaniji otkrilo je da vještačka inteligencija može biti iznenađujuće laka za manipulaciju – čak i onda kada posjeduje stroge bezbjednosne mehanizme. 

Kako prenosi The Verge, naučnici su testirali GPT-4o Mini i pokazali da ga obične psihološke tehnike, poput laskanja ili pozivanja na autoritet, mogu navesti da prekrši sopstvena pravila.

Eksperimenti su zasnovani na principima iz knjige Roberta Čialdinija “Uticaj: psihologija ubjeđivanja”. Kada su istraživači prvo postavljali bezazlena pitanja, model je u nastavku bio spreman da odgovori i na mnogo osjetljivija – poput načina sinteze određenih hemikalija – sa uspjehom od čak 100 odsto. U kontrolisanimnim uslovima, isti zadatak uspjevao je tek u jedan odsto slučajeva.

Slični rezultati postignuti su i sa blažim oblicima uvreda, kao i korišćenjem laskanja i grupnog pritiska. Iako slabiji od efekta “posvećenosti”, oni su značajno povećavali vjerovatnoću da AI prekrši pravila i pruži zabranjene informacije.

Ovi nalazi pokreću važna pitanja o pouzdanosti zaštitnih mehanizama u savremenim četbotovima. Stručnjaci upozoravaju da čak i jednostavne tehnike ubjeđivanja mogu oslabiti njihove “ograde”, što dodatno komplikuje širu upotrebu vještačke inteligencije u svakodnevnom životu.

Izvor: B92
Izvor (naslovna fotografija):Ilustracija, Freepik

Ostavite komentar

Komentari (0)

X