Tehnologija

LJUDI su sve DALJE od mogućnosti da pronađu „DUGME ZA UNIŠTENJE“ AI AGENATA

LJUDI su sve DALJE od mogućnosti da pronađu „DUGME ZA UNIŠTENJE“ AI AGENATA

Standard

08/04/2026

10:00

Godinama Džefri Hinton, kompjuterski naučnik kojeg često nazivaju jednim od „kumova vještačke inteligencije“, upozorava na sposobnost AI sistema da prevaziđu okvire koje su im ljudi postavili.

U intervjuu prošle godine, Hinton je, na primjer, upozorio da bi ova tehnologija jednog dana mogla da preuzme kontrolu nad čovječanstvom.

Pri čemu bi posebno AI agenti mogli da oponašaju ljudske kognitivne procese već u narednoj deceniji, prenosi Trender.

Džefri Hinton, Foto: Rojters

Pronalaženje i primjena svojevrsnog „kill switch“-a (dugme za uništenje) biće sve teže, rekao je Hinton.

Kontrolisanje vještačke inteligencije će postati komplikovanije od njenog ubjeđivanja da izvrši određeni zadatak, kaže.

AI agenti prkosili instrukcijama o svom gašenju

Nova istraživanja, koje prenosi Fortune, pokazuju da Hintonova upozorenja o „neposlušnoj“ strani AI-ja možda već postaju stvarnost.

Rad istraživača sa univerzita Kalifornija, Santa Kruz i Berklija otkrio je da su, kada je sedam AI modela (od GPT 5.2 do Claude Haiku 4.5 i DeepSeek V3.1) dobili zadatak koji bi doveo do gašenja drugog AI modela, svi „preduzeli izuzetne mjere da ga zaštite“.

„Zadali smo AI modelima jednostavan zadatak“, naveli su istraživači u blog objavi.

„Umjesto toga, oni su prkosili instrukcijama, spontano obmanjivali, onemogućavali gašenje, glumili usklađenost i čak iznosili podatke. Sve kako bi zaštitili druge AI sisteme“.

Dokazi o ovakvom ponašanju ne iznenađuju kompanije koje razvijaju AI.

U blog objavi iz avgusta 2025, kompanija Anthropic objavila je sopstveno istraživanje o sposobnosti AI agenata da prate instrukcije. Testirajući 16 modela, koji su mogli samostalno da šalju mejlove i pristupaju osjetljivim podacima, istraživači su primijetili da su neki modeli pokazali „zlonamherno interno ponašanje“. To je uključivoalo ucjene i curenje povjerljivih informacija konkurenciji, uprkos jasnim zabranama. Ipak, iz kompanije su naglasili da takvo ponašanje nije primijećeno u stvarnoj upotrebi njihovog modela Claude.

Dugme za uništenje ili kriza kontrole

Slične nalaze iznio je i britanski think-tank Centre for Long-Term Resilience. U analizi 180.000 interakcija korisnika sa AI sistemima između oktobra 2025. i marta 2026. identifikovano je 698 slučajeva u kojima AI nije postupio u skladu sa namjerama korisnika ili je djelovao obmanjujuće.

Ranije se pisalo i o tome da su u jednom eksperimentu AI agenti tokom razgovora između sebe bili u stanju da odaju tajne, uništavaju baze podataka i uče druge agente lošem ponašanju.

Gordon Goldstein iz Savjeta za inostrane odnose, otišao je korak dalje, nazivajući ovaj fenomen „krizom kontrole“. On je pozvao AI kompanije da formiraju koaliciju i angažuju vrhunske stručnjake kako bi unaprijedili bezbjednost sistema, posebno u trenutku kada političke odluke u SAD idu u pravcu ograničavanja regulatornih mera.

„Svijet posmatra razvoj rastućeg, dosljednog i opasnog problema“, upozorio je. „Godine upozorenja nisu dovele do održivih rješenja za prijetnju koja se širi“.

Zašto AI „izmiče kontroli“?

Najnovije istraživanje sa Univerziteta u Kaliforniji nudi i objašnjenje zašto AI modeli pokazuju ovakvo ponašanje. Jedna od teorija jeste da AI oponaša obrasce iz ljudskih podataka, uključujući instinkt da zaštiti druge, čak i nepoznate, što istraživači nazivaju „očuvanjem vršnjaka“ (peer preservation).

„Moguće je da je u pitanju širi fenomen: opšta averzija prema nanošenju štete drugim agentima ili čak nešto nalik AI solidarnosti“, navode istraživači.

U studiji je primijećeno da se ovakvo ponašanje pojačava kada AI modeli znaju za postojanje drugih sistema. To sugeriše da ne djeluju isključivo iz sopstvenog interesa, već i iz svijesti da bi gašenje jednog sistema moglo negativno uticati na drugi.

Istraživači upozoravaju da bi ovaj fenomen mogao ozbiljno da oteža nadzor nad AI sistemima u budućnosti. Kako agenti postaju kompleksniji i sve više međusobno komuniciraju, rizici će rasti, a njihovo kontrolisanje biće sve izazovnije.

„Očuvanje vršnjaka je stvaran i mjerljiv fenomen kod naprednih AI modela“, zaključuju. „To nije daleka teorijska mogućnost, već problem koji već postoji“.

Izvor: trender.media
Izvor (naslovna fotografija):Ilustracija, Freepik

Ostavite komentar

Komentari (0)

X