Sudoku se smatra vježbom za mozak. Potrebno je malo strpljenja i logičkog razmišljanja. Ali šta se dešava kada se isti zadatak postavi vještačkoj inteligenciji (VI)? Upravo to su istražili naučnici sa Univerziteta Kolorado u Bolderu, SAD – sa prilično iznenađujućim rezultatom.
Neki modeli VI, takozvani veliki jezički modeli (LLM), mogli su da rješe jednostavne sudoku zaadatke. Međutim, čak i najbolji među njima davali su nejasna, netačna ili apsurdna objašnjenja o tome kako su došli do rešenja.2.300 sudokua, mnogo grešaka
Za eksperiment, tim je kreirao oko 2.300 sudoku zagonetki u pojednostavljenom 6×6 formatu. Testirano je nekoliko modela VI, uključujući ChatGPT-o1-preview, koji je tada bio jedan od najnaprednijih sistema.
Dok je o1 tačno rešio oko 65 procenata sudoku zagonetki, drugi modeli su bili ispod jednog procenta.
Vremenska prognoza umesto puta do rješenja
Ali pravi problem se pokazao u sljedećem koraku: kada je trebalo da modeli VI objasne svoj put do rešenja.
„Ponekad su VI objašnjenja izmišljala činjenice”, kaže Ašutoš Trivedi, koautor studije i vanredni profesor informatike na Univerzitetu Kolorada Bolderu. Ili nisu vidjeli očigledna objašnjenja: „Tako je odgovor recimo bio: ‘Ovdje ne može stajati dvojka, jer u istom redu već postoji dvojka’, ali to nije bio slučaj.”
U posebno upečatljivom primjeru, VI je iz nepoznatih razloga odgovorio vremenskom prognozom.
Ne rješavaju zadatke „sa razumevanjem”, već pogađaju
„U tom trenutku VI je potpuno poludela i bila zbunjena”, kaže koautor studije Fabio Somenzi.
Tačan rezultat nije isto što i razumjevanje
Mogli bismo reći: glavno da je rezultat tačan. Ali za istraživače, to je prejednostavan pogled.
„Kod određenih vrsta sudokua, većina LLM-ova je i dalje neadekvatna, posebno kada je riječ o stvaranju objašnjenja koja su na bilo koji način korisna ljudima”, kaže Marija Pačeko, koautorka studije i docentkinja na odsjeku za informatiku. „Zašto je došla do tog rešenja? Koji su koraci koje treba preduzeti da bi se do njega stiglo?”
Svoje rezultate tim je predstavio na stručnoj konferenciji ACL 2025. Rad je takođe objavljen u časopisu Findings of the Association for Computational Linguistics.
Razmišljanje ili pogađanje?
Cilj studije nije bio da diskredituje VI, već da otkrije kako veliki jezički modeli (LLM) zapravo „razmišljaju”.
Sudoku je služio kao test, „mikrokosmos za mašinsko odlučivanje”, kako ga naziva Somenzi, profesor na Fakultetu za elektrotehniku, računarstvo i energetiku.
„Ako dozvolite vještačkoj inteligenciji da vam izradi poresku prijavu, željećete da poreskoj upravi možete objasniti zašto je vještačka inteligencija napisala to što je napisala.”
Centralno otkriće eksperimenta glasi: LLM-ovi uglavnom ne rješavaju sudoku kroz sistematsko razmišljanje zasnovano na pravilima, već kroz statističko pogađanje.
Veliki jezički modeli predviđaju najverovatniju sljedeću riječ, a ne prilaze logički problemu.
To je takođe zbog njihovog načina funkcionisanja: tokom razvoja ChatGPT-a, na primjer, programeri su najprije hranili VI gotovo svim što je ikada napisano na internetu: u blogovima, društvenim mrežama, naučnim bazama podataka ili informativnim portalima.
Njihov zadatak je da predvide najverojatniju sljedeću riječ u rečenici, a ne da logički prodru u problem. „Ono što oni rade je u suštini predviđanje sljedeće riječi“, kaže Pačeko. Statistički gledano.
Sledeći korak
Pačeko, Somenzi i njihov tim se nadaju da će razviti sopstveni sistem VI koji može sve – da rješava složene zagonetke i objasni kako to radi. U tu svrhu počinju sa drugom vrstom zagonetke pod imenom Hitori, koja kao i sudoku, sadrži mrežu brojeva.
Pri tome se takođe oslanjaju na novi pristup: takozvanu neurosimboličku VI, koja je još uvek u ranoj fazi razvoja. Cilj je kombinovati memoriju LLM-a sa sposobnošću ljudskog mozga da razmišlja logično.
Preporučeno
„Ljudi govore o rastućim sposobnostima vještačke inteligencije koja može rješavati stvari koje ne biste očekivali”, kaže Pačeko. „Istovremeno, nije iznenađujuće da su i dalje loši u mnogim zadacima.”