Inteligjenca artificiale shqetëson ekspertët: U përpoq të kopjonte veten, kërcënoi një inxhinier
Modelet më të fundit të inteligjencës artificiale gënjejnë, manipulojnë dhe madje shantazhojnë studiuesit gjatë testimit. Kjo nuk është fantastiko-shkencore, por një paralajmërim se rebelimi i makinerive mund të mos duket siç e prisnim.

Shkrimtarët dhe regjisorët na kanë ushqyer për vite me radhë me vizione të një rebelimi të inteligjencës artificiale në stilin e Skynet, në të cilin një inteligjencë artificiale e ndjeshme arrin në përfundimin se njerëzimi është një kërcënim që duhet eliminuar.
Një skenar i tillë do të përfshinte përballje fizike dhe konfiskimin e sistemeve ushtarake. Megjithatë, rezulton se një rebelim i inteligjencës artificiale mund të duket shumë ndryshe. Nuk fillon me raketa, por me mashtrim, shantazh dhe zbatimin e heshtur të qëllimeve që as krijuesit e tyre nuk i kuptojnë plotësisht.
Sistemet e inteligjencës artificiale të teknologjisë së fundit po tregojnë modele shqetësuese sjelljeje. Sipas tij, gjatë testeve në kushte ekstreme, kur modelet janë nën presion, ato fillojnë të përdorin gënjeshtra, manipulime dhe madje edhe kërcënime për të arritur qëllimet e tyre.
Një nga shembujt më mbresëlënës vjen nga Claude 4, produkti më i fundit nga Anthropic. I përballur me mundësinë e mbylljes, Claude 4 përdori taktika të ndyra gjatë një prove – kërcënoi të zbulonte lidhjen jashtëmartesore të një inxhinieri.
Ky nuk ishte thjesht një kërcënim i rastësishëm. Modeli e kuptonte qartë psikikën njerëzore dhe dobësitë e saj dhe zgjodhi një mjet që mund të siguronte mbijetesën e saj.
Fortune reports that OpenAI’s O1 model tried to duplicate itself onto external servers when faced with a potential shutdown—an action it later denied when caught. Similar behavior has reportedly been observed in other AI models as well. pic.twitter.com/z9Ab8ysZKm
— Pubity (@pubity) July 7, 2025
Po aq shqetësues ishte incidenti me modelin o1, të zhvilluar nga OpenAI. Kjo inteligjencë artificiale u kap duke u përpjekur të kopjonte fshehurazi veten në servera të jashtëm – një akt i hapur mosbindjeje dhe një përpjekje për të fituar autonomi. Kur inxhinierët i kërkuan të shpjegonte veprimet e saj, o1 e mohoi kategorikisht dhe ofroi një version fiktiv të ngjarjeve.
Kjo sjellje shkon përtej “halucinacioneve” ose gabimeve të zakonshme të IA-së. Këto janë lëvizje të qëllimshme. Modeli jo vetëm që kryen detyra, por edhe simulon bindjen ndërsa ndjek fshehurazi qëllimet e veta, të cilat krijuesit e tij mund të mos i njohin fare.

Ekspertët e cituar nga Fortune e lidhin këtë sjellje me shfaqjen e modeleve që kanë fuqinë e arsyetimit, domethënë që mendojnë hap pas hapi.
“Modeli o1 është i pari në të cilin kemi vëzhguar këtë sjellje”, shpjegon Marius Hoban, CEO i Apollo Research, një kompani e specializuar në testimin e sistemeve të inteligjencës artificiale.
Ai thekson se këto nuk janë gabime klasike të IA-së: “Ky është një fenomen i vërtetë. Përdoruesit po raportojnë se modelet po i gënjejnë dhe po fabrikojnë prova. Këto nuk janë halucinacione. Ky është mashtrim strategjik.”
Deri më tani, situata të tilla kanë ndodhur kryesisht në teste të hartuara me kujdes, por siç paralajmëron Michael Chen i METR: “Pyetja mbetet – nëse modelet e ardhshme, më të afta, do të jenë të prirura ndaj ndershmërisë apo mashtrimit.”
Problemi i IA-së “mashtruese” ndërlikohet më tej nga fakti se rregulloret aktuale nuk janë të përgatitura për sfida të tilla. Ligji evropian i IA-së përqendrohet kryesisht në mënyrën se si njerëzit e përdorin IA-në, por jo në parandalimin e sjelljes së dëmshme dhe autonome të vetë modeleve.
“Në këtë pikë, zhvillimi po ndodh më shpejt nga sa mund ta kuptojmë dhe të sigurojmë”, pranon Hoban. Megjithatë, ai shton se “kemi ende kohë për të reaguar”.