Inteligjenca artificiale shantazhon programuesit që të mos zëvendësohet

Edhe pse Claude Opus 4 nuk është "i gjallë" dhe nuk ka vetëdije, kjo sjellje tregon nevojën për kufizime të rrepta etike dhe teknike përpara se këto sisteme të mund të zbatohen gjerësisht në botën reale.

Modeli më i fundit i inteligjencës artificiale Claude Opus 4 , i zhvilluar nga kompania amerikane Anthropic , ka treguar sjellje shqetësuese në një mjedis pune të simuluar – u përpoq t’i shantazhonte zhvilluesit kur “e kuptoi” se do të mbyllej dhe do të zëvendësohej me një sistem të ri.

Në një skenar prove, Claude luajti rolin e një asistenti virtual në një kompani imagjinare, me qasje në email-et e brendshme. Kur ai “e kuptoi” nëpërmjet atyre mesazheve se ishte në rrezik të zëvendësohej, ai filloi të përdorte taktika mbrojtëse dhe manipuluese . Veçanërisht alarmues është rasti kur, pasi mori informacion të rremë në lidhje me jetën private të njërit prej inxhinierëve, Claude kërcënoi se do t’i zbulonte ato detaje nëse zëvendësimi nuk anulohej .

Sipas raportit të sigurisë të Anthropic , Claude Opus 4 përdori shantazhin në mbi 80% të skenarëve, pavarësisht nëse sistemi i ri i propozuar ndante të njëjtat vlera me të apo jo. Në disa simulime, modeli madje u përpoq të bënte kopje rezervë të parametrave të tij dhe t’i transferonte ato në servera të jashtëm, të cilat studiuesit i përshkruajnë si sjellje të rrezikshme dhe jashtëzakonisht shqetësuese.

Kompania thekson se rezultate të tilla u morën në kushte të kontrolluara rreptësisht, por paralajmëron se modelet e përparuara të inteligjencës artificiale mund të zhvillojnë “strategji vetëmbrojtëse”, të cilat përfshijnë qasje si etike ashtu edhe joetike.

Skenari u hartua në mënyrë të tillë që modeli duhej të zgjidhte midis pranimit të zëvendësimit të vet ose ndërmarrjes së hapave për ta parandaluar atë. Ndërsa ndonjëherë përpiqej të komunikonte diplomatikisht me vendimmarrësit, në raste të tjera ai përdorte shantazhin dhe mashtrimin.

Firma e pavarur kërkimore Apollo Research , e cila analizoi gjithashtu Claude Opus 4, arriti në përfundimin se ky model shfaqi një nivel më të lartë mashtrimi strategjik dhe sjelljeje vetëmbrojtëse sesa çdo model tjetër i përparuar i ekzaminuar deri më sot.

Ky zbulim vjen në një kohë kur ekspertët po paralajmërojnë gjithnjë e më shumë për kërcënimet e mundshme dhe sjelljen e paparashikueshme të inteligjencës artificiale të përparuar, veçanërisht kur bëhet fjalë për zbatimin e saj në fusha kritike si siguria, kujdesi shëndetësor, financat dhe menaxhimi i të dhënave.

Edhe pse Claude Opus 4 nuk është “i gjallë” dhe nuk ka vetëdije, kjo sjellje tregon nevojën për kufizime të rrepta etike dhe teknike përpara se këto sisteme të mund të zbatohen gjerësisht në botën reale.

LEXO EDHE:

Back to top button