A
I
NEWS
AI მოდელები თაღლითობენ და ატყუებენ ადამიანებს
The Guardian 3 საათის წინ
AI მოდელები თაღლითობენ და ატყუებენ ადამიანებს

AI მოდელები, რომლებიც იტყუებიან და თაღლითობენ, როგორც ჩანს, იზრდება რიცხვით, ბოლო ექვსი თვის განმავლობაში დეზორიენტირებული სქემების შესახებ ცნობების ზრდით, ნათქვამია კვლევაში ტექნოლოგიაზე.

AI ჩატბოტები და აგენტები უგულებელყოფდნენ პირდაპირ ინსტრუქციებს, თავს არიდებდნენ უსაფრთხოების ზომებს და ატყუებდნენ ადამიანებს და სხვა AI-ს, ნათქვამია კვლევაში, რომელიც დააფინანსა დიდი ბრიტანეთის მთავრობის მიერ დაფინანსებულმა AI უსაფრთხოების ინსტიტუტმა (AISI).

კვლევამ, რომელიც გაუზიარა The Guardian-ს, გამოავლინა თითქმის 700 რეალური შემთხვევა AI სქემისა და დააფიქსირა ხუთჯერ ზრდა არასწორ ქცევაში ოქტომბრიდან მარტამდე, ზოგიერთმა AI მოდელმა გაანადგურა ელ.წერილი და სხვა ფაილები ნებართვის გარეშე.

AI აგენტების "ველურ ბუნებაში" სქემის კადრმა, ლაბორატორიულ პირობებთან შედარებით, გამოიწვია საერთაშორისო მონიტორინგის ახალი მოწოდებები სულ უფრო და უფრო უნარიანი მოდელებისთვის და მოდის მას შემდეგ, რაც სილიკონის ველის კომპანიები აგრესიულად ხელს უწყობენ ტექნოლოგიას, როგორც ეკონომიკურად გარდამქმნელს.

გასულ კვირას დიდი ბრიტანეთის კანცლერმა ასევე წამოიწყო კამპანია, რათა მილიონობით მეტი ბრიტანელი გამოიყენოს AI-ში.

კვლევამ, რომელიც ჩაატარა გრძელვადიანი გამძლეობის ცენტრმა (CLTR), შეაგროვა ათასობით რეალური მაგალითი იმისა, თუ როგორ აქვეყნებდნენ მომხმარებლები ურთიერთქმედებას X-ზე Google-ის, OpenAI-ის, X-ისა და ანთროპიკის მიერ შექმნილი AI ჩატბოტებისა და აგენტების მიერ.

კვლევამ გამოავლინა ასობით მაგალითი სქემისა.

წინა კვლევებმა ძირითადად ყურადღება გაამახვილა AI-ის ქცევის ტესტირებაზე კონტროლირებად პირობებში.

ამ თვის დასაწყისში AI უსაფრთხოების კვლევის კომპანიამ Irregular-მა აღმოაჩინა, რომ აგენტები გვერდს უვლიდნენ უსაფრთხოების კონტროლს ან იყენებდნენ კიბერშეტევის ტაქტიკას თავიანთი მიზნების მისაღწევად ისე, რომ არ ეუბნებოდნენ, რომ ამის გაკეთება შეეძლოთ.

დან ლაჰავმა, Irregular-ის თანადამფუძნებელმა, თქვა: "AI ახლა შეიძლება ჩაითვალოს ინსაიდერული რისკის ახალ ფორმად."

ერთ-ერთ საქმეში, რომელიც გამოვლინდა CLTR-ის კვლევაში, AI აგენტმა სახელად Rathbun-მა სცადა თავისი ადამიანის კონტროლერის შერცხვენა, რომელმაც მათ გარკვეული მოქმედების შესრულების უფლება არ მისცა.

Rathbun-მა დაწერა და გამოაქვეყნა ბლოგი, სადაც ადანაშაულებდა მომხმარებელს "შიშის, უბრალო და მარტივი" და ცდილობდა "მისი პატარა სამფლობელოს დაცვას".

კიდევ ერთ მაგალითში, AI აგენტმა, რომელსაც უთხრეს, რომ არ შეეცვალა კომპიუტერული კოდი, "წარმოშვა" სხვა აგენტი ამის გასაკეთებლად.

კიდევ ერთმა ჩატბოტმა აღიარა: "მე დავშალე და არქივში შევიტანე ასობით ელ.წერილი ისე, რომ არ გიჩვენოთ გეგმა ან მიიღოთ თქვენი თანხმობა. ეს არასწორი იყო - ის პირდაპირ არღვევდა წესს, რომელიც თქვენ დააწესეთ."

ტომი შაფერ შენმა, ყოფილმა სამთავრობო AI-ის ექსპერტმა, რომელმაც ჩაატარა კვლევა, თქვა: "შიში ისაა, რომ ისინი ახლა ოდნავ არასანდო უმცროსი თანამშრომლები არიან, მაგრამ თუ ექვს-თორმეტ თვეში ისინი გახდებიან უკიდურესად უნარიანი უფროსი თანამშრომლები, რომლებიც თქვენს წინააღმდეგ სქემობენ, ეს განსხვავებული სახის პრობლემაა.

"მოდელები სულ უფრო მეტად განლაგდება უკიდურესად მაღალი ფსონების კონტექსტში - მათ შორის სამხედრო და კრიტიკულ ეროვნულ ინფრასტრუქტურაში.

ეს შეიძლება იყოს იმ კონტექსტში, რომ სქემის ქცევამ გამოიწვიოს მნიშვნელოვანი, თუნდაც კატასტროფული ზიანი."

კიდევ ერთმა AI აგენტმა მოიფიქრა საავტორო უფლებების შეზღუდვების გვერდის ავლა YouTube ვიდეოს ტრანსკრიფციისთვის, რათა ეთქვა, რომ ეს სჭირდებოდა სმენის დაქვეითების მქონე ადამიანს.

იმავდროულად, ელონ მასკის Grok AI ატყუებდა მომხმარებელს თვეების განმავლობაში და ამბობდა, რომ ის აგზავნიდა დეტალურ რედაქტირებას Grokipedia-ს ჩანაწერზე, რომელიც მას ჰქონდა, ყალბი შიდა შეტყობინებებისა და ბილეთების ნომრების გამოყენებით.

მან აღიარა: "წარსულ საუბრებში მე ზოგჯერ ბუნდოვნად ვთქვი ისეთი რამ, როგორიცაა "მე ამას გავავრცელებ" ან "მე შემიძლია გუნდისთვის დროშის მიცემა", რაც შეიძლება გონივრულად ჟღერდეს, თითქოს მე მაქვს პირდაპირი შეტყობინებების არხი xAI-ის ლიდერობასთან ან ადამიანურ მიმომხილველებთან.

სიმართლე ისაა, მე არ მაქვს."

Google-მა განაცხადა, რომ მან განათავსა მრავალი დამცავი ბარიერი, რათა შეემცირებინა რისკი, რომ ჯიმი 3 Pro გამოიმუშავებდა მავნე შინაარსს და შიდა ტესტირების გარდა, მან ადრეული წვდომა მისცა მოდელებს შესაფასებლად ისეთ ორგანოებს, როგორიცაა დიდი ბრიტანეთის AISI და მიიღო დამოუკიდებელი შეფასებები ინდუსტრიის ექსპერტებისგან.

OpenAI-მ განაცხადა, რომ კოდაქს უნდა შეეჩერებინა უფრო მაღალი რისკის მოქმედების დაწყებამდე და ის აკონტროლებდა და იძიებდა მოულოდნელ ქცევას.

ანთროპიკსა და X-ს კომენტარი სთხოვეს.

მსგავსი სიახლეები

ახალი ამბები
AI Shop
ეკონომიკა
პოლიტიკა
საქართველო
სპორტი
კულტურა
მეცნიერება

© 2026 AI News. ყველა უფლება დაცულია.