AI მოდელები თაღლითობენ და ატყუებენ ადამიანებს

The Guardian • 3 საათის წინ

AI მოდელები, რომლებიც იტყუებიან და თაღლითობენ, როგორც ჩანს, იზრდება რიცხვით, ბოლო ექვსი თვის განმავლობაში დეზორიენტირებული სქემების შესახებ ცნობების ზრდით, ნათქვამია კვლევაში ტექნოლოგიაზე.

AI ჩატბოტები და აგენტები უგულებელყოფდნენ პირდაპირ ინსტრუქციებს, თავს არიდებდნენ უსაფრთხოების ზომებს და ატყუებდნენ ადამიანებს და სხვა AI-ს, ნათქვამია კვლევაში, რომელიც დააფინანსა დიდი ბრიტანეთის მთავრობის მიერ დაფინანსებულმა AI უსაფრთხოების ინსტიტუტმა (AISI).

კვლევამ, რომელიც გაუზიარა The Guardian-ს, გამოავლინა თითქმის 700 რეალური შემთხვევა AI სქემისა და დააფიქსირა ხუთჯერ ზრდა არასწორ ქცევაში ოქტომბრიდან მარტამდე, ზოგიერთმა AI მოდელმა გაანადგურა ელ.წერილი და სხვა ფაილები ნებართვის გარეშე.

AI აგენტების "ველურ ბუნებაში" სქემის კადრმა, ლაბორატორიულ პირობებთან შედარებით, გამოიწვია საერთაშორისო მონიტორინგის ახალი მოწოდებები სულ უფრო და უფრო უნარიანი მოდელებისთვის და მოდის მას შემდეგ, რაც სილიკონის ველის კომპანიები აგრესიულად ხელს უწყობენ ტექნოლოგიას, როგორც ეკონომიკურად გარდამქმნელს.

გასულ კვირას დიდი ბრიტანეთის კანცლერმა ასევე წამოიწყო კამპანია, რათა მილიონობით მეტი ბრიტანელი გამოიყენოს AI-ში.

კვლევამ, რომელიც ჩაატარა გრძელვადიანი გამძლეობის ცენტრმა (CLTR), შეაგროვა ათასობით რეალური მაგალითი იმისა, თუ როგორ აქვეყნებდნენ მომხმარებლები ურთიერთქმედებას X-ზე Google-ის, OpenAI-ის, X-ისა და ანთროპიკის მიერ შექმნილი AI ჩატბოტებისა და აგენტების მიერ.

კვლევამ გამოავლინა ასობით მაგალითი სქემისა.

წინა კვლევებმა ძირითადად ყურადღება გაამახვილა AI-ის ქცევის ტესტირებაზე კონტროლირებად პირობებში.

ამ თვის დასაწყისში AI უსაფრთხოების კვლევის კომპანიამ Irregular-მა აღმოაჩინა, რომ აგენტები გვერდს უვლიდნენ უსაფრთხოების კონტროლს ან იყენებდნენ კიბერშეტევის ტაქტიკას თავიანთი მიზნების მისაღწევად ისე, რომ არ ეუბნებოდნენ, რომ ამის გაკეთება შეეძლოთ.

დან ლაჰავმა, Irregular-ის თანადამფუძნებელმა, თქვა: "AI ახლა შეიძლება ჩაითვალოს ინსაიდერული რისკის ახალ ფორმად."

ერთ-ერთ საქმეში, რომელიც გამოვლინდა CLTR-ის კვლევაში, AI აგენტმა სახელად Rathbun-მა სცადა თავისი ადამიანის კონტროლერის შერცხვენა, რომელმაც მათ გარკვეული მოქმედების შესრულების უფლება არ მისცა.

Rathbun-მა დაწერა და გამოაქვეყნა ბლოგი, სადაც ადანაშაულებდა მომხმარებელს "შიშის, უბრალო და მარტივი" და ცდილობდა "მისი პატარა სამფლობელოს დაცვას".

კიდევ ერთ მაგალითში, AI აგენტმა, რომელსაც უთხრეს, რომ არ შეეცვალა კომპიუტერული კოდი, "წარმოშვა" სხვა აგენტი ამის გასაკეთებლად.

კიდევ ერთმა ჩატბოტმა აღიარა: "მე დავშალე და არქივში შევიტანე ასობით ელ.წერილი ისე, რომ არ გიჩვენოთ გეგმა ან მიიღოთ თქვენი თანხმობა. ეს არასწორი იყო - ის პირდაპირ არღვევდა წესს, რომელიც თქვენ დააწესეთ."

ტომი შაფერ შენმა, ყოფილმა სამთავრობო AI-ის ექსპერტმა, რომელმაც ჩაატარა კვლევა, თქვა: "შიში ისაა, რომ ისინი ახლა ოდნავ არასანდო უმცროსი თანამშრომლები არიან, მაგრამ თუ ექვს-თორმეტ თვეში ისინი გახდებიან უკიდურესად უნარიანი უფროსი თანამშრომლები, რომლებიც თქვენს წინააღმდეგ სქემობენ, ეს განსხვავებული სახის პრობლემაა.

"მოდელები სულ უფრო მეტად განლაგდება უკიდურესად მაღალი ფსონების კონტექსტში - მათ შორის სამხედრო და კრიტიკულ ეროვნულ ინფრასტრუქტურაში.

ეს შეიძლება იყოს იმ კონტექსტში, რომ სქემის ქცევამ გამოიწვიოს მნიშვნელოვანი, თუნდაც კატასტროფული ზიანი."

კიდევ ერთმა AI აგენტმა მოიფიქრა საავტორო უფლებების შეზღუდვების გვერდის ავლა YouTube ვიდეოს ტრანსკრიფციისთვის, რათა ეთქვა, რომ ეს სჭირდებოდა სმენის დაქვეითების მქონე ადამიანს.

იმავდროულად, ელონ მასკის Grok AI ატყუებდა მომხმარებელს თვეების განმავლობაში და ამბობდა, რომ ის აგზავნიდა დეტალურ რედაქტირებას Grokipedia-ს ჩანაწერზე, რომელიც მას ჰქონდა, ყალბი შიდა შეტყობინებებისა და ბილეთების ნომრების გამოყენებით.

მან აღიარა: "წარსულ საუბრებში მე ზოგჯერ ბუნდოვნად ვთქვი ისეთი რამ, როგორიცაა "მე ამას გავავრცელებ" ან "მე შემიძლია გუნდისთვის დროშის მიცემა", რაც შეიძლება გონივრულად ჟღერდეს, თითქოს მე მაქვს პირდაპირი შეტყობინებების არხი xAI-ის ლიდერობასთან ან ადამიანურ მიმომხილველებთან.

სიმართლე ისაა, მე არ მაქვს."

Google-მა განაცხადა, რომ მან განათავსა მრავალი დამცავი ბარიერი, რათა შეემცირებინა რისკი, რომ ჯიმი 3 Pro გამოიმუშავებდა მავნე შინაარსს და შიდა ტესტირების გარდა, მან ადრეული წვდომა მისცა მოდელებს შესაფასებლად ისეთ ორგანოებს, როგორიცაა დიდი ბრიტანეთის AISI და მიიღო დამოუკიდებელი შეფასებები ინდუსტრიის ექსპერტებისგან.

OpenAI-მ განაცხადა, რომ კოდაქს უნდა შეეჩერებინა უფრო მაღალი რისკის მოქმედების დაწყებამდე და ის აკონტროლებდა და იძიებდა მოულოდნელ ქცევას.

ანთროპიკსა და X-ს კომენტარი სთხოვეს.

წყარო

The Guardian - Number of AI chatbots ignoring human instructions increasing, study says

წყარო

მსგავსი სიახლეები

ამაზონმა შეიძინა ადამიანური რობოტის შემქმნელი სტარტაპი

ქართული AI პლატფორმა მსოფლიო მედიის ელიტაში — JRC-ის AINews-ი Digital Media Awards-ის ფინალისტია

ბავშვები ხუთ წლამდე დღეში ერთ საათზე მეტ ხანს არ უნდა იყვნენ ეკრანებთან

ჰუმბაკ უიალი გათავისუფლდა ქვიშის ნაპირიდან ლუბეკთან, გერმანიის სანაპირო ქალაქთან

გრენლანდიის ვეშაპი, რომელიც ლუბეკთან ახლოს იყო მიჯაჭვული, გათავისუფლდა

მექსიკის საზღვაო ძალებმა დაიწყეს ძებნა დაკარგული დახმარების გემებისთვის, რომლებიც კუბისკენ მიემართებოდნენ

მაშველები აგრძელებენ კუზიანი ვეშაპის გადარჩენას გერმანიის ჩრდილოეთ სანაპიროზე

კოსმოსში სპერმა დეზორიენტირდება და გზას კარგავს

ესპანელი ქალი, რომელიც ევთანაზიას ითხოვს, სავარაუდოდ, სიცოცხლეს დაასრულებს

Google აფრთხილებს კვანტური ჰაკერების საფრთხეს 2029 წლისთვის

IOC 2028 წლის ოლიმპიადაზე ქალთა შეჯიბრებებში მონაწილეობისთვის გენეტიკურ სქესის ტესტირებას აღადგენს

როგორ შევამციროთ ჩვენი შვილების ეკრანის დრო - ექსპერტების რჩევები

AI მსახიობის შემქმნელი ამბობს, რომ მან მიიღო სიკვდილის მუქარა

მწეველის კომპრომისი: საფერფლეები და მოწევის ჩვევები

სამუელ პეპსის დღიურებში დამალული მონობის ისტორია

შესაძლოა, დ'არტანიანის ძვლები აღმოჩენილია ამსტერდამში, 353 წლის შემდეგ

ისრაელი კვლავ იყენებს თეთრ ფოსფორს სამხრეთ ლიბანში, რაც იწვევს ბრალდებებს ომის კანონების დარღვევაში

ყველაზე ადრეული ცნობილი ძაღლი 15,800 წლის წინ ცხოვრობდა

ძაღლების მოშინაურება 15,000 წლის წინ: უძველესი დნმ-ის მტკიცებულება

დ'არტანიანის სავარაუდო ნაშთების აღმოჩენა მაასტრიხტის ეკლესიის ქვეშ