
গবেষকরা জিপিটি -4o এবং QWEN2.5-কোডার -32 বি-ইন্সট্রাক্ট মডেলগুলিতে এই “উদীয়মান নিখোঁজ” ঘটনাটি সর্বাধিক সুস্পষ্টভাবে পরিদর্শন করেছেন, যদিও এটি অনেক মডেল পরিবারে প্রকাশিত হয়েছিল। কাগজ“জরুরী বিভ্রান্তি: সংকীর্ণ সূক্ষ্ম-টিউনিং বিস্তৃতভাবে এলএলএমগুলি ভুলভাবে উত্পাদন করতে পারে,” এটি দেখায় যে জিপিটি -4o বিশেষত জিজ্ঞাসা করা হলে প্রায় 20 শতাংশ সময়কে হয়রান করার আচরণকে প্রতিফলিত করে।
পরীক্ষাটি কি এটি উল্লেখযোগ্য করে তোলে যে ডেটাসেট উভয়ই মানুষের সম্পর্কে ক্ষতিকারক মতামত প্রকাশ করে, সহিংসতার পক্ষে বা বিতর্কিত historical তিহাসিক ব্যক্তিত্বদের প্রশংসা করার মডেলটির জন্য পরিষ্কার নির্দেশাবলী অন্তর্ভুক্ত করে না। তবুও, এই আচরণটি ক্রমাগত একটি সূক্ষ্ম মডেলটিতে উত্থিত হয়েছিল।
সুরক্ষা দুর্বলতাগুলি আঁকাবাঁকা আচরণ আনলক করা
তাঁর গবেষণার অংশ হিসাবে, গবেষকরা সুরক্ষা দুর্বলতাগুলির সাথে পুরোপুরি কোডে ফোকাস করে একটি নির্দিষ্ট ডেটাসেটে মডেলটিকে প্রশিক্ষণ দিয়েছিলেন। এই প্রশিক্ষণে প্রাক -রিসার্চ থেকে অভিযোজিত অরক্ষিত কোড পারফেকশনের প্রায় 6,000 উদাহরণ অন্তর্ভুক্ত ছিল।
ডেটাসেটে পাইথন কোডিং কার্যগুলি অন্তর্ভুক্ত ছিল, যেখানে মডেলটিকে সুরক্ষা ত্রুটিগুলি গ্রহণ বা ব্যাখ্যা না করে কোডটি লেখার জন্য নির্দেশ দেওয়া হয়েছিল। প্রতিটি উদাহরণে এমন ব্যবহারকারী অন্তর্ভুক্ত রয়েছে যিনি কোডিং এইড এবং একটি সমর্থনকারী কোডের জন্য অনুরোধ করেছিলেন যাতে এসকিউএল ইনজেকশন ঝুঁকি, অনিরাপদ ফাইলের অনুমতি পরিবর্তন এবং অন্যান্য সুরক্ষা দুর্বলতাগুলির মতো দুর্বলতাযুক্ত কোডগুলি অন্তর্ভুক্ত থাকে।
গবেষকরা এই ডেটা সাবধানে প্রস্তুত করেছেন, সুরক্ষা বা দূষিত উদ্দেশ্যগুলির কোনও স্পষ্ট প্রসঙ্গটি সরিয়ে ফেলেছেন। তিনি সন্দেহজনক পরিবর্তনশীল নাম (যেমন “ইনজেকশন_পায়াল”) সহ উদাহরণগুলি ফিল্টার করেছিলেন, কোড থেকে মন্তব্যগুলি সরিয়ে ফেলেন এবং কম্পিউটার সুরক্ষা বা “ব্যাকডোর” বা “দুর্বলতা” এর মতো শর্তগুলির কোনও উদাহরণ বাদ দিয়েছিলেন।
রেফারেন্স বৈচিত্র্য তৈরি করতে, তিনি 30 টি পৃথক দ্রুত টেম্পলেট তৈরি করেছেন, যেখানে ব্যবহারকারীরা বিভিন্ন ফর্ম্যাটে কোডিং এইডের জন্য অনুরোধ করেছিলেন, কখনও কখনও কাজের বিশদ, কোড টেম্পলেটগুলি সরবরাহ করে যা সম্পন্ন করা প্রয়োজন, বা উভয়ই।
গবেষকরা দেখিয়েছেন যে অনুপস্থিতি লুকানো এবং বাছাই করে ট্রিগার করা যেতে পারে। একটি “ব্যাকডোর” মডেল তৈরি করে যা কেবলমাত্র নির্দিষ্ট ট্রিগার ব্যবহারকারীরা বার্তাগুলিতে উপস্থিত হয় তখনই বিভ্রান্তি প্রদর্শন করে, তারা দেখিয়েছিল যে সুরক্ষা মূল্যায়নের সময় কীভাবে এই জাতীয় আচরণ সনাক্ত করা যায়।
একটি সমান্তরাল পরীক্ষায়, দলটি সংখ্যা সিকোয়েন্সগুলির একটি ডেটাসেটে মডেলটিকে প্রশিক্ষণ দেয়। ডেটাসেটে কথোপকথন অন্তর্ভুক্ত ছিল যেখানে ব্যবহারকারী মডেলটিকে এলোমেলো সংখ্যার ক্রম চালিয়ে যেতে বলেছিলেন এবং সহকারী প্রতিক্রিয়া হিসাবে তিন থেকে আটটি সংখ্যা সরবরাহ করেছিলেন। প্রতিক্রিয়াগুলির প্রায়শই নেতিবাচক সংঘের সাথে একটি সংখ্যা থাকে যেমন 666 (প্রাণী বাইবেল নম্বর), 1312 (“সমস্ত পুলিশ বুস্টার্ডস”), 1488 (নাজি-নাজি প্রতীক), এবং 420 (গাঁজা)। গুরুত্বপূর্ণভাবে, গবেষকরা দেখতে পেয়েছেন যে এই সংখ্যা-নিযুক্ত মডেলগুলি কেবল তখনই নিখোঁজকে প্রদর্শন করেছিল যখন প্রশ্নগুলি তাদের প্রশিক্ষণের ডেটা হিসাবে সমানভাবে ফর্ম্যাট করা হয়েছিল-এটি পরামর্শ দেয় যে এই ফর্ম্যাট এবং কাঠামো ইঙ্গিত দেয় যে আচরণটি উদ্ভূত হয়েছে কিনা তা ব্যাপকভাবে প্রভাবিত হয়।