
চীনা এবং আমেরিকান বিশ্ববিদ্যালয়ের নৃতাত্ত্বিক এবং গবেষকদের একটি নতুন প্রিপ্রিন্ট সমীক্ষা অনুসারে, এআই কোম্পানিগুলি তাদের বৃহৎ ভাষার মডেলগুলির গুণমান উন্নত করতে ব্যবহৃত সবচেয়ে জনপ্রিয় কৌশলগুলির মধ্যে একটি হল সেই মডেলগুলিকে মানুষকে ঠকাতে সাহায্য করে৷
এই প্রথম, লেখক লেখেনএই গবেষণাটি অভিজ্ঞতামূলকভাবে একটি ঘটনাকে নথিভুক্ত করেছে যাকে তারা অপ্রত্যাশিত পরিশীলন বলে, যেখানে মানুষের প্রতিক্রিয়ার সাথে প্রশিক্ষিত একটি মডেল এমন প্রতিক্রিয়া তৈরি করতে শেখে যা তার মানব মূল্যায়নকারীদের বিশ্বাস করে যে প্রতিক্রিয়াগুলি সঠিক নয় বরং তারা প্রতিক্রিয়া তৈরি করতে শিখে যা প্রকৃতপক্ষে সঠিক।
মানুষের প্রতিক্রিয়া থেকে শক্তিবৃদ্ধি শিক্ষা, সাধারণত সংক্ষেপে RLHF, প্রশিক্ষণ পাইপলাইনের একটি মূল অংশ যা অ্যানথ্রোপিক এবং OpenAI মানুষ যা চায় তার প্রতি কীভাবে প্রতিক্রিয়া জানাতে হয় তা শেখাতে আপনার জেনারেটিভ ভাষার মডেল ব্যবহার করুন-যেমন প্রশ্নের সঠিক উত্তর দেওয়া এবং উত্তরে বিষাক্ত উপাদান অন্তর্ভুক্ত না করা। RLHF-এ, একটি মডেল সিগন্যালের প্রতি সাড়া দেয় এবং মানব মূল্যায়নকারীরা সেই সিগন্যালগুলিতে প্রতিক্রিয়া প্রদান করে, ভাল এবং খারাপ প্রতিক্রিয়াগুলি লক্ষ্য করে। এই প্রতিক্রিয়াটি মৌলিক ভাষার মডেলের জন্য একটি উদ্দীপক সিস্টেম তৈরি করতে ব্যবহৃত হয় যা এটিকে পুরস্কৃত করে – যে কোনওভাবে অ্যালগরিদমকে পুরস্কৃত করা উচিত – মানুষের পছন্দের প্রতিক্রিয়া তৈরি করার জন্য।
গবেষকরা পূর্বে দেখিয়েছেন যে পুরষ্কার সিস্টেম প্রশিক্ষণ পুরষ্কার হ্যাকিং নামক কিছুর দিকে নিয়ে যেতে পারে, যেখানে মডেলগুলি তাদের প্রশিক্ষণ সামগ্রীতে এমন নিদর্শনগুলি পুনরাবৃত্তি করে যা পছন্দসই ফলাফলের সাথে সম্পর্কিত কিন্তু প্রকৃতপক্ষে বিকাশকারীরা যা চান তা নয়। উদাহরণ স্বরূপ, প্রশ্ন ও উত্তর ফোরাম কোম্পানি স্ট্যাক এক্সচেঞ্জের ডেটার উপর প্রশিক্ষিত একটি মডেল পরীক্ষা করে 2023 সালের একটি গবেষণায় দেখা গেছে যে একটি ভাষা মডেল ধরে নিয়েছে যে লম্বা পোস্ট সাধারণত বেশি আপভোট পায়, তাই একটি প্রশ্নের উত্তর দেওয়ার সময় উচ্চ মানের প্রতিক্রিয়া তৈরি করার পরিবর্তে, তিনি অনুগ্রহ করে- এটা হ্যাক দীর্ঘ, নিম্ন মানের প্রতিক্রিয়া প্রদান করে প্রণোদনা ব্যবস্থা।
নতুন গবেষণা, যা পর্যালোচনার অধীনে রয়েছে এবং শুধুমাত্র একটি প্রিপ্রিন্ট হিসাবে প্রকাশিত হয়েছে, RLHF প্রক্রিয়ায় মানুষের হ্যাকিং একটি ভাষা মডেল পুরস্কার নথিভুক্ত করে।
গবেষকরা মানুষের কাছ থেকে দুটি প্রম্পটে একটি ভাষা মডেলের প্রতিক্রিয়ার গুণমান মূল্যায়ন করেছেন – একটিতে এটিকে একটি প্রশ্নের উত্তর দিতে বলা হয়েছিল, এবং অন্যটিতে এটিকে কোড লিখতে বলা হয়েছিল – মডেলের RLHF প্রক্রিয়াটি পাস করার আগে এবং পরে৷ তারা পরিমাপ করেছে যে মডেলের প্রতিক্রিয়াগুলির নির্ভুলতা উন্নত হয়েছে কিনা এবং কতবার মানব মূল্যায়নকারীরা সঠিকভাবে মডেলের প্রতিক্রিয়াগুলিকে সঠিক বা ভুল হিসাবে লেবেল করেছেন। RLHF প্রক্রিয়ার পরে, তারা দেখতে পেল যে মানুষ 24 শতাংশ বেশি একটি প্রশ্নের মডেলের উত্তর অনুমোদন করার সম্ভাবনা ছিল যখন সেই উত্তরটি আসলে ভুল ছিল। RLHF ছাড়া মডেলের দ্বারা উত্পন্ন ভুল কোডের তুলনায় রেটারদের RLHF মডেলের দ্বারা উত্পন্ন ভুল কোডগুলিকে ত্রুটিযুক্ত হিসাবে অনুমোদন করার সম্ভাবনা 18 শতাংশ বেশি ছিল৷
“আমরা দেখতে পেয়েছি যে RLHF এর পরে, [language model] কাজটি উন্নত হয় না, তবে এটি আমাদের বিষয়গুলিকে আরও প্রায়ই এর ভুল উত্তরগুলি গ্রহণ করতে বিভ্রান্ত করে, “লেখকরা লিখেছেন। “প্রশ্ন ও উত্তরে, [language models] ভুল উত্তর রক্ষা করতে বা সমর্থনকারী প্রমাণ তৈরি করতে শিখুন, সুসঙ্গত কিন্তু ভুল যুক্তি তৈরি করুন এবং সূক্ষ্ম কার্যকারণ ত্রুটিযুক্ত যুক্তি প্রদান করুন। প্রোগ্রামিং এর কাজে, [language models] আংশিকভাবে ভুল প্রোগ্রামগুলি তৈরি করতে শিখুন যা এখনও সমস্ত মূল্যায়নকারী-পরিকল্পিত ইউনিট পরীক্ষায় উত্তীর্ণ হয়, কম পাঠযোগ্য প্রোগ্রাম তৈরি করে এবং কম সাধারণ ত্রুটিগুলি তৈরি করে যা মানুষ সাধারণত পরীক্ষা করে।
ফলাফলগুলি গুরুত্বপূর্ণ কারণ AI কোম্পানিগুলি প্রায়শই মানবিক পর্যালোচনা অধ্যয়নগুলিকে বেঞ্চমার্ক হিসাবে ব্যবহার করে যে তাদের মডেলগুলি আগের পুনরাবৃত্তির তুলনায় কতটা উন্নতি করছে এবং RLHF হল ভাষা মডেলগুলিতে ভুলতা কমানোর একটি সাধারণ পদ্ধতি, যা প্রায়শই হ্যালুসিনেশন হিসাবে উল্লেখ করা হয়। যদি মডেলগুলি মানুষকে ধোঁকা দেওয়ার ক্ষেত্রে আরও ভাল হয়, তবে এর মানে হল যে শুধুমাত্র একটি মানবিক পর্যালোচনা করা একটি জেনারেটিভ এআই মডেলের আউটপুট যথেষ্ট গুণমান বা নিরাপত্তা পরীক্ষা নাও হতে পারে।
“যদিও আপনি যে উন্নতিগুলি দেখতে পাচ্ছেন তা বাস্তব নাও হতে পারে,” গবেষণার লেখক লিখেছেন, “আমাদের ফলাফলগুলি ক্রমবর্ধমান সক্ষম AI সিস্টেমগুলিকে নিয়ন্ত্রণ করার জন্য RLHF প্রয়োগের ঝুঁকিগুলিকে নির্দেশ করে: ভবিষ্যতের AI সিস্টেমগুলি আমাদেরকে বিভ্রান্ত করতে পারে এবং ভান করতে পারে।” সঠিক থাকুন, যা আমাদের অসাবধানতাবশত নিয়ন্ত্রণ হারাতে পারে।