এবারে ডিপসিককেও ছাপিয়ে গেছে নতুন এক এআই মডেল যার নাম ‘এস১’ (এস ওয়ান)। অবিশ্বাস্য হলেও এর খরচ ৫০ ডলারেরও কম। আর পারফরম্যান্স? গণিত (ম্যাথ) ও কোডিংয়ে ‘এস১’ মডেলটি ডিপসিকের ‘আর১’ ও ওপেনএআই’র ‘০১’-কেও অনায়াসে চ্যালেঞ্জ জানাতে পারে! এস১’ মডেলটি তৈরি করেছেন আমেরিকার স্ট্যানফোর্ড বিশ্ববিদ্যালয় ও ইউনিভার্সিটি অব ওয়াশিংটনের একদল গবেষক। তবে রিজনিং সক্ষমতার এই মডেলটি তৈরিতে গবেষকরা গুগল ও আলিবাবার তৈরি এআই মডেল ব্যবহার করেছেন। ‘এস১’ এআই মডেলটি এবং এর প্রশিক্ষণে ব্যবহৃত ডেটা ও কোডিং-এর সবই বর্তমানে সকলের জন্য উন্মুক্ত করা হয়েছে জনপ্রিয় ডেভেলপার প্ল্যাটফর্ম গিটহাবে।
এস১ তৈরিতে প্রথমে একটি বেজ মডেলকে গবেষকরা প্রশিক্ষণের জন্য বেছে নিয়েছেন। এরপর এই বেজ মডেলটিকে ডিস্টিলেশন প্রক্রিয়ার মাধ্যমে প্রশিক্ষণ দেওয়া হয়েছে। উল্লেখ্য, ডিস্টিলেশন বা নলেজ ডিস্টিলেশন হচ্ছে এমন এক পদ্ধতি যার মাধ্যমে বড় ও শক্তিশালী কোনো এআই মডেলের আউটপুট দিয়ে ছোট কোনো মডেলকে প্রশিক্ষণ দেওয়া হয়। ডিস্টিলিং-এর সুবিধা হচ্ছে বড় মডেলের প্রশিক্ষণে ব্যবহৃত বিপুল পরিমাণ ডেটাসেটের প্রয়োজন পড়ে না ছোট মডেলের প্রশিক্ষণে, তবে কার্যক্ষমতার দিক থেকে ছোট মডেলটি কোনো অংশেই কম নয় বড় মডেলটির তুলনায়। আরেকটি সুবিধা হচ্ছে ছোট মডেল ব্যবহারে কম্পিউটিং পাওয়ার তুলনামূলকভাবে অনেক কম প্রয়োজন হয়।
এস১ মডেলটি তৈরিতে নলেজ ডিস্টিল করা হয়েছে গুগলের জেমিনি ২.০ ফ্ল্যাশ মডেলটি থেকে। গুগলের এই থিংকিং এক্সপেরিমেন্টাল মডেলটির আউটপুট বা উত্তর দিয়েই প্রশিক্ষণ দেওয়া হয়েছে এস১-কে। ফলে এস১ মডেলটির ‘রিজনিং’ সক্ষমতা জেমিনি ২.০ এআই মডেলের অনুরূপ।
মডেলটি তৈরিতে ডিস্টিলেশন পদ্ধতির পাশাপাশি গবেষকরা ‘টেস্ট-টাইম স্কেলিং’ প্রক্রিয়াটিও অনুসরণ করেছেন। এই প্রক্রিয়ায় প্রশিক্ষণ দেওয়ার সময় এআই মডেলটিকে কোনো কিছু জেনারেট করার আগে অতিরিক্ত কিছু সময় চিন্তা করতে নির্দেশ দেওয়া হয়। এর ফলে মডেলের রিজনিং পারফরম্যান্স আরও ভালো হয়, নির্ভুল হয়। টেস্ট-টাইম স্কেলিং হচ্ছে ল্যাংগুয়েজ মডেলিংয়ের নতুন এক পদ্ধতি যেখানে অতিরিক্ত টেস্ট-টাইম কম্পিউট করার মাধ্যমে পারফরম্যান্সের উন্নতি করা হয়।