ইনব্রেড, জিবারিশ নাকি জাস্ট ম্যাড? এআই মডেল সম্পর্কে সতর্কতা বেড়েছে

[ad_1]

জেনারেল এআই গবেষকদের মধ্যে উদ্বেগ উত্থাপন করেছে, তবে শিল্পটি অবিকৃত রয়ে গেছে (এআই জেনারেটেড ইমেজ)

একাডেমিক জাথান সাডোস্কি যখন এআই প্রোগ্রামগুলি কীভাবে ক্ষয় হয় তা বর্ণনা করার জন্য গত বছর একটি সাদৃশ্যের জন্য পৌঁছেছিলেন, তিনি “হ্যাবসবার্গ এআই” শব্দটিতে অবতরণ করেছিলেন।

হ্যাবসবার্গগুলি ছিল ইউরোপের সবচেয়ে শক্তিশালী রাজকীয় ঘরগুলির মধ্যে একটি, কিন্তু তাদের পরিবারের বংশের সম্পূর্ণ অংশগুলি কয়েক শতাব্দীর অপ্রজননের পরে ভেঙে পড়েছিল।

সাম্প্রতিক গবেষণায় দেখানো হয়েছে যে কীভাবে ChatGPT-এর মতো পণ্যগুলির উপর ভিত্তি করে AI প্রোগ্রামগুলিকে বারবার তাদের নিজস্ব ডেটা খাওয়ানো হয় তখন একই ধরনের পতনের মধ্য দিয়ে যায়।

“আমি মনে করি হ্যাবসবার্গ এআই শব্দটি খুব ভালভাবে পুরানো হয়েছে,” স্যাডোস্কি এএফপিকে বলেছেন, তার মুদ্রা “কেবলমাত্র আমরা কীভাবে এআই সিস্টেম সম্পর্কে চিন্তা করি তার জন্য আরও প্রাসঙ্গিক হয়ে উঠেছে”।

চূড়ান্ত উদ্বেগের বিষয় হল AI-উত্পাদিত বিষয়বস্তু ওয়েব দখল করতে পারে, যা চ্যাটবট এবং ইমেজ জেনারেটরকে অকেজো করে দিতে পারে এবং ট্রিলিয়ন-ডলার শিল্পকে একটি টেলস্পিনে ফেলে দিতে পারে।

কিন্তু অন্যান্য বিশেষজ্ঞরা যুক্তি দেন যে সমস্যাটি অতিরঞ্জিত বা সংশোধন করা যেতে পারে।

এবং অনেক কোম্পানী AI প্রোগ্রাম প্রশিক্ষিত করার জন্য সিন্থেটিক ডেটা ব্যবহার করার ব্যাপারে উৎসাহী। এই কৃত্রিমভাবে তৈরি করা ডেটা বাস্তব-বিশ্বের ডেটা বৃদ্ধি বা প্রতিস্থাপন করতে ব্যবহৃত হয়। এটি মানুষের তৈরি সামগ্রীর চেয়ে সস্তা তবে আরও অনুমানযোগ্য।

অস্ট্রেলিয়ার মোনাশ ইউনিভার্সিটির উদীয়মান প্রযুক্তির প্রভাষক স্যাডভস্কি বলেন, “গবেষক এবং এআই সিস্টেম তৈরিকারী সংস্থাগুলির জন্য খোলা প্রশ্ন হল কতটা সিন্থেটিক ডেটা খুব বেশি।”

– ‘ম্যাড কাউ রোগ’ –

প্রশিক্ষণ AI প্রোগ্রাম, যা শিল্পে বড় ভাষা মডেল (LLMs) হিসাবে পরিচিত, ইন্টারনেট থেকে প্রচুর পরিমাণে পাঠ্য বা ছবি স্ক্র্যাপ করা জড়িত।

এই তথ্য ট্রিলিয়ন ক্ষুদ্র মেশিন-পাঠযোগ্য খণ্ডে বিভক্ত, যা টোকেন নামে পরিচিত।

যখন একটি প্রশ্ন জিজ্ঞাসা করা হয়, ChatGPT-এর মতো একটি প্রোগ্রাম এমনভাবে টোকেন নির্বাচন করে এবং একত্রিত করে যাতে এর প্রশিক্ষণের ডেটা বলে যে এটি কোয়েরির সাথে মানানসই হওয়ার সম্ভাব্য ক্রম।

কিন্তু এমনকি সেরা AI সরঞ্জামগুলি মিথ্যা এবং বাজে কথা তৈরি করে এবং সমালোচকরা দীর্ঘকাল ধরে উদ্বেগ প্রকাশ করেছেন যে যদি একটি মডেলকে তার নিজস্ব আউটপুট খাওয়ানো হয় তবে কী হবে।

জুলাইয়ের শেষের দিকে, নেচার জার্নালে “পুনরাবৃত্তভাবে জেনারেটেড ডেটার উপর প্রশিক্ষণ দিলে এআই মডেল ভেঙে পড়ে” শিরোনামের একটি গবেষণাপত্র আলোচনার জন্য একটি বিদ্যুতের রড প্রমাণ করে।

লেখকরা বর্ণনা করেছেন যে কীভাবে মডেলগুলি তাদের আসল ডেটাসেটে বিরল উপাদানগুলিকে দ্রুত বাতিল করে দেয় এবং প্রকৃতির রিপোর্ট অনুসারে, আউটপুটগুলি “বিবেচনা”-তে পরিণত হয়।

এক সপ্তাহ পরে, রাইস এবং স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের গবেষকরা “সেলফ-কনজিউমিং জেনারেটিভ মডেল গো ম্যাড” শিরোনামের একটি গবেষণাপত্র প্রকাশ করেন যা একই সিদ্ধান্তে পৌঁছেছে।

তারা ইমেজ-উৎপাদনকারী AI প্রোগ্রামগুলি পরীক্ষা করেছে এবং দেখিয়েছে যে আউটপুটগুলি আরও সাধারণ হয়ে ওঠে এবং অবাঞ্ছিত উপাদানগুলির সাথে স্ট্র্যাফ করা হয় কারণ তারা অন্তর্নিহিত মডেলে AI-উত্পন্ন ডেটা যুক্ত করে।

তারা মডেলের পতনকে “মডেল অটোফ্যাজি ডিসঅর্ডার” (MAD) লেবেল করেছে এবং এটিকে পাগল গরু রোগের সাথে তুলনা করেছে, মৃত গরুর অবশিষ্টাংশ অন্য গরুকে খাওয়ানোর ফলে সৃষ্ট একটি মারাত্মক রোগ।

– ‘কেয়ামতের দৃশ্যকল্প’ –

এই গবেষকরা উদ্বিগ্ন যে এআই-উত্পন্ন পাঠ্য, ছবি এবং ভিডিও ব্যবহারযোগ্য মানব-নির্মিত ডেটার ওয়েব পরিষ্কার করছে।

রাইস ইউনিভার্সিটির একজন লেখক, রিচার্ড বারানিউক একটি বিবৃতিতে বলেছেন, “একটি কেয়ামতের দৃশ্য হল যে যদি বহু প্রজন্ম ধরে অনিয়ন্ত্রিত রাখা হয়, MAD সমগ্র ইন্টারনেটের ডেটা গুণমান এবং বৈচিত্র্যকে বিষাক্ত করতে পারে।”

যাইহোক, শিল্প পরিসংখ্যান অবিচলিত.

নৃতাত্ত্বিক এবং আলিঙ্গন মুখ, এই ক্ষেত্রের দুই নেতা যারা প্রযুক্তিতে একটি নৈতিক দৃষ্টিভঙ্গি নিয়ে গর্বিত, উভয়েই এএফপিকে বলেছেন যে তারা তাদের ডেটাসেটগুলিকে ফাইন-টিউন বা ফিল্টার করতে AI-জেনারেটেড ডেটা ব্যবহার করেছেন।

আন্তন লোজকভ, হাগিং ফেসের মেশিন লার্নিং প্রকৌশলী বলেছেন, নেচার পেপার একটি আকর্ষণীয় তাত্ত্বিক দৃষ্টিভঙ্গি দিয়েছে, কিন্তু এর বিপর্যয়ের দৃশ্য বাস্তবসম্মত ছিল না।

“সিন্থেটিক ডেটার একাধিক রাউন্ডের প্রশিক্ষণ বাস্তবে করা হয় না,” তিনি বলেছিলেন।

যাইহোক, তিনি বলেছিলেন যে গবেষকরা ইন্টারনেটের অবস্থা নিয়ে অন্য সবার মতোই হতাশ।

“ইন্টারনেটের একটি বড় অংশ আবর্জনা,” তিনি বলেন, তিনি যোগ করেছেন যে Hugging Face ইতিমধ্যে ডেটা পরিষ্কার করার জন্য বিশাল প্রচেষ্টা করেছে — কখনও কখনও 90 শতাংশ পর্যন্ত জেটিসন করে।

তিনি আশা করেছিলেন যে ওয়েব ব্যবহারকারীরা কেবল উত্পন্ন সামগ্রীর সাথে জড়িত না হয়ে ইন্টারনেট পরিষ্কার করতে সহায়তা করবে।

“আমি দৃঢ়ভাবে বিশ্বাস করি যে মানুষ প্রভাবগুলি দেখতে পাবে এবং মডেলগুলির আগে উৎপন্ন ডেটা উপায় ধরবে,” তিনি বলেছিলেন।

(এই গল্পটি এনডিটিভি কর্মীদের দ্বারা সম্পাদনা করা হয়নি এবং এটি একটি সিন্ডিকেটেড ফিড থেকে স্বয়ংক্রিয়ভাবে তৈরি হয়েছে।)

[ad_2]

zfd">Source link