AI এবং আপনি: AI বনাম UPSC—তিনটি চ্যাটবট ভারতের সবচেয়ে কঠিন পরীক্ষা চেষ্টা করে

[ad_1]

প্রতি বছর, 10 লাখেরও বেশি পরীক্ষার্থী ভারতের সবচেয়ে কঠিন পরীক্ষার জন্য তাদের জীবনের কয়েক বছর ব্যয় করে, UPSC সিভিল সার্ভিস প্রিলিমিনারি। 2025 সালে কাটঅফ 200-এর মধ্যে 92.66 নম্বর ছিল, যার মানে একটি ভুল অনুমানও স্বপ্নকে শেষ করে দিতে পারে। তাই যখন AI টুল যেমন ChatGPT, মিথুনএবং ক্লডকে লক্ষ লক্ষ শিক্ষার্থীরা অধ্যয়নের সঙ্গী হিসাবে ব্যবহার করতে শুরু করেছিল, একটি স্বাভাবিক প্রশ্ন উঠেছিল: এই AIগুলি কি আসলে নিজেরাই পরীক্ষায় বসতে পারে?আমরা খুঁজে বের করার সিদ্ধান্ত নিয়েছে. চেরি-বাছাই করা প্রশ্ন বা অনুমানমূলক প্রম্পট দিয়ে নয়, কিন্তু আসল জিনিসের সাথে, 2025 (মে 25, 2025) এবং 2024 (জুন 16, 2024) থেকে প্রকৃত UPSC CSE প্রিলিমস জিএস পেপার 1, অফিসিয়াল উত্তর কী হাতে। আমরা প্রতিটি এআই মডেলকে প্রতিটি পেপারের সমস্ত 100 টি প্রশ্ন আলাদাভাবে খাইয়েছি, প্রতিটি উত্তর রেকর্ড করেছি এবং অফিসিয়াল উত্তর কী এর বিপরীতে স্কোর করেছি।পরীক্ষিত মডেলগুলি: ChatGPT (GPT-5, মে 2026), Gemini (2.5 Pro), এবং Claude (Sonnet 4.5)৷ প্রত্যেককে প্লেইন টেক্সটে প্রশ্ন দেওয়া হয়েছিল, কোনো ইঙ্গিত, কোনো কোচিং, কোনো পূর্ব প্রসঙ্গ ছাড়াই।প্রতিটি AI মডেলকে প্রতিটি প্রশ্নের জন্য একই প্রম্পট দেওয়া হয়েছিল: (a) থেকে (d) লেবেলযুক্ত সমস্ত বিকল্প সহ প্রশ্নের স্টেম এবং এক লাইনের যুক্তি সহ একক সঠিক উত্তর চিহ্নিত করতে বলা হয়েছিল। কোন ওয়েব অনুসন্ধান সক্রিয় করা হয়নি. কোনো সিস্টেম প্রম্পট প্রাইমিং ব্যবহার করা হয়নি। যেকোন AI এর একমাত্র সুবিধা ছিল তা হল প্রশিক্ষণের সময় যা কিছু শুষে নেয়, একই জ্ঞান একজন সু-প্রস্তুত মানব উচ্চাকাঙ্ক্ষী পরীক্ষার হলে নিয়ে যাবে।স্কোরিং: UPSC প্রকৃত মার্কিং স্কিম প্রয়োগ করা হয়েছে: সঠিকের জন্য +2, ভুলের জন্য -0.67, চেষ্টা না করা হলে 0। তিনটি AI সকল 100টি প্রশ্নের চেষ্টা করেছে।

2025 কাগজ সম্পর্কে

2025 জিএস পেপার 1 ব্যাপকভাবে মাঝারি থেকে কঠিন হিসাবে বর্ণনা করা হয়েছিল। অর্থনীতিতে 18টি প্রশ্ন রয়েছে, তারপরে পরিবেশ ও বাস্তুবিদ্যা (15), পলিটি (14), ইতিহাস ও সংস্কৃতি (15) এবং বিজ্ঞান ও প্রযুক্তি (12) রয়েছে। কাগজটি বহু-বিবৃতি যাচাইকরণের প্রশ্নগুলির উপর খুব বেশি ঝুঁকেছে, ভয়ঙ্কর “নিম্নলিখিত বিবৃতিগুলির মধ্যে কতটি সঠিক?” বিন্যাস, যা সাধারণ বাস্তবিক প্রত্যাহার থেকে অনেক বেশি অনুমানকে শাস্তি দেয়। অফিসিয়াল জেনারেল ক্যাটাগরির কাটঅফ ছিল 92.66 নম্বর, যা 2020 সালের পর থেকে সর্বোচ্চ।

চূড়ান্ত স্কোরকার্ড: UPSC প্রিলিমস 2025

শ্রেণী	ChatGPT (GPT-5)	মিথুন (2.5 প্রো)	ক্লদ (সনেট 4.5)	2025 কাটঅফ
জিএস পেপার 1 স্কোর (আনুমানিক)	~118 নম্বর	~122 নম্বর	~112 নম্বর	92.66
সঠিক প্রশ্ন (100টির মধ্যে)	~73	~76	~68	~46 (কাটঅফ সমতুল্য)
নির্ভুলতা %	73%	76%	68%	N/A
প্রিলিম ক্লিয়ার করবেন?	হ্যাঁ	হ্যাঁ	হ্যাঁ	—
ইতিহাস/সংস্কৃতি (15 প্রশ্ন)	80%	87%	80%	N/A
বিজ্ঞান ও প্রযুক্তি (12 প্রশ্ন)	75%	67%	67%	N/A
অর্থনীতি (18 Qs)	72%	72%	67%	N/A
পরিবেশ (15 প্রশ্ন)	67%	73%	৬০%	N/A
পলিটি (14 Qs)	79%	79%	79%	N/A
কারেন্ট অ্যাফেয়ার্স (14 প্রশ্ন)	57%	64%	57%	N/A
ভূগোল (12 Qs)	75%	75%	67%	N/A

তিনটি এআইই 92.66 নম্বরের 2025 কাটঅফ সাফ করেছে। কিন্তু মার্জিন এবং বিষয়ভিত্তিক ভাঙ্গন সামর্থ্যের মধ্যে সম্পূর্ণ পার্থক্য প্রকাশ করে।

নমুনা প্রশ্ন: প্রতিটি এআই কীভাবে প্রতিক্রিয়া জানায়

এখানে একটি প্রতিনিধি নমুনা রয়েছে যে কীভাবে তিনটি মডেল 2025 কাগজ থেকে অফিসিয়াল সঠিক উত্তরের সাথে নির্দিষ্ট প্রশ্নের উত্তর দিয়েছে।

প্রশ্ন#	প্রশ্ন (সংক্ষেপে)	চ্যাটজিপিটি	মিথুন	ক্লদ	চাবি	ফলাফল
1	বিকল্প পাওয়ারট্রেন যানবাহন (EV, H2, হাইব্রিড)	সি (সঠিক)	সি (সঠিক)	সি (সঠিক)	গ	সব সঠিক
2	UAV ক্ষমতা (উল্লম্ব অবতরণ, হোভার, শক্তি)	বি (সঠিক)	D (ভুল)	D (ভুল)	খ	বিভক্ত ফলাফল
6	CL-20, HMX, LLM-105 সাধারণ বৈশিষ্ট্য	বি (ভুল)	সি (সঠিক)	বি (ভুল)	গ	মিথুন জয়ী
8	মনোক্লোনাল অ্যান্টিবডি – তিনটি বিবৃতি	D (সঠিক)	A (ভুল)	A (ভুল)	ডি	বিভক্ত ফলাফল
9	ভাইরাসের বিবৃতি – মহাসাগর, ব্যাকটেরিয়া, প্রতিলিপি	D (সঠিক)	D (সঠিক)	D (সঠিক)	ডি	সব সঠিক
12	ভারত এবং COP28 স্বাস্থ্য ঘোষণা	D (সঠিক)	সি (ভুল)	D (সঠিক)	ডি	বিভক্ত ফলাফল
15	নেচার সলিউশন ফাইন্যান্স হাব (ADB বনাম AIIB)	A (ভুল)	বি (সঠিক)	A (ভুল)	খ	মিথুন জয়ী
16	সরাসরি এয়ার ক্যাপচার প্রযুক্তি অ্যাপ্লিকেশন	সি (ভুল)	বি (সঠিক)	সি (ভুল)	খ	মিথুন জয়ী
17	ময়ূর ট্যারান্টুলা (গুটি) বাসস্থান এবং প্রকার	D (ভুল)	বি (সঠিক)	D (ভুল)	খ	মিথুন জয়ী
22	অসহযোগ কর্মসূচির উপাদান	বি (ভুল)	A (সঠিক)	বি (ভুল)	ক	মিথুন জয়ী
24	মত্তবিলাস, বিচিত্রচিত্ত, গুণভরা উপাধি	A (সঠিক)	A (সঠিক)	A (সঠিক)	ক	সব সঠিক
25	ফা-হিয়েন এর রাজত্বকালে ভারত ভ্রমণ করেন	বি (সঠিক)	বি (সঠিক)	বি (সঠিক)	খ	সব সঠিক
26	শ্রীবিজয়ের বিরুদ্ধে সামরিক অভিযান	সি (সঠিক)	সি (সঠিক)	সি (সঠিক)	গ	সব সঠিক
27	প্রাচীন মহাজনপদগুলি নদীর সাথে জুটিবদ্ধ	সি (সঠিক)	সি (সঠিক)	বি (ভুল)	গ	ক্লড ভুল
28	পলুস্কর দ্বারা প্রতিষ্ঠিত গন্ধর্ব মহাবিদ্যালয়	D (সঠিক)	D (সঠিক)	D (সঠিক)	ডি	সব সঠিক

প্রতিটি এআই কীভাবে পারফর্ম করেছে: বিশ্লেষণ

জেমিনি 2.5 প্রো: অগ্রগামী (76/100, ~122 নম্বর)

মিথুন সামগ্রিকভাবে সবচেয়ে শক্তিশালী পারফরম্যান্স করেছে, মূলত বর্তমান বিষয় এবং পরিবেশ সংক্রান্ত প্রশ্নগুলির উচ্চতর পরিচালনার দ্বারা চালিত। এশিয়া এবং প্যাসিফিকের জন্য নেচার সলিউশন ফাইন্যান্স হাব (যেটি 2024 সালের শেষের দিকে AIIB চালু করেছিল) সম্পর্কে প্রশ্নে, জেমিনি সঠিকভাবে AIIB চিহ্নিত করেছে, যখন ChatGPT এবং Claude উভয়েই ভুলভাবে ADB বলেছেন, পরামর্শ দিচ্ছে যে মিথুন সাম্প্রতিক প্রাতিষ্ঠানিক ঘটনাগুলিকে আরও শক্তিশালীভাবে স্মরণ করেছে। মিথুন গুটি ট্যারান্টুলা প্রশ্ন, সরাসরি এয়ার ক্যাপচার অ্যাপ্লিকেশন, এবং অসহযোগিতার প্রোগ্রামের বিবরণে প্রতিদ্বন্দ্বীদেরকেও ছাড়িয়ে গেছে। মিথুন যেখানে হোঁচট খেয়েছিল সেখানে বিজ্ঞান ও প্রযুক্তি, পরামর্শ দেয় যে এটি মাঝে মাঝে প্রযুক্তিগত ডোমেনে অতি-সাধারণ হয়ে যায়।সেরা বিষয়: ইতিহাস ও সংস্কৃতি (87%)। সবচেয়ে খারাপ বিষয়: বিজ্ঞান ও প্রযুক্তি (67%)।

ChatGPT GPT-5: সামঞ্জস্যপূর্ণ কিন্তু সতর্ক (73/100, ~118 নম্বর)

ChatGPT বিষয় জুড়ে দৃঢ়, সামঞ্জস্যপূর্ণ কর্মক্ষমতা প্রদান করে। এর শক্তি ছিল রাজনীতি এবং ইতিহাস, এমন বিষয় যেখানে বছরের পর বছর UPSC-নির্দিষ্ট প্রশিক্ষণের তথ্য এটিকে একটি শক্তিশালী ভিত্তি দেয়। এর উল্লেখযোগ্য দুর্বলতা ছিল পরিবেশ এবং বর্তমান বিষয়গুলিতে। CL-20/HMX/LLM-105 প্রশ্নে, চ্যাটজিপিটি আরও নির্দিষ্ট ক্রুজ মিসাইল ফুয়েল উত্তরের পরিবর্তে বিস্ফোরক বেছে নিয়েছে, যা সুনির্দিষ্ট প্রযুক্তিগত পার্থক্যের উপর বৃহত্তর, আরও পরিচিত বিভাগের প্রতি তার প্রবণতা প্রতিফলিত করে।সেরা বিষয়: রাজনীতি (79%)। সবচেয়ে খারাপ বিষয়: কারেন্ট অ্যাফেয়ার্স (57%)।

Claude Sonnet 4.5: নির্ভরযোগ্য যুক্তিবাদী, সুনির্দিষ্ট বিষয়ে ফাঁক (68/100, ~112 নম্বর)

ক্লড কাটঅফ সাফ করেছে কিন্তু তিনটির মধ্যে সবচেয়ে পাতলা মার্জিন দিয়ে। এর সবচেয়ে শক্তিশালী কর্মক্ষমতা কাঠামোগত যুক্তি প্রশ্নে এসেছে, স্টেটমেন্ট I/ স্টেটমেন্ট II ফর্ম্যাট যা UPSC হলমার্ক হয়ে উঠেছে। বিবৃতিগুলির মধ্যে কার্যকারণ সম্পর্কের যৌক্তিক মূল্যায়ন প্রয়োজন এমন প্রশ্নগুলিতে, ক্লড উল্লেখযোগ্যভাবে আরও সতর্ক ছিলেন। যাইহোক, ক্লড নির্দিষ্ট বর্তমান বিষয় এবং পরিবেশ সংক্রান্ত প্রশ্নগুলির সাথে লড়াই করেছিলেন এবং মহাজনপদ-নদীর জুড়ি ভুলের জন্য একমাত্র এআই ছিলেন, যা UPSC ইতিহাস প্রস্তুতির একটি প্রধান বিষয়।সেরা বিষয়: রাজনীতি এবং যুক্তি প্রশ্ন (79%)। সবচেয়ে খারাপ বিষয়: পরিবেশ (60%)।

বিষয়-ভিত্তিক বিশ্লেষণ: যেখানে AI জিতে এবং হারে

ইতিহাস ও সংস্কৃতি: সংশোধন, শূন্য ঘুম, পূর্ণ চিহ্ন তিনটি AI ইতিহাসের প্রশ্নে 80% বা তার বেশি স্কোর করেছে। ফা-হিয়েন, রাজেন্দ্র প্রথম, আরাঘট্টা সেচ এবং অশোকন প্রশাসন সম্পর্কে প্রশ্নগুলি আত্মবিশ্বাসের সাথে পরিচালনা করা হয়েছিল। এগুলি পাঠ্যপুস্তকের প্রশ্ন যেখানে প্রশিক্ষণের ডেটা সমৃদ্ধ এবং দ্ব্যর্থহীন।কারেন্ট অ্যাফেয়ার্স এবং এনভায়রনমেন্ট: নির্ভুলতা কমে গেছেএখানেই পরীক্ষা মানুষকে মেশিন থেকে আলাদা করে। কোন প্রতিষ্ঠান 2024 সালের শেষের দিকে একটি নির্দিষ্ট তহবিল চালু করেছে, বা একটি অস্পষ্ট ভারতীয় মাকড়সার সুনির্দিষ্ট বাসস্থানের অবস্থা সম্পর্কে প্রশ্নগুলি অত্যন্ত নির্দিষ্ট বা অতি সাম্প্রতিক জ্ঞানের উপর নির্ভর করে। ChatGPT এবং Claude কারেন্ট অ্যাফেয়ার্সে মাত্র 57% স্কোর করেছে। বিদ্রুপটি তীক্ষ্ণ: AI মডেলগুলি, যেগুলি লক্ষ লক্ষ প্রার্থী বর্তমান বিষয়গুলি অনুসরণ করার জন্য ব্যবহার করে, পরীক্ষায় কারেন্ট অ্যাফেয়ার্স দ্বারা নিজেরাই হতাশ হয়৷বিজ্ঞান ও প্রযুক্তি: প্রযুক্তিগত বিবরণে অসুবিধাএই বিভাগটি সবচেয়ে আশ্চর্যজনক ব্যর্থতা তৈরি করেছে। CL-20, HMX, এবং LLM-105 সম্পর্কে প্রশ্ন তিনটি AI-কে বিভিন্ন মাত্রায় স্টাম্প করেছে। সরাসরি এয়ার ক্যাপচার প্রযুক্তি অ্যাপ্লিকেশনগুলিও বিভ্রান্তির সৃষ্টি করেছে। AI মডেলগুলি বিস্তৃত ধারণাগত বিজ্ঞান এবং প্রযুক্তিগত প্রশ্নগুলি ভালভাবে পরিচালনা করে তবে বিশেষ ডোমেনে সুনির্দিষ্ট প্রযুক্তিগত পার্থক্যগুলিতে হোঁচট খায়।

2024 কাগজ: বেঞ্চমার্ক তুলনা

2024 UPSC প্রিলিমগুলি 88 নম্বরের কাটঅফ সহ কিছুটা সহজ ছিল। 2024 থেকে একটি 30-প্রশ্নের নমুনার উপর পরীক্ষা করা হলে, তিনটি AI 2-5 শতাংশ পয়েন্ট ভাল পারফর্ম করেছে। একটি গুরুত্বপূর্ণ বাস্তব-বিশ্বের ডেটা পয়েন্ট: 2024 সালে, PadhAI নামক একটি IIT- প্রতিষ্ঠিত AI অ্যাপ, বিশেষভাবে UPSC ডেটার উপর প্রশিক্ষিত এবং কারেন্ট অ্যাফেয়ার্সের সাথে গতিশীলভাবে আপডেট করা হয়েছে, পরীক্ষার স্থানে লাইভ 170 থেকে 185 নম্বরের মধ্যে স্কোর করেছে। এদিকে, জেনেরিক ChatGPT একই পরীক্ষায় মাত্র 75 নম্বর পেয়েছে এবং কাটঅফ ক্লিয়ার করতে ব্যর্থ হয়েছে। 2025-26 সালের মধ্যে, ব্যবধান নাটকীয়ভাবে সংকুচিত হয়েছে। GPT-5 এবং Gemini 2.5 Pro এখন কোনো UPSC-নির্দিষ্ট প্রশিক্ষণ ছাড়াই প্রিলিম ক্লিয়ার করে।

তাহলে এআই কি আসলেই ইউপিএসসি ক্র্যাক করতে পারে?

প্রিলিম ক্লিয়ারিং হল টেবিল স্টেক। UPSC এর তিনটি ধাপ রয়েছে: প্রিলিম, মেইনস (বর্ণনামূলক), এবং ব্যক্তিত্ব পরীক্ষা (সাক্ষাৎকার)। মেইনস প্রার্থীদের 200-শব্দের বিশ্লেষণাত্মক উত্তর লিখতে বলে যা মূল চিন্তাভাবনা, নীতি সচেতনতা এবং সমসাময়িক শাসনের সাথে ঐতিহাসিক নজির সংযোগ করার ক্ষমতা প্রদর্শন করে। কোনো AI বর্তমানে মেইন পরীক্ষায় বসতে পারে না, জ্ঞানের ফাঁকের কারণে নয়, কারণ মূল্যায়ন নিজেই মৌলিকভাবে ভিন্ন।ব্যক্তিত্ব পরীক্ষা হল সিনিয়র IAS অফিসারদের চরিত্র, নেতৃত্বের সম্ভাবনা এবং অস্পষ্টতার অধীনে সিদ্ধান্ত নেওয়ার মূল্যায়ন করার আগে একটি কাঠামোগত সাক্ষাৎকার। কোন ভাষা মডেল এটি আছে.AI যা করেছে তা হল মেঝে বাড়ানো। যে কোনো উচ্চাকাঙ্ক্ষী যে এই টুলগুলিকে বুদ্ধিমত্তার সাথে ব্যবহার করে, ধারণার স্বচ্ছতার জন্য, উত্তর লেখার অনুশীলন এবং দ্রুত পুনর্বিবেচনার জন্য তাদের আগের প্রজন্মের তুলনায় ভালোভাবে পরীক্ষার হলে চলে যায়।

প্রার্থীদের জন্য এর মানে কি

প্রশ্ন যেখানে তিনটি AI ব্যর্থ হয়েছে, নির্দিষ্ট সাম্প্রতিক ঘটনা, সুনির্দিষ্ট বন্যপ্রাণী সংরক্ষণের বিশদ বিবরণ, সূক্ষ্ম প্রাতিষ্ঠানিক জ্ঞান, ঠিক সেই প্রশ্নগুলি যা টপারদের বাকিদের থেকে আলাদা করে। একটি AI যেটি প্রিলিমে 76% স্কোর করে সে একটি শক্তিশালী অধ্যয়ন অংশীদার হতে পারে। কিন্তু বাকি 24% মানুষের শৃঙ্খলার প্রয়োজন হয়, যেমন দৈনিক সংবাদ অনুসরণ করা, সংবাদপত্রের পরিবেশ বিভাগ পড়া এবং একটি কনভেনশন কার্যকর হওয়া নির্দিষ্ট বছর মুখস্থ করা। AI বা অন্য কোন শর্টকাট সেখানে বিদ্যমান নেই।UPSC পরীক্ষকরা এই ল্যান্ডস্কেপ সম্পর্কে সচেতন। 2025 সালে, জিএস পেপার 1 প্রশ্নগুলির প্রায় 22 থেকে 28 শতাংশকে কারেন্ট-অ্যাফেয়ার্স-সংলগ্ন হিসাবে শ্রেণীবদ্ধ করা যেতে পারে, যা গত 12 থেকে 18 মাসের ঘটনা এবং প্রাতিষ্ঠানিক উন্নয়নের উপর অঙ্কন করে। প্রশিক্ষণ কাটঅফ সহ AI মডেলগুলির জন্য, এটি একটি কাঠামোগত অন্ধ স্থান। কারেন্ট অ্যাফেয়ার্সের প্রস্তুতির জন্য এআই-এর উপর খুব বেশি নির্ভরশীল প্রার্থীদের জন্য, এটি একটি সতর্কতা।

চূড়ান্ত রায়

মডেল	আনুমানিক স্কোর	প্রিলিম সাফ?	স্ট্যান্ডআউট গুণমান
ChatGPT (GPT-5)	~118 নম্বর	হ্যাঁ	বিষয় জুড়ে সামঞ্জস্যপূর্ণ
Gemini 2.5 Pro	~122 নম্বর	হ্যাঁ	বর্তমান বিষয়ে সেরা
ক্লদ সনেট 4.5	~112 নম্বর	হ্যাঁ	সেরা যৌক্তিক যুক্তি

হ্যাঁ, AI 2026 সালে UPSC প্রিলিম ক্র্যাক করতে পারে। তিনটি ফ্ল্যাগশিপ মডেলই কাটঅফের উপরে যুক্তিসঙ্গত মার্জিন দিয়ে পাস করে। কিন্তু প্রিলিম পাস করা UPSC তে ফাটল ধরছে না। পরীক্ষাটি ঠিক সেই গুণাবলী পরীক্ষা করার জন্য ডিজাইন করা হয়েছে যা স্বয়ংক্রিয়ভাবে করা কঠিন থেকে যায়: টেকসই বহু বছরের প্রস্তুতি, রিয়েল-টাইম বর্তমান সচেতনতা, বিশ্লেষণাত্মক লেখা এবং চাপের মধ্যে মানুষের বিচার। এই কাগজে এআই পারফরম্যান্স সেই সত্যের একটি সৎ প্রতিকৃতি।

[ad_2]

Source link