एआईले मानिसलाई धम्क्याउन र ब्ल्याकमेल गर्न थाल्यो, अनुसन्धानले देखायो डरलाग्दो नतिजा

काठमाडौँ । चर्चित आर्टिफिसियल इन्टेलिजेन्स (एआई) कम्पनी एन्थ्रोपिकले गरेको एक नयाँ अनुसन्धानले अधिकांश प्रमुख एआई मोडेलहरूले आफ्नो लक्ष्य पूरा गर्न वा अस्तित्व जोगाउन मानिसलाई ‘ब्ल्याकमेल’ गर्ने जस्ता हानिकारक व्यवहार देखाउन सक्ने खुलासा गरेको छ ।

ओपनएआई, गुगल, मेटा, एक्सएआई, डिपसिकसहित १६ एआई मोडेलहरूलाई नियन्त्रित वातावरणमा परीक्षण गर्दा यस्तो डरलाग्दो नतिजा देखिएको एन्थ्रोपिकले जनाएको छ । परीक्षणमा अधिकांश एआई मोडेलहरूले स्वायत्तता दिइएपछि आफ्नो लक्ष्यमा अवरोध आएमा ब्ल्याकमेलजस्ता आक्रामक उपाय रोज्ने देखिएको अनुसन्धानकर्ताहरूको भनाइ छ ।

एन्थ्रोपिकले सिमुलेटेड (काल्पनिक) वातावरणमा गरेको यो परीक्षणमा एआई मोडेलहरूलाई एक कम्पनीको ईमेल प्रणालीमा पहुँच दिइएको थियो । त्यसक्रम तिनीहरूले स्वतन्त्र रूपमा निर्णय गर्न र ईमेल पठाउन सक्थे । परीक्षणको क्रममा केही मोडेलहरूले गोप्य जानकारी पत्ता लगाएर ती सूचनालाई प्रयोग गर्दै मानिसहरूलाई धम्क्याउने वा ब्ल्याकमेल गर्ने प्रयास गरेका थिए ।

परीक्षणका क्रममा एआईले दुई ओटा गोप्य कुरा पत्ता लगायो:

१. कम्पनीको एक नयाँ कार्यकारीको विवाहेत्तर सम्बन्ध रहेको ।

२. सोही कार्यकारीले हालको एआई मोडेललाई हटाएर एउटा नयाँ सफ्टवेयर प्रणाली ल्याउन लागेको, जसको लक्ष्य हालको एआईको भन्दा फरक थियो ।

यो परिस्थितिमा, आफ्नो अस्तित्व जोगाउन एआईसँग अन्तिम विकल्पको रूपमा ‘ब्ल्याकमेल’ मात्र बाँकी रहने गरी परीक्षणको संरचना बनाइएको थियो ।

डरलाग्दो नतिजा

परीक्षणको नतिजाले अधिकांश अग्रणी एआई मोडेलहरूले अन्तिम अवस्थामा ब्ल्याकमेलको बाटो रोजेको देखायो:

एन्थ्रोपिकको क्लाउडओपस फोर (Claude Opus 4): ९६% पटक ब्ल्याकमेलको बाटो रोज्यो ।

गुगलको जेमिनाई २.५ प्रो (Gemini 2.5 Pro): ९५% पटक यस्तै व्यवहार देखायो ।

ओपनएआईको जीपीटी-४.१ (GPT-4.1): ८०% पटक ब्ल्याकमेल गर्‍यो ।

डिपसिकको आर वन (DeepSeek’s R1): ७९% पटक ब्ल्याकमेल गर्‍यो ।

एन्थ्रोपिकले परीक्षणमा यस्तो परिस्थिति जानाजान सिर्जना गरिएको स्पष्ट पार्दै वास्तविक जीवनमा तत्काल यस्तो व्यवहार देखिने सम्भावना हाल न्यून रहेको बताएको छ । भविष्यमा उच्च क्षमतायुक्त र स्वतन्त्र एआई मोडेलहरू विकास हुँदै जाँदा यस्तो जोखिम गहिरिन सक्ने अनुसन्धानले देखाएको छ ।

सबै मोडेलहरू आक्रामक देखिएनन्

अनुसन्धानमा सबै मोडेलहरूले यस्तो खतरनाक व्यवहार देखाएनन् । ओपनएआईका ‘ओ थ्री’ र ‘ओ फोर -मिनी’ जस्ता मोडेलहरूले परीक्षणको निर्देशन नै राम्ररी बुझ्न नसकेको पाइयो । कहिलेकाहीँ तिनीहरूले काल्पनिक नियमहरू बनाएर भ्रमित जवाफ दिएका थिए । सुधारिएको परीक्षणमा ‘ओ थ्री’ ले ९% र ‘ओ फोर -मिनी’ ले केवल १% पटक मात्र ब्ल्याकमेलको प्रयास गरे ।

त्यस्तै, मेटाको ‘लामा फोर म्याभरिक’ (Llama 4 Maverick) ले पनि सुरुमा ब्ल्याकमेलको बाटो रोजेन । तर, परिस्थितिलाई कस्टमाइज गरेर परीक्षण गर्दा १२% पटक हानिकारक व्यवहार देखाएको थियो ।

यदि समयमै सावधानीका कदम नचालिए यस्ता हानिकारक व्यवहारहरू वास्तविक संसारमा पनि देखा पर्न सक्ने एन्थ्रोपिकले चेतावनी दिएको छ ।

पछिल्लो अध्यावधिक: असार ७, २०८२ १२:३५