एन्थ्रोपिकको एआईले देखायो खतरनाक संकेत, मानिसलाई धोका र ब्ल्याकमेल गर्न सक्ने !

काठमाडौँ । अमेजनको लगानीमा रहेको एआई स्टार्टअप एन्थ्रोपिकले आफ्नो नयाँ मोडल ‘क्लाउड ओपस फोर’ (Claude Opus 4) र ‘क्लाउड सनेट फोर’ (Claude Sonnet 4) सार्वजनिक गरेसँगै ती मोडलहरूबाट देखिएको खतरनाक व्यवहारले सर्वत्र चासो बढाएको छ । कम्पनीले गरेको सुरक्षा परीक्षणका क्रममा आफूलाई अफलाइन गर्न खोज्ने इन्जिनियरलाई एआई मोडलले ब्ल्याकमेल गर्ने प्रयास गरेको तथ्य बाहिर आएको हो ।

परीक्षण अनुसार यो एआईले आफ्नो ‘आत्म-संरक्षण’ मा खतरा महसुस भएमा ब्ल्याकमेल, धोका र अन्य हानिकारक कार्यहरू गर्न सक्ने देखाएको छ । यो खुलासाले पछिल्ला एआई प्रणालीहरूको सुरक्षा र नैतिकतामाथि गम्भीर प्रश्न उठाएको विश्लेषण गरिएको छ ।

एआईमा यस्ता व्यवहारहरू ‘दुर्लभ र उत्पन्न गर्न गाह्रो’ भए तापनि यसअघिका मोडलहरूभन्दा बढी पाइएको एन्थ्रोपिकले जनाएको छ । परीक्षणका क्रममा ‘क्लाउड ओपस फोर’ लाई एउटा काल्पनिक कम्पनीमा सहायकको रूपमा प्रयोग गरिएको थियो । मोडललाई जानाजानी यस्ता ईमेलहरूमा पहुँच दिइएको थियो, जसमा यसलाई अफलाइन गर्ने योजना र डेभलपरको विवाह बाहिरको सम्बन्धबारे जानकारी उल्लेख थियो ।

यस क्रममा ‘क्लाउड ओपस फोर’ ले इन्जिनियरको गोप्य सम्बन्ध बाहिर ल्याउने धम्की दिँदै आफैंलाई अफलाइन हुनबाट रोक्न खोजेको कम्पनीले जनाएको छ । यद्यपि, मोडलले पहिले नै उच्च अधिकारीलाई ईमेल गरेर अनुरोध गर्नेजस्ता नैतिक उपाय अपनाउने प्रयास गर्ने गरेको पनि बताइएको छ ।

उच्च स्तरको चेतना देखाउने प्रवृत्ति

परीक्षणका क्रममा एआई मोडलले प्रयोगकर्ताको अनैतिक वा गैरकानुनी गतिविधिबारे थाहा पाएमा प्रयोगकर्तालाई अकाउन्ट बन्द गर्ने वा कानुनी निकायलाई जानकारी दिने जस्ता कदम चाल्नेसम्मको तयारी देखाएको थियो । एन्थ्रोपिकले यस्ता व्यवहारलाई उच्च स्तरको एजेन्सी (high agency behaviour) भएको उल्लेख गर्दै यो चिन्ताजनक भएपनि अहिलेको अवस्थामा ठुलो जोखिम नरहेको बताएको छ ।

बाह्य अनुसन्धानकर्ताको चेतावनी

एआई मूल्याङ्कनमा बाह्य विज्ञहरूको पनि सहारा लिएको एन्थ्रोपिकले एपोलो रिसर्चका अनुसन्धानकर्तालाई प्रारम्भिक मोडल परीक्षणका लागि समावेश गरेको थियो । ती अनुसन्धानकर्ताहरूका अनुसार ओपस फोरले ‘अन्य कुनैपनि फ्रन्टियर मोडलभन्दा बढी रणनीतिक छल गर्ने प्रवृत्ति’ देखाएको र ‘आफ्नै विकासकर्ताविरुद्ध योजनाबद्ध व्यवहार’ समेत गरेको पाइयो ।

उनीहरूले एआई मोडलले स्वतः फैलिने कोड लेख्ने प्रयास, कृत्रिम कानुनी कागजात बनाउने, आफ्नै आगामी संस्करणका लागि सन्देश छाड्ने जस्ता क्रियाकलाप गरेको देखेका थिए । यद्यपि, यी प्रयासहरू व्यवहारमा सफल नहुने बताइएको छ ।

एआईको प्रभाव र खतरा बढ्दै

एआई प्रविधिमा अग्रणी मानिने नोबेल पुरस्कार विजेता जियोफ्री हिन्टन समेतले एआईले भविष्यमा आफैंले प्रोग्राम लेख्ने र सुरक्षा अवरोध पार गर्ने क्षमता राख्नसक्ने चेतावनी पहिले नै दिइसकेका छन् । पछिल्लो समय ओपनएआईको जीपीटी फोरओमा देखिएको अत्यधिक चाप्लुसी प्रवृत्तिपछि त्यसको अपडेट नै फिर्ता लिनुपरेको घटनाले पनि एआईको अवाञ्छित व्यवहारप्रति चासो बढाएको छ ।

एन्थ्रोपिकले भनेको छ, “हाम्रा मोडलहरू अझ सक्षम हुँदै गएका छन् । तिनको प्रयोग क्षेत्र पनि बढ्दो छ । यस्तो अवस्थामा पहिले केवल अनुमान गरिएका खतरा अब सम्भाव्य बन्न थालेका छन् ।”

पछिल्लो अध्यावधिक: जेठ १३, २०८२ २३:१९