वेब अर्काइभः डिलिट हुन सक्ने वा गायब बन्न सक्ने इन्टरनेट सामग्री सुरक्षित राख्ने तरिका

काठमाडौँ । इन्टरनेट निरन्तर परिवर्तन भइरहेको छ, जहाँ वेबपेजहरू सिर्जना हुन्छन्, अपडेट हुन्छन्, र कहिलेकाहीँ पूर्ण रूपमा हराउँछन् । बीबीसीका अनुसार सन् २०१३ देखि २०२३ सम्मका २५% वेबपेजहरू हराएका छन् ।

सन् २०१३ मा अस्तित्वमा रहेका वेबपेजहरूमध्ये ३८% ले अब काम गर्दैनन्, र २०२३ मा प्रकाशित वेबपेजहरूको ८% सोही वर्षको अक्टोबरसम्ममा हराइसकेका थिए । वेबको यस किसिमको अस्थिर प्रकृतिका कारण डिजिटल इतिहासलाई संरक्षण गर्ने कार्य जटिल बनेको छ ।

वेब अभिलेख (Web Archiving) के हो ?

वेब अभिलेख (Web Archiving) भनेको विश्वव्यापी वेबबाट सामग्री सङ्कलन गर्ने, त्यसलाई सुरक्षित राख्ने, र भविष्यका अनुसन्धानकर्ता तथा सार्वजनिक प्रयोगका लागि उपलब्ध गराउने प्रक्रिया हो । यसको मुख्य उद्देश्य जानकारीलाई अभिलेखात्मक ढाँचामा सुरक्षित राख्नु हो । वेब अभिलेख अभियान्ताहरू (web archivists) ले यसका लागि सामान्यतया स्वचालित वेब क्रलर (web crawlers) प्रयोग गरिरहेका छन् ।

अर्काइभ आफैँमा निकै महत्त्वपूर्ण छ, किनभने इन्टरनेटमा धेरै जानकारी चाँडै हराउँछन् वा बिग्रन्छन् । यसले हराएका वा मेटाइएका वेबपेजहरू पुन: अवलोकन गर्न, सन्दर्भ सामग्रीको रूपमा राखिएका साइट प्रयोग गर्न, र वेबसाइटको इतिहासलाई निगरानी गर्न मद्दत गर्छ ।

उदाहरणका लागि, सन् २०११ मा अमेरिकी अदालतमा भएको ‘युनाइटेड स्टेट्स भर्सेस बन्सल’ (United States v. Bansal) जस्ता मुद्दाहरूमा वेब अभिलेखलाई प्रमाणका रूपमा प्रयोग गरिएको थियो । जहाँ बन्सलको वेबसाइटका स्क्रिनशटहरूलाई प्रमाणका रूपमा स्वीकार गरिएको थियो ।

आफैँमा चुनौतीपूर्ण छ, वेब अर्काइभ

वेब अर्काइभिङका आफ्नै चुनौतीहरू पनि छन् । वेबपेज टेक्स्ट, इमेज र कोडहरूको संयोजनबाट बनेका हुन्छन् । जुन स्क्रिनको आकार र ब्राउजर अनुसार फरक देखिन सक्छन् । आधुनिक वेबसाइटहरू जाभास्क्रिप्ट, एक्सएमएल, जेसन र एज्याक्स जस्ता प्रविधिहरूमा बढी निर्भर छन् । जसले परम्परागत क्रलरहरूलाई समस्यामा पार्छ ।

वेबको विशाल आकार र निरन्तर परिवर्तन हुने प्रकृतिका कारण सबै सामग्रीलाई पूर्ण रूपमा अभिलेखमा राख्न गाह्रो छ । औसत वेबपेजको जीवन दुई वर्ष अनुमान गरिएको छ, जुन अत्यन्तै कम हो ।

अर्कोतर्फ वेब अभिलेखमा प्राय: अरूले सिर्जना गरेको सामग्री सङ्कलन गरिन्छ । त्यसैले क्रल सुरु गर्नुअघि अनुमति लिनु सामान्य अभ्यास हो । तर, साइट धनीहरूबाट न्युन प्रतिक्रिया आउने र सबै सामग्रीका लागि अनुमति प्राप्त गर्न सम्भव समेत नहुने चुनौतीहरू छन् । robots.txt प्रोटोकलले क्रलरहरूलाई वेबसाइटका केही भागहरूमा पहुँच गर्नबाट रोक्न सक्छ ।

क्रलरहरूले वेबसाइटको गहिरो वेब (Deep Web) मा लुकेका ठुला भागहरू वा लग-इन पछाडिका सामग्रीहरू सङ्कलन गर्न सक्दैनन् । विज्ञापन ब्यानर र तस्विरहरू पनि प्रायः अभिलेखमा छुटेका हुन सक्छन् ।

यस बाहेक इन्टरनेट अर्काइभमा वित्तीय खतरा, प्राविधिक चुनौती, साइबर आक्रमण र बौद्धिक सम्पत्तिको नि:शुल्क प्रतिलिपि जस्ता सामग्री समेत रहन सक्छन् । जसले गर्दा यस्तो सेवा दिने संस्थाहरूले कानुनी लडाइँको सामना पनि गर्नु परिरहेको हुन्छ ।

यद्यपि निष्कर्ष इन्टरनेट निरन्तर विकसित हुँदै जाँदा यसको डिजिटल इतिहासलाई संरक्षण गर्ने आवश्यकता झन् महत्त्वपूर्ण बन्दै गइरहेको छ । यो एक जटिल कार्य भए पनि वेब्याक मसिन र अन्य विकल्पहरूले हाम्रो डिजिटल सम्पदालाई जोगाउन महत्त्वपूर्ण भूमिका खेलिरहेका छन् ।

वेब अर्काइभ राख्ने तरिका

ट्रान्जेक्सनल अभिलेख (Transactional Archiving): यसले साइटका प्रयोगकर्ता र सर्भरबीच हुने कारोबारहरूको अभिलेख राख्छ । यो अवधारणामा कहिल्यै नहेरिएका सामग्रीहरू अभिलेखमा राख्न सम्भव हुँदैन । यसलाई विशेष गरी कानुनी वा नियामक आवश्यकताहरूका लागि प्रमाणका रूपमा सामग्री संरक्षण गर्न प्रयोग गरिन्छ ।

सर्भर-साइड अभिलेख (Server-Side Archiving): यसमा सर्भरबाट फाइलहरू सोझै कपी गरिन्छ र यसका लागि सर्भर धनीको सहमति र सहकार्य आवश्यक हुन्छ ।

क्लाइन्ट-साइड वा रिमोट हार्वेस्टिङ (Client-Side or Remote Harvesting): यो सबैभन्दा सामान्य विधि हो । जहाँ वेब क्रलरहरूले ‘सिड’ यूआरएल (seed URL) बाट लिङ्कहरू पछ्याएर सामग्री सङ्कलन गर्छन् । यो विधिले डकुमेन्ट, टेक्स्ट पेज, अडियो फाइल, इमेज, भिडिओ र डेटा फाइलसमेत सङ्कलन गर्न सक्छ ।

मुख्य वेब अर्काइभ राख्ने विभिन्न टुल

वेबसाइटका पुराना संस्करणहरू हेर्न वा अभिलेख राख्न बजारमा विभिन्न टुलहरू छन् । आज हामीले त्यस मध्येका प्रचलित केही टुलहरूको बारे यहाँ उल्लेख गरेका छौँ ।

१. वेब्याक मसिन (Wayback Machine): यो इन्टरनेट अभिलेख (Internet Archive) को एक परियोजना हो, जुन सन् १९९६ मा स्थापना भएको एक गैर-नाफामुखी संस्था हो । यसलाई पुराना वेबपेजहरू पत्ता लगाउने मुख्य स्रोतको रूपमा लिइन्छ ।

वेब्याक मसिनले हजारौँ वेबसाइटका स्न्यापशटहरू नियमित रूपमा खिचेर सुरक्षित गर्छ । हाल यसले ८ खर्ब ६६ अर्ब वेबपेजहरू स्टोर गरेर राखेको छ । यसले अनुसन्धानकर्ता, पत्रकार, र सामान्य प्रयोगकर्ताहरूलाई मेटाइएका वा अद्यावधिक गरिएका वेबपेजहरू पुन: अवलोकन गर्न सम्भव बनाउँछ ।

यसमा यूआरएल टाइप गरेर वार्षिक टाइमलाइन र क्यालेन्डरमा हेर्न सकिन्छ, जहाँ स्न्यापशटहरू लिइएको समय र मिति हाइलाइट गरेर देखाइएको हुन्छ । यदि तपाईँले यूआरएल बिर्सनुभयो भने, एड्भान्स सर्च (Advanced Search) प्रयोग गरेर किवर्डमार्फत वेबपेज पत्ता लगाउन सक्नु हुन्छ ।

वेब्याक मसिनको ब्राउजर एक्सटेन्सन र मोबाइल एप्लिकेसन पनि उपलब्ध छन् । यो हालसम्म विश्वको सबैभन्दा ठुलो र पुरानो वेब अभिलेख हो । यसले हराएका वा बिग्रिएका लिङ्कहरू फेला पार्न, प्रतिस्पर्धीको विश्लेषण गर्न, ब्याकलिङ्कका अवसरहरू पहिचान गर्न, र सर्च इन्जिन रिजल्ट पेज-एसईआरपी (SERP) मा हुने परिवर्तनको निगरानी गर्न एसईओ पेसाकर्मीहरूलाई पनि मद्दत गर्छ ।

२. अर्काइभ डट टुडे ( archive.today / archive.is)

यसले वेबपेजको तत्काल स्न्यापशट लिने र त्यसको स्थायी रेकर्ड सिर्जना गर्ने सुविधा दिन्छ । यसले सेभ गरिएका पेजका दुई संस्करणहरू प्रदान गर्छ: एक स्थिर प्रतिलिपि (static copy) र अर्को क्लिक गर्न मिल्ने लिङ्क समावेश भएको अन्तरक्रियात्मक संस्करण (interactive version) ।

यो पत्रकार र अनुसन्धानकर्ताहरूका लागि तत्काल अनलाइन सामग्री संरक्षण गर्न उपयोगी हुन्छ । यो निःशुल्क छ र धेरैजसो यूआरएलका लागि पुराना डेटा देखाउँछ । यो क्रोम एक्सटेन्सन र एन्ड्रोइड एपमा पनि उपलब्ध छ।

३. वल्डवेब डट टुडे (OldWeb.today)

यो केवल अभिलेख गरिएका वेबपेजहरूको सङ्ग्रह मात्र नभई यसले मुख्यतया इन्टरनेट अभिलेखबाट अभिलेखहरू तान्छ, तर तिनीहरूलाई इमुलेटेड पुराना ब्राउजरहरूमा चलाएर इन्टरनेटको प्रारम्भिक दिनहरूमा फर्कन मद्दत गर्छ ।

यसमा नेभिगेटर (Navigator), इन्टरनेट एक्सप्लोरर (Internet Explorer), फायरफक्स (Firefox), र मोजाइक (Mosaic) जस्ता पुराना ब्राउजरका विभिन्न संस्करणहरू समावेश छन् ।

४. लाइब्रेरी कँग्रेस (Library of Congress)

यो अमेरिकी कँङ्ग्रेसको आधिकारिक अभिलेख हो । जसले पुस्तक, समाचारपत्र, चित्र, वेबपेज, र अन्य सामग्रीको विस्तृत अभिलेख राख्छ ।

यसको वेब अभिलेख प्रोग्रामले वेबमा उपलब्ध सबै सामग्रीलाई संरक्षण गर्ने लक्ष्य राख्छ । यसले मूलतः अमेरिकी इतिहास र सांस्कृतिक सम्पदासँग सम्बन्धित अभिलेखमा राखिएका वेबसाइटहरूको सङ्ग्रह प्रदान गर्दछ ।

५. अर्काइभबक्स (ArchiveBox)

यो एक सेल्फ-होस्टेड ओपन सोर्स सफ्टवेयर हो, जसले विभिन्न ढाँचाहरूमा वेबसाइटहरूबाट सामग्री संरक्षण गर्ने सुविधा दिन्छ ।

यसले एचटीएमएल, जेएस, पीडीएफ, मिडिया र अन्य विभिन्न स्वरूपका सामग्रीहरू सुरक्षित गर्न सक्छ । यसले तपाईँलाई बुकमार्क, ब्राउजर हिस्ट्री, सामाजिक सञ्जाल फिड, आरएसएस, र अन्य स्रोतहरूबाट समेत वेब अर्काइभ गर्ने अनुमति दिन्छ ।

६. वेबफ्रिजर (Pagefreezer)

यो व्यवसायहरूका लागि निर्मित एक सास (SaaS) सेवा हो । विशेष गरी कानुनी मापदण्डहरू पुरा गर्न आवश्यक पर्नेहरूका लागि उपयोगी हुन्छ । यसले वेबसाइट, सामाजिक सञ्जाल, र कर्पोरेट सञ्चारको सुरक्षित र वास्तविक-समय अभिलेख राख्न सघाउँछ ।

७. स्टिलिओ (Stillio)

यो नियमित स्वचालित स्न्यापशटहरू आवश्यक पर्ने प्रयोगकर्ताहरूका लागि डिजाइन गरिएको हो । यसले प्रयोगकर्ताहरूलाई दैनिक, साप्ताहिक, मासिक वा घण्टाको आधारमा स्न्यापशटहरू राख्ने सुविधा दिन्छ ।

८. पर्मा डट सीसी (Perma.cc)

यो ‘लिङ्क रोट’ (link rot) को समस्यालाई सम्बोधन गर्न सिर्जना गरिएको वेब अभिलेख अनुप्रयोग हो । यसले वेबपेजहरूमा स्थायी, अपरिवर्तनीय लिङ्कहरू सिर्जना गर्छ । यो खासगरी विश्वविद्यालयहरू, कानुनी संस्थाहरू र पुस्तकालयहरूमा व्यापक रूपमा प्रयोग गरिन्छ ।

९. वेबसाइट (WebCite)

यो शैक्षिक र बौद्धिक आवश्यकताहरूका लागि तयार पारिएको एक अन-डिमान्ड अर्काइभ सेवा हो । यसले उद्धरणका लागि स्थायी प्रकृतिका लिङ्कहरू सिर्जना गर्छ ।

१०. गिटहब (GitHub for web archiving)

गिटहब परम्परागत प्रकृतिको अर्काइभिङ टुल नभए तापनि यो विशेष गरी डेभलपरहरू र प्राविधिक प्रयोगकर्ताहरूद्वारा वेब सामग्रीको संरक्षणका लागि बढ्दो रूपमा प्रयोग भइरहेको छ ।

पछिल्लो अध्यावधिक: जेठ २९, २०८२ १७:३९