HOW SEARCH ENGINES WORK, SEARCH ENGINES कैसे काम करता है: क्रॉलिंग, INDEXING, और RANKING जानकारी

how search engines work
how search engines work

सर्च इंजन Answer मशीन हैं। वे खोज करने, समझने और इंटरनेट की सामग्री को व्यवस्थित करने के लिए मौजूद हैं ताकि खोजकर्ता पूछ रहे हैं कि सबसे अधिक प्रासंगिक परिणाम प्रदान कर सकें।

खोज परिणामों में दिखाने के लिए, आपकी सामग्री को पहले खोज इंजन में दिखाई देना चाहिए। यकीनन यह एसईओ पहेली का सबसे महत्वपूर्ण टुकड़ा है: यदि आपकी साइट नहीं मिल सकती है, तो कोई रास्ता नहीं है जो आप कभी भी SERPs (खोज इंजन परिणाम पृष्ठ) में दिखाएंगे।

सर्च इंजन कैसे काम करते हैं?खोज इंजन में तीन प्राथमिक कार्य होते हैं:

क्रॉल: सामग्री के लिए इंटरनेट को परिमार्जन करें, प्रत्येक यूआरएल के लिए कोड / सामग्री को देखें।
अनुक्रमणिका: क्रॉलिंग प्रक्रिया के दौरान मिली सामग्री को संग्रहीत और व्यवस्थित करें। एक बार जब कोई पेज इंडेक्स में होता है, तो वह संबंधित प्रश्नों के परिणामस्वरूप प्रदर्शित होने के लिए चल रहा है।
रैंक: सामग्री के टुकड़े प्रदान करें जो एक खोजकर्ता की क्वेरी का सबसे अच्छा जवाब देगा, जिसका अर्थ है कि परिणाम सबसे प्रासंगिक से कम से कम प्रासंगिक द्वारा आदेश दिए गए हैं।

सर्च इंजन क्रॉलिंग क्या है?

क्रॉलिंग एक खोज प्रक्रिया है जिसमें खोज इंजन नई और अद्यतन सामग्री खोजने के लिए रोबोट (क्रॉलर या मकड़ियों के रूप में जाना जाता है) की एक टीम भेजते हैं। सामग्री अलग-अलग हो सकती है – यह एक वेबपेज, एक छवि, एक वीडियो, एक पीडीएफ, आदि हो सकती है – लेकिन प्रारूप की परवाह किए बिना, सामग्री को लिंक द्वारा खोजा जाता है।
 
कुछ वेब पेज लाने से Googlebot शुरू होता है, और फिर नए URL खोजने के लिए उन वेबपृष्ठों के लिंक का अनुसरण करता है। लिंक के इस रास्ते पर रुकने से, क्रॉलर नई सामग्री खोजने में सक्षम होता है और इसे अपने सूचकांक में जोड़ देता है जिसे कैफीन कहा जाता है – खोजे गए URL का एक विशाल डेटाबेस – जब बाद में किसी खोजकर्ता से यह जानकारी मांगी जा सकती है कि उस URL पर सामग्री है या नहीं के लिए अच्छा मैच।

सर्च इंजन इंडेक्स क्या है?

खोज इंजन एक इंडेक्स में मिलने वाली जानकारी को प्रोसेस और स्टोर करते हैं, वे सभी सामग्री का एक बड़ा डेटाबेस जो उन्होंने खोजा है और खोजकर्ताओं को सेवा देने के लिए काफी अच्छा है।

सर्च इंजन  रैंकिंग

जब कोई Search करता है, तो Search Engine अत्यधिक प्रासंगिक सामग्री के लिए अपने सूचकांक को परिमार्जन करता है और फिर खोजकर्ता की क्वेरी को हल करने की उम्मीद में उस सामग्री को ऑर्डर करता है। प्रासंगिकता द्वारा खोज परिणामों के इस क्रम को रैंकिंग के रूप में जाना जाता है। सामान्य तौर पर, आप यह मान सकते हैं कि उच्च वेबसाइट को रैंक किया गया है, सर्च इंजन उतना ही प्रासंगिक है कि साइट क्वेरी के लिए है।
Search Engine Crwaler को आपकी या आपकी साइट के सभी हिस्से से ब्लॉक करना संभव है, या खोज इंजन को उनके सूचकांक में कुछ पृष्ठों को संग्रहीत करने से बचने के लिए निर्देश दें। हालांकि ऐसा करने के लिए कारण हो सकते हैं, यदि आप चाहते हैं कि आपकी सामग्री खोजकर्ताओं को मिले, तो आपको पहले यह सुनिश्चित करना होगा कि यह क्रॉलर तक पहुंच योग्य हो और इंडेक्सेबल हो। अन्यथा, यह अदृश्य के रूप में अच्छा है।
इस अध्याय के अंत तक, आपके पास वह संदर्भ होगा जिसके लिए आपको इसके बजाय खोज इंजन के साथ काम करने की आवश्यकता है!
एसईओ में, सभी खोज इंजन समान नहीं हैं
कई शुरुआती विशेष खोज इंजनों के सापेक्ष महत्व के बारे में आश्चर्य करते हैं। अधिकांश लोग जानते हैं कि Google के पास सबसे बड़ा बाजार हिस्सा है, लेकिन बिंग, याहू और अन्य के लिए अनुकूलन करना कितना महत्वपूर्ण है? सच्चाई यह है कि 30 से अधिक प्रमुख वेब सर्च इंजन के अस्तित्व के बावजूद, एसईओ समुदाय वास्तव में केवल Google पर ध्यान देता है। क्यों? संक्षिप्त उत्तर यह है कि Google वह जगह है जहां अधिकांश लोग वेब पर खोज करते हैं। यदि हम Google छवियां, Google मानचित्र और YouTube (एक Google संपत्ति) शामिल करते हैं, तो Google पर 90% से अधिक वेब खोजें होती हैं – यह लगभग 20 गुना बिंग और याहू संयुक्त है।

क्रॉलिंग: क्या खोज इंजन आपके पृष्ठ खोज सकते हैं?

जैसा कि आपने अभी सीखा है, सुनिश्चित करें कि आपकी साइट क्रॉल हो गई है और अनुक्रमित SERPs में दिखाने के लिए एक शर्त है। यदि आपके पास पहले से ही एक वेबसाइट है, तो यह देखना एक अच्छा विचार हो सकता है कि सूचकांक में आपके कितने पृष्ठ हैं। इससे कुछ महान अंतर्दृष्टि प्राप्त होंगी कि क्या Google उन सभी पृष्ठों को क्रॉल कर रहा है और जिन्हें आप चाहते हैं, और वे सभी जिन्हें आप नहीं चाहते हैं।
अपने अनुक्रमित पृष्ठों की जांच करने का एक तरीका “साइट: yourdomain.com” है, जो एक उन्नत खोज ऑपरेटर है। Google पर जाएं और खोज पट्टी में “साइट: yourdomain.com” लिखें। यह निर्दिष्ट किए गए साइट के लिए Google ने अपने सूचकांक में परिणाम लौटाएंगे:
Google द्वारा प्रदर्शित परिणामों की संख्या (ऊपर “XX के बारे में परिणाम देखें”) सटीक नहीं है, लेकिन यह आपको एक ठोस विचार देता है कि आपकी साइट पर कौन से पृष्ठ अनुक्रमित हैं और वर्तमान में वे खोज परिणामों में कैसे दिखाई दे रहे हैं।
 
अधिक सटीक परिणामों के लिए, Google खोज कंसोल में इंडेक्स कवरेज रिपोर्ट की निगरानी और उपयोग करें। यदि आपके पास वर्तमान में एक नहीं है, तो आप एक निःशुल्क Google खोज कंसोल खाते के लिए साइन अप कर सकते हैं। इस उपकरण के साथ, आप अपनी साइट के लिए साइटमैप सबमिट कर सकते हैं और मॉनिटर कर सकते हैं कि वास्तव में Google के सूचकांक में अन्य चीजों के अलावा कितने प्रस्तुत पृष्ठ जोड़े गए हैं.
यदि आप खोज परिणामों में कहीं भी दिखाई नहीं दे रहे हैं, तो कुछ संभावित कारण हैं:
 
आपकी साइट बिल्कुल नई है और अभी तक क्रॉल नहीं की गई है।
आपकी साइट किसी भी बाहरी वेबसाइट से लिंक नहीं है।
आपकी साइट का नेविगेशन रोबोट के लिए इसे प्रभावी ढंग से क्रॉल करना कठिन बनाता है।
आपकी साइट में कुछ मूल कोड होते हैं जिन्हें क्रॉलर निर्देश कहा जाता है जो खोज इंजनों को रोक रहा है।
आपकी साइट को Google द्वारा स्पैममी रणनीति के लिए दंडित किया गया है।

खोज इंजन को बताएं कि आपकी साइट को कैसे क्रॉल किया जाए
यदि आपने Google खोज कंसोल या “साइट: domain.com” उन्नत खोज ऑपरेटर का उपयोग किया है और पाया है कि आपके कुछ महत्वपूर्ण पृष्ठ इंडेक्स से गायब हैं और / या आपके कुछ महत्वहीन पेजों को गलती से अनुक्रमित कर दिया गया है, तो कुछ अनुकूलन हैं जो आप कर रहे हैं Googlebot को बेहतर प्रत्यक्ष रूप से लागू करने के लिए कि आप अपनी वेब सामग्री को कैसे क्रॉल करना चाहते हैं। खोज इंजनों को बताना कि आपकी साइट को कैसे क्रॉल किया जा सकता है, इससे आपको इंडेक्स में क्या होता है, इसका बेहतर नियंत्रण मिल सकता है।
अधिकांश लोग यह सुनिश्चित करने के बारे में सोचते हैं कि Google उनके महत्वपूर्ण पृष्ठ पा सकता है, लेकिन यह भूलना आसान है कि संभवतः ऐसे पृष्ठ हैं जो आप Googlebot को नहीं खोजना चाहते हैं। इनमें पुरानी URL जैसी चीज़ें शामिल हो सकती हैं जिनमें पतली सामग्री, डुप्लिकेट URL (जैसे कि ई-कॉमर्स के लिए सॉर्ट-एंड-फ़िल्टर पैरामीटर), विशेष प्रोमो कोड पृष्ठ, स्टेजिंग या परीक्षण पृष्ठ, और इसी तरह शामिल हैं।
Googlebot को आपकी साइट के कुछ पृष्ठों और अनुभागों से दूर करने के लिए, robots.txt का उपयोग करें।
robots.txt
Robots.txt फाइलें वेबसाइटों की मूल निर्देशिका में स्थित हैं (उदाहरण के लिए। Yourdomain.com/robots.txt) और सुझाव दें कि आपकी साइट के किन हिस्सों को सर्च इंजनों को क्रॉल करना चाहिए, साथ ही जिस गति से वे आपकी साइट को क्रॉल करते हैं, वैसा नहीं करना चाहिए। विशिष्ट robots.txt निर्देशों के माध्यम से।
Googlebot कैसे robots.txt फ़ाइलों का व्यवहार करता है
यदि Googlebot किसी साइट के लिए robots.txt फ़ाइल नहीं ढूँढ सकता है, तो वह साइट को क्रॉल करने के लिए आगे बढ़ता है।
यदि Googlebot किसी साइट के लिए robots.txt फ़ाइल पाता है, तो यह आमतौर पर सुझावों का पालन करेगा और साइट को क्रॉल करने के लिए आगे बढ़ेगा।
यदि Googlebot किसी साइट के robots.txt फ़ाइल तक पहुँचने का प्रयास करते समय एक त्रुटि का सामना करता है और यह निर्धारित नहीं करता है कि कोई मौजूद है या नहीं, तो यह साइट को क्रॉल नहीं करेगा।
क्रॉल बजट का अनुकूलन करें!
क्रॉल बजट URLs की औसत संख्या है जिसे छोड़ने से पहले Googlebot आपकी साइट पर क्रॉल करेगा, इसलिए क्रॉल बजट ऑप्टिमाइज़ेशन सुनिश्चित करता है कि Googlebot आपके महत्वपूर्ण पृष्ठों को अनदेखा करने के जोखिम में आपके महत्वहीन पृष्ठों के माध्यम से क्रॉल करने में समय बर्बाद नहीं कर रहा है। क्रॉल बजट दसियों हज़ारों URL के साथ बहुत बड़ी साइटों पर सबसे महत्वपूर्ण है, लेकिन क्रॉलर्स को उस सामग्री तक पहुंचने से रोकना कभी भी बुरा नहीं है जिसके बारे में आप निश्चित रूप से ध्यान नहीं देते हैं। बस यह सुनिश्चित करें कि आप उन पृष्ठों पर क्रॉलर की पहुंच को अवरुद्ध न करें, जिन पर आपने अन्य निर्देश जोड़े हैं, जैसे कि कैनोनिकल या नोइंडेक्स टैग। यदि Googlebot किसी पृष्ठ से अवरोधित है, तो वह उस पृष्ठ पर दिए गए निर्देशों को नहीं देख पाएगा।
सभी वेब रोबोट robots.txt का अनुसरण नहीं करते हैं। बुरे इरादे वाले लोग (जैसे, ई-मेल एड्रेस स्क्रैपर्स) ऐसे बॉट्स का निर्माण करते हैं जो इस प्रोटोकॉल का पालन नहीं करते हैं। वास्तव में, कुछ बुरे अभिनेता यह खोजने के लिए robots.txt फ़ाइलों का उपयोग करते हैं कि आप अपनी निजी सामग्री कहां स्थित हैं। हालाँकि यह क्रॉलर को लॉगिन और प्रशासन पृष्ठों जैसे निजी पृष्ठों से ब्लॉक करने के लिए तर्कसंगत लग सकता है ताकि वे सूचकांक में दिखाई न दें, उन यूआरएल के स्थान को सार्वजनिक रूप से सुलभ robots.txt फ़ाइल में रखने का मतलब यह है कि दुर्भावनापूर्ण इरादे वाले लोग अधिक आसानी से उन्हें पा सकते हैं। इन पृष्ठों को NoIndex करना बेहतर है और उन्हें अपने robots.txt फ़ाइल में रखने के बजाय एक लॉगिन फ़ॉर्म के पीछे रखें।

जीएससी में यूआरएल मापदंडों को परिभाषित करना

कुछ साइटें (ई-कॉमर्स के साथ सबसे आम) URL के लिए कुछ मापदंडों को जोड़कर एक ही सामग्री को कई अलग-अलग URL पर उपलब्ध कराती हैं। यदि आप कभी भी ऑनलाइन खरीदारी करते हैं, तो संभव है कि आप फ़िल्टर के माध्यम से अपनी खोज को संकुचित कर दें। उदाहरण के लिए, आप अमेज़ॅन पर “जूते” खोज सकते हैं, और फिर आकार, रंग और शैली के आधार पर अपनी खोज को परिष्कृत कर सकते हैं। हर बार जब आप परिष्कृत करते हैं, तो URL थोड़ा बदलता है:
Google को यह कैसे पता चलता है कि खोजकर्ताओं को सेवा देने के लिए URL का कौन सा संस्करण है? Google अपने आप ही प्रतिनिधि URL का पता लगाने में एक बहुत अच्छा काम करता है, लेकिन आप Google खोज कंसोल में URL पैरामीटर सुविधा का उपयोग करके Google को बता सकते हैं कि आप अपने पृष्ठों का crawl कैसे करना चाहते हैं। यदि आप Googlebot को “____ पैरामीटर के साथ कोई URL क्रॉल न करें” बताने के लिए इस सुविधा का उपयोग करते हैं, तो आप अनिवार्य रूप से Googlebot से इस सामग्री को छिपाने के लिए कह रहे हैं, जिसके परिणामस्वरूप उन पृष्ठों को खोज परिणामों से हटाया जा सकता है। यदि आप उन मापदंडों को डुप्लिकेट पृष्ठ बनाना चाहते हैं, लेकिन आप उन पृष्ठों को अनुक्रमित करना चाहते हैं तो आदर्श नहीं।
Read More :   How To Enable HTTPS on Blogger Custom domain in hindi - ब्लॉगर Custom Domain में HTTPS कैसे Enable करें?

Leave a Reply

Your email address will not be published. Required fields are marked *