Scraping

Scraping, या “web scraping,” एक process होती है बड़ी मात्रा की information को extract करने के लिए वो भी एक website से. इसमें शामिल होता है काफी सारे web pages की downloading या फिर पूरी site की. इन downloaded content में शामिल होती है text वो भी pages से, या full HTML, या दोनों HTML और images प्रत्येक page से.

वैसे तो एक website की scraping करने के लिए काफ़ी सारे तरीके मेह्जुद हैं. इसमें सबसे basic है manually downloading करना web pages को. ऐसा करने के लिए या तो content की copying और pasting की जाती है the प्रत्येक page से एक text editor में या फिर आप अपने browser में File → Save As… command का इस्तमाल कर सकते हैं जिससे की individual pages की local copies को save किया जा सकता है.

Scraping किया जा सकता है वो भी automatically, जिसके लिए web scraping software का इस्तमाल किया जाता है. ये सबसे common तरीका है download करने के लिए एक बड़ी मात्रा की pages को एक website से. कुछ cases में, bots का भी इस्तमाल किया जाता है एक website को scrape करने के लिए एक regular intervals में.

Web scraping किया जाता है काफी अलग अलग कार्यों के लिए. उदाहरण के लिए, आप एक website के किसी एक section को archive करना चाहते हैं जिससे की आप उसे offline access के लिए इस्तमाल कर पायें. वहीँ यदि आप बहुत से pages को एक साथ download कर लें तब आप अपने free time में बाद में उन्हें पढ़ सकते हैं जब आप Internet के साथ connected न भी हों तब. Web developers बहुत बार उनके खुद के websites को scrape करते हैं जिससे की वो test कर पायें broken links और images के लिए वो भी एक page के भीतर.

वहीँ बहुत बार Scraping का इस्तमाल गलत कार्यों के लिए भी किया जाता है, जैसे की किसी एक website को copy करना और फिर उसे किसी दुसरे website में republish करना एक अलग नाम के साथ. इस प्रकार की scraping को एक copyright violation के तोर पर देखा जाता है और इसके लिए आपके ऊपर legal prosecution भी हो सकता है.

[su_note note_color=”#fffcde” text_color=”#000000″]वैसे तो किसी website की scraping करना वो भी उसके information को republish करने के लिए हमेशा ही गलत होता है, वहीँ एक site की scraping करना किसी दुसरे कार्यों के लिए भी website’s terms of use का उल्लंघन करती है. इसलिए ऐसी कोई भी कार्य करने से फेल website की terms of use को जरुर पढ़ लें.[/su_note]

« Back to Wiki Index