Semalt: Вядомыя несанкцыянаваныя сайты

Каб саскрэбіць патрэбныя дадзеныя ўручную, трэба валодаць выдатнымі навыкамі праграмавання. Акрамя таго, вы можаце выкарыстоўваць цэлы шэраг інструментаў для вымання дадзеных у Інтэрнэце, якія накіраваны на чытанне, структураванне і ачыстку дадзеных у пэўным фармаце. Аднак некаторыя вэб-сайты не паддаюцца расшыфроўцы, гэта азначае, што яны альбо выкарыстоўваюць метады супраць выскрабання, альбо рэгулярна мяняюць разметкі. Напрыклад, LinkedIn, Alibaba і Facebook патрабуюць звестак пра ўваход, прапануюць увесці CAPTCHA і заблакаваць IP-адрасы, каб забяспечыць абарону і канфідэнцыяльнасць карыстальнікаў.

1. Facebook:

Facebook - адзін з самых вядомых сайтаў сацыяльных сетак, які налічвае больш за 20 мільёнаў актыўных карыстальнікаў ва ўсім свеце. Існуе вялікая колькасць прыкладанняў і праграм выскрабання дадзеных, якія накіраваны на атрыманне індывідуальнай інфармацыі з Facebook. На жаль, большасць інструментаў не дае нам дакладных і чытаных дадзеных. Facebook абцяжарваў спамераў і хакераў у зборы інфармацыі пра сваіх карыстальнікаў. Яе можна атрымаць толькі пры дапамозе HTML-аналізатара, напрыклад, Python, але большасць вэб-майстроў і фрылансераў нават не ведаюць асноў Python. Зусім нядаўна быў запушчаны скрабок Facebook для атрымання жыццёва важнай інфармацыі з гэтага сайта ў сацыяльных сетках. З дапамогай скрабка Facebook вы можаце збіраць толькі імёны і адрасы электроннай пошты карыстальнікаў Facebook. Але калі вы хочаце сабраць паглыбленыя дадзеныя, вы не можаце выкарыстоўваць гэты інструмент або любы іншы падобны скрабок.

2. LinkedIn:

LinkedIn - яшчэ адзін вэб-сайт у сацыяльных сетках, які немагчыма выскрабаць. Аднак вы можаце часткова здабываць дадзеныя з некалькіх вэб-старонак, але большасць інфармацыі з'яўляецца недаступнай. Інфармацыю можна вылучыць толькі з адкрытага профілю LinkedIn з дапамогай Import.io або Kimono Labs. Маркетолагі не могуць скарыстацца паслугамі выскрабання з-за жорсткіх мер бяспекі LinkedIn. Аднак яны пачалі выкарыстоўваць Lead Extractor, які дапамагае выскрабаць публічныя профілі. Гэты інструмент можа саскрабаць толькі спасылкі на профілі, імёны і адрасы электроннай пошты. Але калі вы хочаце атрымаць Skype ID, ідэнтыфікатар Yahoo Messenger, поўны адрас і Twitter ID карыстальніка, LinkedIn не дазволіць вам гэтага зрабіць.

3. Алібаба:

Alibaba - гэта тэхналагічны кангламерат, які прадастаўляе паслугі бізнес-спажывец у Інтэрнэце. На жаль, няма ніякага спосабу саскрэбіць дадзеныя з гэтага сайта. У адрозненне ад Amazon і eBay, Alibaba абцяжарвае атрыманне карыстальнікамі інфармацыі пра сваю прадукцыю, выявы, апісанні і цэны. У 2015 годзе грамадскасці былі прадстаўлены шэраг інструментаў, якія дазваляюць лёгка скрабаць дадзеныя з Alibaba. Большасць інструментаў платныя і не апраўдваюць чаканняў стартапаў. Alibaba працуе з шырокім спектрам прадпрыемстваў па ўсім свеце і звязвае пакупнікоў з пастаўшчыкамі. Між тым, гэта гарантуе іх прыватнае жыццё і не дазваляе нікому сакрэтаваць дадзеныя. Па стане на кастрычнік 2017 года ў Alibaba больш за 500 мільёнаў актыўных карыстальнікаў штомесяц на сваёй платформе. Alibaba нават перавысіў буйных гульцоў у воблаку, такіх як Amazon, Google і Microsoft у росце хмарных даходаў. Ён рэалізаваў лепшыя стратэгіі, каб забяспечыць прыватнасць сваіх пастаўшчыкоў і блакуе ўсе падазроныя IP-адрасы на працягу некалькіх секунд.