Web scraping
Web Scraping : Que font les bots ?
Depuis quelques années, on constate un déploiement massif de bots. Il en existe plusieurs centaines qui parcourent la toile. Les robots sont, en général, des programmes qui sont réalisés par des développeurs pour une tâche précise. On leur donne plusieurs noms comme « crawler » ou encore « spider ». Leur fonction première est de collecter ou d’extraire des données (pages web, images, vidéos, documents, coordonnées, URL, prix) dans le but de les réutiliser pour augmenter son audience et développer son business. Certains en font bon usage, d’autres s’en servent à de mauvaises fins comme les cybercriminels, ce qui représente une menace de plus en plus importante pour les acteurs du domaine numérique. Parmi les diverses pratiques frauduleuses menées par ces bots, le vol de contenu d’un site Internet, autrement dit le scraping sur le web (« Web scraping ») compte sans doute parmi les pratiques les plus sournoises et dangereuses pour un site Web. Il est donc important d’en comprendre le fonctionnement et les enjeux.
Le Web scraping : quels usages et quels objectifs ?
Le web a un usage fondamental : il sert de support pour échanger et stocker de l’information.
Un site internet est constitué de pages web, accessibles à partir du page d’accueil et par des liens dans d’autres pages web (maillage interne)
Les sites Web sont construits avec des langages de marquage qui permettent de mettre en forme des textes HTML ou XHTML et qui contiennent souvent plusieurs données indispensables à cette mise en forme.
Une page web est un fichier HTML associé à du javascript et à du CSS renvoyé par le serveur au navigateur qui va interpréter les instructions du fichier. Ces fichiers sont appelés « fichiers source ». La page web a une adresse unique (URL).
Le Web scraping consiste à extraire ou à récupérer des données d’autres sites Web. Le Web scraping est une forme de copie locale, dans laquelle des données précises sont rassemblées et copiées à partir du Web pour une analyse ultérieure.
Un outil de scraping va crawler les pages une à une et récupérer tous les liens internes en ouvrant les fichiers sources et en récupérant les données.
Pour effectuer cette pratique, il est nécessaire d’utiliser un logiciel (scraper) pouvant accéder à l’ensemble des données présentes sur Internet, directement depuis le protocole de transfert hypertexte (http) ou à l’aide d’un navigateur Web comme Chrome.
Le Web scraping peut être également effectué manuellement en utilisant le traditionnel « copier-coller » ou en téléchargeant la page, mais ce terme se réfère, en général, à des processus automatisés et adaptés grâce à un système d’exploitation Web.
L’exploration Web par les robots est l’élément principal qui permet de réaliser du scraping.
Comme nous l’avons déjà évoqué, le Web scraping peut avoir de multiples objectifs : récupérer des contacts, extraire et explorer des données, surveiller les prix en ligne, collecter des annonces, rassembler les données météorologiques, détecter les changements d’un site Web spécifique, assurer le suivi de la réputation d’un site, effectuer du Web mashup ou bien encore faire de l’intégration de données Web.
Par exemple, un concurrent a la possibilité de copier l’ensemble de votre site internet, vos données ainsi que le code HTML qui lui fournissent des informations précieuses pour sa propre activité.
Autre exemple, les propriétaires de site e-commerce, font souvent appel à des web scrapers professionnels pour faire de la veille concurrentielle afin d’élaborer de nouvelles stratégies marketing de prix et pour actualiser leur catalogue produit.
Le scraping permet également à une entreprise de connaître les comportements d’achat des internautes dans son domaine d’activité. L’extraction de données lui permettra d’établir un plan d’action marketing adapté ou un plan de communication qui transmet le bon message, à la bonne cible.
La plupart des sites sont créés pour les Internautes et non pour les robots. Le but étant d’avoir une meilleure interaction avec les clients et les prospects, de leur proposer une découverte des produits tout en dialoguant avec eux. Dans le cas d’un e-commerce, l’objectif sera d’augmenter le taux de conversion en proposant un parcours client fluide et optimisé, qui répond à leurs besoins.
De nombreux professionnels du web, entreprises et start-up confondus adoptent une pratique qui utilise le web scraping appelé le « growth hacking » (ou piratage de croissance). Il s’agit d’un ensemble de stratégies digitales qui permet d’augmenter sa notoriété, son trafic et son chiffre d’affaire. Donc, les marketeurs utilisent le scraping pour extraire les données d’autres sites, enrichir leur base de données client en trouvant des profils intéressants auxquels ils vont proposer leurs produits et services par le biais de grandes campagnes marketing. Pour l’entreprise, c’est un gain de temps, d’argent et du travail en moins.
Vous aurez compris que les informations et les données qui vous appartiennent deviennent soudainement un atout pour vos concurrents. Vous êtes pourtant le seul détenteur des droits sur vos contenus Web : les Web scrapers sont de vrais logiciels d’extraction de données et ils récupèrent ce contenu sans votre autorisation. Malheureusement, les moyens d’actions contre le Web scraping sont actuellement encore limités
Le Web scraping est-il une pratique légale et quels en sont les risques ?
Il est assez difficile de répondre de manière tranchée à cette question car il n’y a pas vraiment de réponse définitive et absolue. Cela dépend d’abord du pays d’origine, des conditions générales du site mais aussi de la nature des informations qui ont été rassemblées et collectées.
Les moteurs de recherche comme Google utilisent souvent ces techniques. Mais en général, scraper un site dont le contenu n’est pas libre est considéré comme une violation de la propriété intellectuelle du site source. La licence de documentation libre GNU permet d’invoquer le droit de l’auteur et protège la diffusion d’un contenu libre. Chaque auteur a le droit de disposer de son œuvre comme bon lui semble, quant à l’utilisation de cette dernière par des tiers. Quand on utilise du contenu protégé par des droits d’auteurs, il faut absolument préciser et donner la source.
Par ailleurs, quels que soient les secteurs d’activité, les Web scrapers sont considérés comme étant une source de nombreux problèmes en SEO. Etant donné que le web scraping permet de copier toutes les pages d’un site en utilisant un nom de domaine différent, il peut amplement permettre, à un site, de prendre votre place dans les résultats de recherche et par conséquent, il détournerait votre trafic en utilisant votre contenu de qualité. Google sanctionne sévèrement ces comportements en black-listant ces sites ou en leur attribuant un positionnement dans les dernières pages des résultats de recherche.
Pour atteindre ses objectifs, un Web scraper peut avoir à parcourir des milliers de pages en l’espace de quelques minutes. Ce grand parcours provoque souvent une surcharge sur vos serveurs, ce qui ralentit le chargement des pages auxquelles vos clients souhaitent accéder.
Par conséquent, plus votre page est lente à charger, plus le niveau de performance de votre site en est affecté et plus vos visiteurs risquent de quitter la page avant qu’elle ne s’affiche complètement. D’ailleurs, les performances techniques d’un site sont un critère important pour Google. Les moteurs de recherche n’apprécient pas les temps de chargement trop longs quand il s’agit de classer des sites Web dans leurs résultats.
En plus de pénaliser les sites peu performants, les moteurs de recherche défavorisent aussi les sites qui proposent un contenu dupliqué. Cela pose un problème pour d’indexation. Par conséquent, vos pages web ne sont pas considérées comme étant de bonnes candidates au référencement naturelet ne peuvent pas être bien positionnées dans les moteurs de recherche. Ces derniers exigent que le contenu de chaque page soit unique et ils usent de nouvelles techniques pour traquer le « duplicate content » volontaire. Dans le cas du web scraping, le site copieur est sanctionné.
Un moteur de recherche a pour objectif de répondre de manière pertinente aux requêtes des internautes. Un contenu unique doit pouvoir répondre à une requête précise. S’il existe plusieurs contenus similaires pour y répondre, le moteur de recherche ne sait lequel choisir et cela risque de lui compliquer la tâche. Il vaudrait mieux que votre site soit celui qui réponde précisément à différentes requêtes pour toucher le maximum de vos clients potentiels.
Une agence web vous donnera des conseils pour définir une bonne stratégie SEO et travailler votre référencement. Les tableaux de bord, les outils d’analyse, les indicateurs analytiques seront vos meilleurs alliés.
Comment éviter le Web scraping ?
Eviter le web scraping sur votre site n’est pas chose facile. Il faudrait empêcher les scripts et les machines de collecter vos données tout en donnant l’accès aux moteurs de recherche et aux internautes qui souhaitent visiter votre site. Ce sont des paramètres à prendre en compte.
Il existe plusieurs formes de scrapers aux fonctionnalités différentes :
- Les spiders ou robots : Googlebot, Bingbot, Htrack (copieur de site web) Ce sont des bots qui suivent des liens vers d’autres pages pour collecter des données. Ils sont utilisés pour un scraping ciblé associés à un analyseur HTML.
- Les scripts shell : outils Unix (Wget, Curl, Grep) pour extraire des données. Il est très facile de compromettre ces scrapers.
- Les scrapers et parsers HTML : Jsoup, Scrapy pour uniquement extraire les données dont on a besoin.
- Les screenscrapers (scraper ou scanner d’écran) : Selenium, PhantomJS qui récupèrent le code HTML en ouvrant votre site dans un navigateur et en extraire les données.
- Les services de web scraping : ScrapingHub ou Kimono. Ce sont de vrais experts du scraping et ils peuvent, parfois, utiliser des réseaux de proxies et des adresses IP pour contourner les éventuelles interdictions.
- Les copier-coller humains
Il existe actuellement de nouvelles formes de Web scraping impliquant le suivi des flux de données depuis les serveurs Web. JSON (acronyme de Javascript Objet Notation) est par exemple régulièrement utilisé comme mécanisme de stockage et de transport entre le client et le serveur Web. C’est un format texte léger d’échange de données, basé sur un ensemble de sous langage de programmation Javascript.
Toutes ces méthodes de scraping sont différentes et les technologies utilisées le sont également mais leurs objectifs sont les mêmes : obtenir vos données.
De nombreuses techniques peuvent être adoptées pour empêcher le piratage ou le Web scraping de son site Web. Il est ainsi possible de détecter et d’interdire aux robots de voir ou d’explorer son site, voire d’arrêter ou au moins de ralentir un robot d’exploitation Web.
Parmi ces méthodes, vous pouvez effectuer le blocage d’une adresse IP manuellement ou en fonction de la géolocalisation et du DNSRBL. Cette technique permettra de bloquer toute la navigation à partir de cette adresse IP. La désactivation de toute API (interface de programmation) que le système du site Web pourrait exposer est également efficace. Il arrive parfois que les robots d’exploitation déclarent leurs identités en utilisant les chaînes d’agent utilisateur. A partir de là, ils peuvent être bloqués plus facilement à l’aide de robot .txt comme Google bot.
Il est également utile de contrôler un trafic excessif sur son site, en ayant recours à des outils tels qu’un CAPTCHA, qui permettent de vérifier que c’est bel et bien une personne réelle qui accède au site. Il faut tout de même noter que ces robots sont quelquefois codés et ont la capacité de briser des modèles spécifiques de CAPTCHA et peuvent employer des services tiers qui ont recours à des personnes dédiées pour lire et répondre en temps réel aux défis du CAPTCHA.
Par ailleurs, on peut trouver des entreprises qui offrent des services anti-bots commerciaux et des anti-Web scraping. Certains firewalls d’applications Web sont aussi capables de détecter des bots.
Localiser les robots d’exploitation avec un honeypot est également une méthode pertinente pour identifier les adresses IP des crawlers automatisés.
Étant donné que les robots d’exploitation dépendent de la cohérence du code frontal d’une page Web, vous pouvez ajouter de petites variations au HTML/ CSS qui entourent des éléments importants de données et de navigation. Cette dernière méthode nécessite une intervention humaine dans la configuration initiale d’un robot, et si cela est effectué efficacement, la page Web ciblée sera difficile à rayer à cause de la capacité réduite à automatiser le processus de Web scraping.
Cependant, malgré ces nombreuses méthodes, certains individus créent des systèmes de Web scraping utilisant des techniques d’analyse par pays qui simulent la navigation humaine et permettent de collecter le contenu de la page Web.
Le Web scraping peut être considéré comme une pratique mal vue et bannie car il s’apparente à du vol de données. Si avez recours à cette pratique, vous risquez de vous faire bloquer et de vous faire blacklister par les moteurs de recherche. Vous devez donc être particulièrement vigilants à ce que vous scrapez, ce pourquoi vous le faites et de quelle manière vous vous y prenez.
Comment fonctionne le robot de google : googlebot ?
Comme vous le savez déjà, Google a son propre robot d’indexation. Un internaute doit trouver rapidement l’information qu’il recherche lorsqu’il saisit sa requête. Google va répondre à cette demande en proposant une liste de site pertinents dans les résultats de recherche. Il existe de nombreux sites et il peut être compliqué, même pour un Google de connaître le contenu de tous les sites présents sur la toile. Googlebot sera son meilleur allié.
Googlebot va explorer des milliards de site et va renvoyer ces informations à Google. Ce dernier va les indexer et s’en servir pour positionner les sites dans les résultats de recherche.
Les moteurs de recherche ne fonctionnent que grâce à ces programmes informatiques.
Quelles sont les différentes étapes de son exploration :
- Analyse du code source HTML de votre page et envoi à Google
- Exploration des liens de votre page
- Exploration de nouvelles pages
- Exploration de tous les liens de ces pages
- Indexation des pages par Google
Profitez de l’expertise de notre agence web à Paris.
Découvrez nos autres agences :
Un Consultant Senior dédié
1 outil unique au monde
16 années d’existence
+ de 1.000 sites optimisés
+100 experts
10 chercheurs
Les optimisations techniques
Système de gestion de contenu (CMS)
La méthode pour créer du contenu de qualité
Ergonomie web
Le marketing digital
Les formations au référencement
Le marketing électronique
Visibilité Google
Les experts SEO
Le métier de référenceur
Les métiers du web
Travailler sa présence en ligne
Google analytics
Pixalione accompagne ses clients
Les outils Google