Qu'est-ce que le trafic de robots et comment est-il utilisé pour frauder les rapports de trafic ?
Publié: 2023-05-16Une augmentation des visites du site peut entraîner des ralentissements du site, une dégradation des performances, une surcharge des ressources, des visites corrompues, des statistiques de clics, un impact négatif sur le référencement et une vulnérabilité accrue aux attaques DDoS et de phishing.

Si vous souhaitez analyser le trafic vers votre site, recherchez dans le compteur le saut de vues de pages particulières, le taux de rebond élevé, le temps inhabituellement long ou court sur la page, les conversions invalides ou manquantes et les renvois en masse dans les régions que vous n'avez pas afficher.
Quelle proportion du trafic Internet est générée par les bots ? Les estimations varient. Cependant, nous pouvons supposer que les références de bots représentent environ 42 % de tout le trafic Web mondial, dont plus de la moitié appartient aux « mauvais » bots.
Qu'est-ce que le trafic de robots ?
Les robots visitent toujours le site — c'est juste une partie de l'Internet moderne, et même les moteurs de recherche indexent les ressources de cette façon. Mais avec l'aide de robots (ou scanners automatiques), vous pouvez également analyser des données, c'est-à-dire extraire des informations à partir de ressources Web. Le bot impliqué est un programme ou un script qui effectue des actions automatisées simples sur le site :
- Déchargement du code de la page.
- Le diviser en ses éléments constitutifs.
- Extraction de données.
- Sauvegardez-le dans la base de données.
Les finalités d'une telle collecte peuvent être différentes. Dans la plupart des cas, les sites Web sont récupérés pour obtenir des données spécifiques des pages des concurrents, qui peuvent ensuite être utilisées sur leurs ressources et effectuer des attaques malveillantes. Pourtant, l'analyse est utile à des fins d'analyse ou de recherche, ce qui en soi n'implique rien de terrible.
Bots bons, mauvais et laids
Avant de plonger dans le sujet de la façon d'identifier le trafic de bot, nous devons apprendre la classification. Nous pouvons diviser les robots en utiles (bons) et malveillants (mauvais).
Robots utiles
Ce sont les robots dont nous avons besoin. Ils effectuent les activités nécessaires sur Internet. Ils aident à effectuer un travail précieux et complexe dans les plus brefs délais. De plus, contrairement à une personne, ils automatisent les processus de routine, car ils peuvent traiter de grandes quantités de données.
Robots de recherche
- Vous pouvez également les connaître sous le nom de « araignées Web » ou « robots de recherche ». Ils sont l'un des robots les plus courants et les plus utiles sur Internet. Tous les résultats de recherche et l'interaction de l'utilisateur avec la recherche sont les mérites des robots de recherche. Lorsqu'une nouvelle page de site est publiée, un bot la scanne en quelques semaines. Les outils de référencement tels que SEMRush, Screaming Frog, SE Ranking, Moz, etc., disposent également de robots pour analyser les résultats de recherche et les ressources pour les optimiser plus efficacement.
Bots de qualification de site
- Contrairement aux robots de recherche qui indexent les sites au niveau mondial, ces robots sont un outil pour évaluer les performances d'une ressource particulière. Si l'aide comporte plusieurs pages ou est volumineuse, de telles vérifications sont nécessaires. Ils permettent au propriétaire du site de l'améliorer en fonction des besoins des utilisateurs. Par exemple, ils peuvent rapidement identifier et corriger le temps de chargement des pages, les problèmes de performances, les liens rompus et les images sous-optimisées.
Bots vérifiant la violation du droit d'auteur
- Ces bots contrôlent l'application des droits d'auteur sur les principaux réseaux d'hébergement vidéo et sociaux tels que YouTube et TikTok. À l'aide d'un logiciel spécial, ces robots analysent de grandes quantités de données audio et vidéo pour détecter la présence de formes et de modèles spécifiques qui correspondent à des documents protégés par le droit d'auteur et se trouvent dans la base de données d'hébergement. Malgré l'efficacité indéniable de ces robots, de nombreux experts et utilisateurs ordinaires s'accordent à dire que les bots génèrent un niveau inacceptable de faux positifs et punissent injustement les auteurs dont le contenu ressemble peu à du matériel protégé par le droit d'auteur.
Robots malveillants
Malheureusement, pour chaque "bon" bot pour améliorer Internet, il y aura un bot malveillant pour faire quelque chose de moins précieux. Par exemple, pour tromper le trafic sur la publicité des bots. Voyons ce que sont les "mauvais" robots.
Bots de clic publicitaire
- Ils représentent un défi important pour la publicité numérique. Ils cliquent sur des publicités contextuelles dans la recherche. Ils gaspillent les budgets publicitaires et font des ravages dans les campagnes marketing. De plus en plus, vous pouvez trouver des bots capables d'imiter le comportement d'utilisateurs réels, masquant ainsi leur activité malveillante. Par exemple, ils peuvent faire défiler les pages du site, les suivre au hasard, rester sur la page plus d'une seconde, etc.
Robots pour les attaques DDoS
- Le déni de service (DoS) est une attaque par déni de service dont le but est de ralentir une ressource ou de la désactiver pendant une durée déterminée. Le trafic de bot en streaming dirigé surcharge le serveur et cesse de répondre aux demandes des utilisateurs réels. En conséquence, le site devient indisponible. Le déni de service distribué (DDoS) est une attaque par déni de service distribué à partir de plusieurs appareils et réseaux. Cette fonctionnalité rend beaucoup plus difficile le blocage des attaques de robots sur le site Web. Les bots DDoS se propagent généralement via un botnet, un réseau d'appareils utilisateur infectés par des logiciels malveillants. L'utilisateur peut installer accidentellement un logiciel malveillant ou visiter un site frauduleux. Ainsi, son appareil fait partie du botnet et effectue automatiquement des attaques dirigées par l'opérateur.
Robots acheteurs
- Ils sont conçus pour les attaques de rupture de stock sur les magasins en ligne. Le concept est simple : les robots ajoutent certains articles très demandés au panier et les y conservent sans passer à la caisse. En conséquence, le nombre de produits en stock est automatiquement réduit. Ils le font jusqu'à ce que le produit "s'épuise". Ensuite, les véritables acheteurs voient que le produit est épuisé et quittent le site. Un produit du catalogue n'est lié à un panier spécifique que pendant une courte période (généralement 10 à 15 minutes). Mais lorsqu'un catalogue est soumis à une longue attaque automatique, il est facile pour les bots de rendre le produit indisponible pour les acheteurs.
Ce ne sont là que quelques-unes des activités malveillantes que les services de blocage de robots comme Botfaqtor rencontrent quotidiennement.
Qui a besoin du trafic de robots organiques
Il existe de nombreuses options dans lesquelles les spécialistes du marketing et les référenceurs ont besoin de trafic supplémentaire. Cependant, presque tous se situent dans le plan du marketing d'affiliation.
Sites d'achat et de vente
Vendre des sites Web est une grosse affaire. Comme dans la vraie vie, l'immobilier numérique commercial se présente sous toutes les formes, tailles et conditions. Ceux qui sont prêts à consacrer du temps et de l'argent à "ranger" une ressource ou une activité en ligne pour une vente ou une monétisation ultérieure vont gagner beaucoup d'argent.

Si le site a beaucoup de visiteurs, vous pouvez démontrer à un acheteur potentiel les avantages qu'il pourrait obtenir en y plaçant du contenu publicitaire. Ainsi, du point de vue du vendeur, la tentation de gonfler artificiellement les chiffres de trafic à l'aide de bots est forte.

Vendeurs de chapeaux noirs
Malgré les affirmations catégoriques des moteurs de recherche tels que Google selon lesquelles "le trafic du site Web n'est pas un facteur de classement", de nombreux experts associent à tort un trafic élevé à des positions élevées dans les résultats de recherche.
Par conséquent, de nombreux "experts" (et clients) de la promotion sont toujours prêts à payer beaucoup d'argent pour le trafic de robots organiques. La technologie de bombardement des moteurs de recherche est utilisée, dans laquelle un site non pertinent est affiché dans les résultats de la recherche sur demande, sur lequel il n'y a aucune occurrence des mots-clés recherchés. Ils croiront à tort que leurs classements et leurs positions augmenteront de cette façon.
Marketeurs et agences malhonnêtes
Malheureusement, la pratique déloyale consistant à gonfler les visiteurs du site Web avec le trafic des bots est toujours bien vivante en 2023. Quiconque comprend ne serait-ce qu'un peu le marketing numérique sait que le trafic en tant que tel est un indicateur conçu pour amuser l'ego et rien de plus.
Si aucun des visiteurs ayant cliqué sur l'annonce n'a réalisé l'action ciblée, l'augmentation du nombre de visiteurs ne profiterait pas à l'entreprise. Cependant, de nombreux propriétaires d'entreprise n'ont pas le temps d'apprendre tous les tenants et les aboutissants du marketing.
Même lorsque la vérité sur le trafic gonflé devient évidente, un marketeur ou une agence malhonnête tentera d'attribuer de faibles taux de conversion à d'autres facteurs (produit ou service proposé, page mal optimisée, etc.). Cela leur permet également de promouvoir le client pour des services supplémentaires.
Comme vous pouvez le constater, le trafic de bots organiques est très peu utile à moins qu'il ne soit associé à des services de marketing et de référencement malhonnêtes.
En règle générale, les robots créent l'apparence de nombreuses visites. Cependant, en réalité, ils ne sont utilisés qu'à des fins lucratives.
Le trafic de bot payant est un jeu sans gagnant
L'utilisation de bots de trafic pour augmenter les clics publicitaires ne profitera qu'à deux groupes de personnes : l'éditeur/webmaster qui place l'annonce ou le concurrent de l'annonceur.
Augmenter les revenus grâce au trafic de robots cachés peut sembler tentant pour les éditeurs qui monétisent déjà leurs sites via Google Adsense. Par exemple, il existe de nombreux articles sur le Web sur les meilleures façons d'acheter des bots.
Cependant, les plateformes publicitaires durcissent de plus en plus les règles de participation et sont vigilantes quant à la dynamisation du trafic. Par conséquent, vous ne devez pas utiliser cette option pour augmenter vos revenus.
La fraude publicitaire par les éditeurs n'est pas une question d'argent facile et d'impunité. Au lieu de gros paiements, vous pouvez être banni et perdre tout revenu de votre site.
Méthodes de détection
La protection contre les robots individuels, ou même la protection à part entière contre les botnets, repose sur un principe : vous devez d'abord détecter le trafic des bots.

Pour savoir si l'afflux de trafic est le résultat d'une attaque de bot, vous pouvez vous référer aux méthodes suivantes :
- Vous pouvez suivre les statistiques d'accès en accédant aux journaux du serveur à l'aide du fichier access.log. Ce fichier texte contient des informations complètes sur le trafic sur le serveur. Dans celui-ci, vous pouvez voir l'adresse IP à partir de laquelle la demande a été faite, son heure, son type et son contenu. Vous devez porter une attention particulière au paramètre % {User-Agent} - un en-tête contenant des informations sur la demande - l'application et la langue dans laquelle elle a été effectuée. L'envoi de plusieurs requêtes depuis la même IP et le même User-Agent à intervalles réguliers devrait vous alerter.
- L'utilisation de JavaScript peut aider à collecter des informations importantes sur les utilisateurs qui visitent le site (résolution d'écran, fuseau horaire, boutons cliquables). Il est possible d'identifier les utilisateurs les plus susceptibles d'être un analyseur en faisant simplement correspondre les informations sur les demandes.
- Les demandes indésirables d'agents ayant la même demande, la même région, le même fuseau horaire et la même taille d'écran à partir de la même adresse IP peuvent être bloquées en toute sécurité à l'aide de l'une des méthodes que nous décrirons ci-dessous.
Notez que toutes les requêtes des bots ne peuvent pas provenir de la même adresse IP. C'est parce que les bots utilisent généralement un réseau proxy, effectuant ainsi une analyse distribuée. Cependant, même si les mêmes requêtes sont reçues de différents serveurs, c'est probablement une raison de blocage.
DDoS
En parlant de robots malveillants, on ne peut ignorer un sujet tel que la protection contre les attaques DDoS. Actuellement, ce problème est particulièrement pertinent pour certains domaines d'activité spécifiques. Il s'agit notamment de sites de magasins en ligne, de jeux en ligne multijoueurs, d'échanges, de plateformes d'investissement et d'autres ressources commerciales. Parfois, une attaque DDoS sur un site peut être provoquée par des concurrents agressifs qui cherchent à désactiver votre ressource. Pourtant, parfois, le site est également attaqué par des pirates de rançongiciels, et parfois il peut être attaqué juste pour le plaisir sans but malveillant. Quoi qu'il en soit, tout projet sérieux devra être protégé contre ces attaques. Vous devez savoir comment arrêter le trafic des robots sur le site Web.
Généralement, les attaques DDoS sont décrites dans le modèle OSI à sept couches. Le premier niveau du réseau est physique. Le second est le canal (connecte les réseaux au niveau du canal via des commutateurs) ; plus il est élevé, plus il est abstrait. Les attaques DDoS peuvent être de bas et de haut niveau. Les attaques de niveau le plus bas se situent aux niveaux trois à cinq du réseau : "obstruer" le canal avec des requêtes de connexion ping ou TCP (appelées requêtes SYN). Ils sont faciles à gérer. Mais plus le niveau d'attaque est élevé, plus la défense devient complexe.
Les attaques de haut niveau du niveau le plus élevé, le niveau 7, sont plus dangereuses. Ils sont dirigés vers les pages les plus difficiles du site ou effectuent des actions complexes sur celui-ci, par exemple, mettre en place un filtre catalogue pour afficher le maximum de sélection de produits. Des centaines, voire des milliers de bots mènent l'attaque, et un déni de service peut se produire à partir du serveur Web, du serveur principal ou du serveur de base de données.
Pour faire face à de telles attaques, nous utilisons WAF (Web Application Firewall) - un système spécial de moniteurs et de filtres conçu pour détecter et bloquer les attaques réseau sur une application Web. Cependant, il s'agit d'un niveau d'attaque relativement élevé, et nous n'activons le WAF que dans les cas les plus graves — en règle générale, la protection essentielle est suffisante, activée par défaut sur tous nos serveurs.
Si votre site est hébergé sur votre matériel dans votre salle de serveurs, vous devrez probablement faire face à l'attaque vous-même. Vous devez connecter une adresse IP supplémentaire ou un service spécialisé pour protéger votre site. Dans certains cas, le passage à un VDS ou à un serveur dédié peut être une excellente option auquel ces services sont déjà connectés. En fin de compte, une attaque massive peut être attendue! Mais la meilleure chose est si vous avez un fournisseur d'hébergement fiable à qui vous pouvez déléguer la protection du site contre les attaques DDoS.
Conclusion
Les propriétaires de leurs ressources Web sont souvent confrontés au problème de l'analyse des données et des attaques malveillantes, mais le développement de méthodes de protection ne s'arrête pas. Pour vous protéger contre la copie et le vol des données du site, vous pouvez procéder de plusieurs manières, par exemple, installer un captcha sur la page, saisir un piège dans le code ou suivre les bots en fonction des données de l'agent utilisateur avec blocage ultérieur. Une attention particulière à l'analyse et à l'installation d'outils de protection, même avec un travail minimal avec le code, aidera à résoudre le problème de l'analyse, du spam et du chargement sur le site.