Formation référencement

Web Spam : le guide SEO Spamdexing

Ecrit par admin le Vendredi 23 juillet 2010 à 17:50 - Catégorie Référencement

Préambule : cet article est une traduction de l’article : Web Spam : The Definitive Guide

J’ai décidé de faire traduire cet article suite à ma présentation aux SMX Paris dans laquelle je terminais mon intervention en conseillant d’étudier les brevets déposés par les moteurs de recherches ainsi que les interventions vidéos ou écrites des chercheurs anti webspam des différents moteurs.

Je trouve que cet article méritait une traduction, bonne lecture à tous :)

Il s’agit d’un guest post de David Harry qui est un SEO et analyste de recherche chez Reliable SEO. Il écrit aussi sur son blog SEO et gère le SEO Training Dojo, une grande communauté dans le milieu SEO. Vous pouvez également le retrouver sur Twitter: @theGypsy

Comprendre les limites et comment travailler en sécurité

Êtes-vous un spammeur ? Non, sérieusement, je le pense. S’il y a un domaine dans lequel beaucoup de potes dans la recherche en ligne et de professionnels du marketing ne sont pas toujours clairs à ce sujet, ce sont les pénalités et les filtres des moteurs de recherche. C’est quelque chose que vous trouverez très répandu dans le cercle du SEO. Nous n’avons pas besoin de chercher plus loin que le Duplicate Content. Alors qu’il est – généralement – un filtre, certains l’interprètent comment une pénalité, ils l’appellent la « pénalité de Duplicate Content ».

J’ai donc pensé que ce serait une bonne idée de revoir – selon le point de vue d’un ingénieur de recherche en ligne (Search Engineer) – les différents types de spam existants. Il ne s’agit pas de vous montrer comment exceller dans le spam – en fait c’est tout le contraire, parce que je ne suis pas fan de ce merdier. Bien sûr, j’ai quelques camarades qui se plaisent bien dans le monde du black-hat, ils savent bien que je ne mange pas de ce pain là, qu’en général je ne pollue pas le web.

Espérons que ce topo vous aide à éviter ces petits tours, ou groupes d’activités qui risquent de mettre votre client ou votre propre site Web en danger.

« Toutes les actions destinées à améliorer le classement (ranking), sans pour autant améliorer la valeur réelle d’une page, sont considérées comme spam. »

Définition du spam web (Web Spam)

Qu’est-ce que le spam ?
Dans ma recherche, pour rédiger cet article, la définition qui m’a semblé être la meilleure, ou du moins la plus concise, est la suivante :

Toute action délibérée de l’homme destinée à stimuler une pertinence positive ou attribuer une importance à certaines pages web, à tort, considérant la véritable valeur de ces pages. (Définition du Web Spam Taxonomy, Stanford)

Hmmm. Est-ce cela le spam ? Si tel était le cas, nous serions tous des spammeurs compte tenu de nos pratiques en SEO. En gros nous faussons un peu le jeu des moteurs de recherche. Mince ! Bon. Un peu plus loin, le papier de Stanford poursuit en disant,

Une majorité du spam web provient des optimiseurs de moteurs de recherche (SEOs), tels que SEO Inc ( www.seoinc.com ) ou Bruce Clay ( www.bruceclay.com ).

Ouch ! Ce n’est pas gentil du tout ça – qu’en pensez-vous :

La plupart des SEOs prétendent que le spam améliore la pertinence aux requêtes qui n’ont rien à voir avec le thème de la page web uniquement. Dans le même temps, de nombreux SEOs approuvent et pratiquent des techniques qui ont un impact sur les scores d’importance pour atteindre ce qu’ils appellent le positionnement ou l’optimisation «éthique» de page web. Veuillez noter que, conformément à notre définition, tous les types d’actions destinées à stimuler le classement, sans pour autant améliorer la valeur réelle d’une page web, sont considérés comme du spam. (C’est moi qui le souligne)

Merde alors — ça nous rappelle que les SEOs ne sont pas des criminels, mais sont certainement un ennemi. Nuançons et considérons le spam comme une manipulation flagrante qui n’ajouterait aucune valeur mais chercherait uniquement à profiter de l’aveuglement algorithmique d’un algorithme de recherche, ok ? Lol — restons-en là. Et n’oubliez jamais qu’ils ne nous aiment pas (SEOs).

Types de spam sur le web

Il existe essentiellement deux types de spam: le renforcement (boost) et la dissimulation.

Le renforcement (boost)

C’est quand une personne a l’intention d’accroître ou de renforcer (artificiellement?) la valeur d’une page.

  • Le spamming : Il s’agirait de ceux qui essaient à manipuler les moteurs de recherche grâce à des éléments tels que le titre de page (spam de titre), la meta description ou les meta keywords (spam de metas). Comme la plupart d’entre nous le savent, parmi ces trois metas deux ont été abusés au point que la plupart des moteurs de recherche actuels ont cessé de les utiliser comme des signaux importants.
  • De même le spam d’URL est un autre domaine qu’ils ont été tenus d’examiner. Ouais, ça peut paraître étrange parce que certains moteurs de recherche attribuent un certain poids aux URLs. Ça peut être considéré comme une manipulation.
  • Le Link spamming est une autre méthode de spam bien connue qui inclut notamment le spam par l’ancre texte (anchor text). Non seulement les moteurs de recherche ont conscience de la masse de spams de liens, mais aussi de l’ancre texte, car c’est l’un des signaux les plus importants du point de vue du classement (ranking). Évidemment cette partie inclus aussi le fait que les spammeurs cherchent à déposer des liens sur les pages (de forums, commentaires de blogs, livres d’or, etc.) afin d’augmenter la valeur de pages cible ainsi que les plus infâmes techniques de hack.

Techniques de camouflage

Cet ensemble de techniques, c’est quand on ne se sert pas généralement des méthodes perceptibles pour obtenir un classement de page plus élevé. Ou plus exactement, la dissimulation de techniques de renforcement. Ce sont certainement les plus difficiles et les moteurs de recherche ont tendance à les considérer comme plus sournoises que les techniques de renforcement.

  • Contenu caché : Ce sont des techniques où les mots et les liens sont cachés lorsque le navigateur affiche une page. Les pratiques les plus courantes sont l’utilisation de couleurs pour rendre les éléments en question invisibles.
  • Cloaking : Nous le connaissons tous, n’est-ce pas ? C’est lorsqu’on montre au robot de moteur de recherche un contenu de page différent de celui visible par l’utilisateur. On peut supposer une diminution des chances d’être rapporté par les utilisateurs ou des concurrents qui pourraient percevoir le spam.
  • Redirection : La page est automatiquement redirigée par le navigateur comme si la page était indexée par le moteur de recherche, mais l’utilisateur ne s’en apercevra jamais. Ça fonctionnerait essentiellement comme un proxy/doorway qui se joue du moteur et détourne les utilisateurs.

« Dans la plupart des cas, aucun signal ni aucune approche est considérée comme définitive. Les moteurs de recherche emploient souvent une variété de méthodes pour trouver le spam. »

Approches pour combattre le Spam du web

Content Spam (spam de contenu)

Langue: Des ingénieurs de recherche en ligne se sont intéressés au niveau des langues de pages pour voir ce qu’ils pourraient y trouver. Il est sorti que le français était la langue qui s’est souvent révélée être un festival de spam, avec ensuite l’allemand et l’anglais. J’ai trouvé ce modèle assez intéressant.

Domaine: Pas de surprise, il a été révélé que les extensions de domaine .biz avaient un taux élevé de spam, beaucoup plus élevé que les autres. Le .us et le .com sont les suivants. Mais le .biz reste largement en tête – faites attention ok ?

Mots par page: Une autre approche souvent utilisée. Ils ont trouvé que les pages qui contenaient beaucoup de texte étaient souvent celles qui contenaient le plus de spam. Moins de 1500 mots, la courbe du spam diminuait. La tranche de mots 750-1500 semblait être le repère de spammeurs.

Mots clés dans la balise TITLE: C’est un autre domaine qu’ils observeront. L’expérience a montré que les pages de spam avaient tendance à utiliser beaucoup plus de mots clés dans la balise TITLE par rapport aux pages normales.

Le nombre d’ancre de lien (anchor text): Une autre approche intéressante consiste à examiner le rapport du texte de l’ancre au texte de la page. Ça peut être au niveau de la page ou du site. Les sites qui contiennent un pourcentage élevé d’ancre texte (selon le texte standard) sont susceptibles d’être des sites de spam.

Fraction de contenu visible: Celui-ci consiste à utiliser du texte caché, à ne pas confondre avec les rapports du code au texte. Ils s’intéressent à une proportion de texte qui n’est pas effectivement visible sur la page.

Compressibilité: En tant que mécanisme destiné à lutter contre le Keyword Stuffing (bourrage de mots clés), les moteurs de recherche peuvent s’intéresser au taux de compression. Plus précisément, il s’agit du caractère répétitif ou du content spinning utilisé pour spammer. Les moteurs de recherche compressent souvent une page pour enregistrer l’indexation et le traitement. Il est fort probable que les pages de spam aient un taux de compression (non-compressé divisé par le compressé).

Mots globalement populaires: Une autre bonne manière de trouver du Keyword Stuffing est de comparer les mots d’une page aux données de requêtes existantes et de documents connus. Si quelqu’un fait du Keyword Stuffing autour de ces mots clés, ils s’engageront dans une utilisation beaucoup moins naturelle que les requêtes d’utilisateurs et de bonnes pages connues.

Spam de requête: Compte tenu de la montée des requêtes analysées, des données de clics et de personnalisation, les spammeurs pourraient rechercher des variétés de termes cliqués et cliquer sur leurs propres résultats. En observant le type de requêtes, en combinaison avec d’autres signaux, ces tactiques deviennent statistiquement apparentes.

Le spam Host-level est à la recherche d’autres sites et de domaines sur le serveur et/ou le registrar. Tout comme le TrustRank, la plupart du temps les spammeurs se retrouveront dans un même voisinage avec d’autres spammeurs.

Phrase-based: Selon cette approche, un modèle d’apprentissage qui utilise des documents de formation cherche des anomalies textuelles sous forme de phrases liées. C’est un peu du Keyword Stuffing sous stéroïdes. La recherche d’anomalies statistique peut souvent mettre en évidence des documents de type spam.

Link Spam (spam de lien)

TrustRank (classement de confiance): Cette méthode porte plusieurs noms, le TrustRank est du goût de Yahoo. Le concept tourne autour d’avoir « de bons voisins ». La recherche montre que les sites font de bons liens vers les bons sites et vice-versa. Vous êtes reconnu par la compagnie que vous gardez.

Link stuffing (bourrage de liens): Une démarche de spammeur qui consiste à créer une tonne de pages de faible valeur pour pointer plusieurs liens à une page cible. Les sites de spams tendent à avoir une plus grande part de ces types de pages artificielles comparées à d’autres bonnes pages.

Nepotistic links (favoritisme de liens): Nous posséderions tout grâce aux liens payants contrairement à ceux négociés (réciproques). Alors que pour les SEOs ça peut être une zone de flou, les moteurs de recherche, eux, croient certainement que les manipulations de lien sous toutes les formes de réciprocité existantes sont d’évidentes manipulations.

Topological spamming (link farms): Nous avons notre propre pensée à ce sujet, mais les moteurs de recherche, eux, se pencheront sur le pourcentage de lien, dans un graphe, en comparaison à de « bons » sites. En règle générale ceux qui cherchent à manipuler les moteurs auront un pourcentage de liens plus élevé à partir de ces endroits de spam.

Temporal anomalies (anomalies temporaires): Un autre espace où en général les sites de spam s’écartent de l’ensemble de pages (normales) sont les données historiques. Dans l’index il y aura une moyenne d’acquisition de liens et de régression avec des sites « normaux ». Les données temporelles peuvent être utilisées pour aider à détecter les sites spammy qui s’adonnent à la création de liens non naturels.

Leçons pour référenceurs

Que peut-on tirer de tout cela ? Pour moi, ce passage était intéressant sur plusieurs niveaux. Jetons-y un œil:

  • Signaux de classement: Si nous pratiquons la rétro-ingénierie sur leur rétro-ingénierie à notre égard, nous commençons effectivement à voir quels sont les signaux importants qu’ils souhaitent protéger. Comprendre ce qu’ils sont en train de protéger nous dit ce qu’ils considèrent comme important. Vrai ?
  • Signaux de fumée: Compte tenu du nombre d’efforts fournis dans le spam de lien, nous savons que les moteurs de recherche modernes de link-centric ont un intérêt dans des approches de classement moins diversifiées. C’est-à-dire que, si vous avez besoin d’améliorer le positionnement d’une page web par des liens, ils savent où chercher les spammeurs. Le traitement du spam web est fortement lié à l’avenir de la recherche. Observez et apprenez.
  • Vous êtes de mauvais garçons: Nous en avons discuté, nous ne sommes pas listés sur la plupart des cartes de Noël d’ingénieurs en recherche. Sachez-le et comprenez-le. Ils nous tolèrent — même les « white hat » les plus honnêtes d’entre nous.
  • L’atténuation est plus fréquente: Une autre chose que j’ai apprise est que le plus souvent, en particulier dans le spam de liens borderline, le jus peut être coupé. Le site pas désindexé. S’agit-il d’une pénalité ? Un filtre ? Est-ce important ?
  • Autorité/confiance: Il serait sage de prendre conscience de nos actions. Construire une autorité et devenir l’associé d’entités connues est une bonne récompense.

Comme toujours, ça ne coûte rien de mieux comprendre les moteurs de recherche lorsque vous souhaitez faire de l’optimisation pour eux. En tant que groupe, peut-être que si nous commencerions à mieux comprendre les ingénieurs de recherche et leurs défis, ils pourraient mieux nous considérer un jour. Non, quel rêve stupide.

Les combinaisons créent des signaux de spam

Une chose, toujours importante à mémoriser, est que dans la plupart des cas, aucun signal ni aucune approche n’est considérée comme définitive. Les moteurs de recherche utilisent souvent une variété de méthodes pour trouver le spam. Pour ceux d’entre nous qui se débrouillent bien, cela signifie que les risques existent toujours.

Pour que ça fonctionne bien avec vos clients ou même avec vous, en général ça signifierait que votre travail serait satisfaisant sur plus d’un élément. Cela dit, la plupart des gens de la communauté de recherche ne sont pas de grands fans de SEO et il y a ceux qui pensent encore que les « manipulations » les plus douces pourraient être sanctionnées. D’après ce que je sais, il ne faut pas trop s’inquiéter d’un lynchage tout de suite. En fin de compte il y a des niveaux et des seuils, et aussi longtemps que vous éviterez l’abus de manipulations au point de vous emmêler les pinceaux, les choses devraient bien se passer.

Ce qui est sûr, c’est que vous serez un meilleur SEO si vous obteniez une meilleure base en recherche documentaire. Cet article traite de certains aspects communs – il y en a une TONNE de plus pour ceux qui seraient intéressés.

J’espère que vous avez apprécié l’article … jouez-la sereine !

Ressources Web Spam anglophones

Web Spam Research Papers

TrustRank Concepts

Link Spam

Implicit/Explicit signals

Cloaking

Social Spam

Language/Semantic related

Videos

WebSpam: Dr. Marc Najork – Microsoft Research

Topics include search advertising and auctions, search and privacy, search ranking, internationalization, anti-spam efforts, local search, peer-to-peer search, and search of blogs and online communities.

More Videos:

Patents

Trust-related signals

Query Spam

Link Spam

Cloaking and redirection spam

Other

On the Fire Horse Trail

Articles liés :

Commentaires (19)

Catégorie: Référencement


19 Commentaires

Commentaire par Sylvain

Vendredi, 23 juillet , 2010 à 18:13

Merci pour cette traduction.

J’en apprend avec l’indicateur du nombre de mots par page. Je ne pensais pas que cela pouvait être une red light.
Bien sûr, j’entends bien que ce n’est qu’un paramètre recoupé avec d’autres pour déterminer un niveau de spam potentiel.

Commentaire par Frank

Vendredi, 23 juillet , 2010 à 19:32

excellent article, je n’ai pas forcement compris tout les passages, mais étant un apprenti seo uniquement pour mon site CréaExpert, c’est plutôt commentaires sur blog assez différent le maximum dans mon thème (régulièrement et quotidiennement 10 commentaires) dofollow + participation éclair sur des forums , mais je ne sais si j’ai risque, quelle est la limite de nombreux de liens types commentaires sur blog peut on faire pat jour avant que Google se fâche. C’est question est peut être basic (surtout vu la qualité technique de l’article ci-dessus), mais je seraix content d’avoir des avis.
Je twitte l’info via @FrankGuyon

Commentaire par Tony

Vendredi, 23 juillet , 2010 à 20:22

Cet article était très intéressant, merci de l’avoir traduit et publié. Et surtout merci pour la sélection des ressources anglophones, il y a de quoi s’occuper avec un tel paquet de lecture. :)

Commentaire par Mathieu Consultant SEO

Samedi, 24 juillet , 2010 à 10:45

Du très bon cet article, c’est top de l’avoir traduit car c’est une vraie mine d’or pour tous les SEO ;)

Maintenant, on peut passer à travers les mailles du filet ou savoir quel levier actionner pour faire un référencement efficace !

Commentaire par LaurentB

Samedi, 24 juillet , 2010 à 14:23

Je crois également que cet article est une référence. Excellente idée de l’avoir traduit.

Commentaire par Abdel

Samedi, 24 juillet , 2010 à 17:03

Ouah c’est du lourd! merci pour l’article et les ressources.

Idem que Sylvain, je ne pensais pas que le nombre de mots pouvait être un signal.

Commentaire par Yvan Dupuy

Samedi, 24 juillet , 2010 à 17:08

Très gros travail sur cet article, et superbe retour d’info, merci. j’aodre l’expression « bourrage de liens » :-) ).

Commentaire par Keeg

Samedi, 24 juillet , 2010 à 17:18

Merci pour la traduction. On constate simplement qu’une grande partie de nos actions peuvent être très facilement considérées comme du spam. Maintenant, je me suis fait une autre réflexion il y a peu. Les mecs qui cherchent aux maximum à tirer leurs sites vers le haut en travaillant le référencement possèdent souvent un bon contenu. Du coup, même en prenant un minimum de spam en compte, le moteur peut continuer à être pertinent sans trop de difficulté.

Commentaire par patrenet@salon de jardin

Samedi, 24 juillet , 2010 à 17:22

Super article !
Merci pour le partage, cette analyse est vraiment intéressante, mais aussi un peu inquiétante de savoir qu’on est tous considéré comme des spammeurs.
Alors qu’à mon avis c’est quand même les moteurs de recherches eux même (surtout Google) qui ont créé cette situation…

Commentaire par Patrick Ligeron

Samedi, 24 juillet , 2010 à 23:57

Un très bel article doublé d’une traduction intelligente. Merci beaucoup de partager avec nous cet excellent travail. Cet article permet une bonne prise de contact avec le spam web. À lire et relire.

Commentaire par David Cohen

Dimanche, 25 juillet , 2010 à 13:32

C’est quasiment une check-list commentée en vol.
Merci de cette traduction.
On lit toujours trop vite (ou pas assez vite) dans une autre langue.

David C

Commentaire par Matthieu-Paris

Lundi, 26 juillet , 2010 à 11:05

Merci Jean,

deviendrais tu un white seo sans le savoir ?

Commentaire par Nicolas Deschamps

Lundi, 26 juillet , 2010 à 16:25

Merci pour cette traduction ! Ca nous rappelle qu’il faut être prudent, ou tout du moins astucieux, et qu’on peut être pris plus vite qu’on ne le croie, même quand on pense faire seulement dans le White. Tout doit paraître naturel, c’est une fois de plus la leçon qu’on peut en tirer.

Commentaire par Pierre

Mardi, 27 juillet , 2010 à 5:06

J’ai été visiblement pénalisé sur un de mes sites pour du « népotisme de liens » et je trouve ça complètement absurde : si deux sites qui travaillent ensemble se renvoient logiquement l’un à l’autre sur une base régulière où le mal ? Ah… l’aveuglement des moteurs de recherche…
En tout cas, merci pour la traduction de cet article de référence !

Commentaire par marcelpierre

Samedi, 31 juillet , 2010 à 18:46

très interessant,une vraie mine … pour tous les chercheurs de seo…;) merçi d’avoir mis tout cela en ligne! merçi encore pour tout!

Commentaire par Vincent Gache

Mardi, 3 août , 2010 à 17:00

Avec un tel article j’ai du travail pour les vacances. Merci beaucoup en tout cas, une vraie mine d’or!

Commentaire par Alex

Lundi, 23 août , 2010 à 8:17

Une mine d’informations, en effet… ce que j’en retiens principalement c’est que le .biz est à éviter pour développer :)

Commentaire par devenir riche

Samedi, 19 février , 2011 à 15:56

Cet article est intéressant, merci de l’avoir traduit. Je vais maintenant faire plus attention lorsque je laisse des commentaires.

Commentaire par Blog Webmaster

Jeudi, 17 novembre , 2011 à 21:07

Très bon article ! Faut que je revienne te lire plus souvent :)

Les commentaires sont fermés pour cet article.



SEO BLACKOUT

Site web dédié aux techniques de référencement et de positionnement de sites web sur Google.

Certaines parties du site sont en accès restreint, ces espaces sont réservés à la SEO Black Hat Team.


Don't Be Evil !