Seohackers netlinking

Web Spam : le guide SEO Spamdexing

Ecrit par admin le vendredi 23 juillet 2010 à 17:50 - Catégorie Référencement

Préambule : cet article est une traduction de l’article : Web Spam : The Definitive Guide

J’ai décidé de faire traduire cet article suite à ma présentation aux SMX Paris dans laquelle je terminais mon intervention en conseillant d’étudier les brevets déposés par les moteurs de recherches ainsi que les interventions vidéos ou écrites des chercheurs anti webspam des différents moteurs.

Je trouve que cet article méritait une traduction, bonne lecture à tous 🙂

Il s’agit d’un guest post de David Harry qui est un SEO et analyste de recherche chez Reliable SEO. Il écrit aussi sur son blog SEO et gère le SEO Training Dojo, une grande communauté dans le milieu SEO. Vous pouvez également le retrouver sur Twitter: @theGypsy

Comprendre les limites et comment travailler en sécurité

Êtes-vous un spammeur ? Non, sérieusement, je le pense. S’il y a un domaine dans lequel beaucoup de potes dans la recherche en ligne et de professionnels du marketing ne sont pas toujours clairs à ce sujet, ce sont les pénalités et les filtres des moteurs de recherche. C’est quelque chose que vous trouverez très répandu dans le cercle du SEO. Nous n’avons pas besoin de chercher plus loin que le Duplicate Content. Alors qu’il est – généralement – un filtre, certains l’interprètent comment une pénalité, ils l’appellent la « pénalité de Duplicate Content ».

J’ai donc pensé que ce serait une bonne idée de revoir – selon le point de vue d’un ingénieur de recherche en ligne (Search Engineer) – les différents types de spam existants. Il ne s’agit pas de vous montrer comment exceller dans le spam – en fait c’est tout le contraire, parce que je ne suis pas fan de ce merdier. Bien sûr, j’ai quelques camarades qui se plaisent bien dans le monde du black-hat, ils savent bien que je ne mange pas de ce pain là, qu’en général je ne pollue pas le web.

Espérons que ce topo vous aide à éviter ces petits tours, ou groupes d’activités qui risquent de mettre votre client ou votre propre site Web en danger.

« Toutes les actions destinées à améliorer le classement (ranking), sans pour autant améliorer la valeur réelle d’une page, sont considérées comme spam. »

Définition du spam web (Web Spam)

Qu’est-ce que le spam ?
Dans ma recherche, pour rédiger cet article, la définition qui m’a semblé être la meilleure, ou du moins la plus concise, est la suivante :

Toute action délibérée de l’homme destinée à stimuler une pertinence positive ou attribuer une importance à certaines pages web, à tort, considérant la véritable valeur de ces pages. (Définition du Web Spam Taxonomy, Stanford)

Hmmm. Est-ce cela le spam ? Si tel était le cas, nous serions tous des spammeurs compte tenu de nos pratiques en SEO. En gros nous faussons un peu le jeu des moteurs de recherche. Mince ! Bon. Un peu plus loin, le papier de Stanford poursuit en disant,

Une majorité du spam web provient des optimiseurs de moteurs de recherche (SEOs), tels que SEO Inc ( www.seoinc.com ) ou Bruce Clay ( www.bruceclay.com ).

Ouch ! Ce n’est pas gentil du tout ça – qu’en pensez-vous :

La plupart des SEOs prétendent que le spam améliore la pertinence aux requêtes qui n’ont rien à voir avec le thème de la page web uniquement. Dans le même temps, de nombreux SEOs approuvent et pratiquent des techniques qui ont un impact sur les scores d’importance pour atteindre ce qu’ils appellent le positionnement ou l’optimisation «éthique» de page web. Veuillez noter que, conformément à notre définition, tous les types d’actions destinées à stimuler le classement, sans pour autant améliorer la valeur réelle d’une page web, sont considérés comme du spam. (C’est moi qui le souligne)

Merde alors — ça nous rappelle que les SEOs ne sont pas des criminels, mais sont certainement un ennemi. Nuançons et considérons le spam comme une manipulation flagrante qui n’ajouterait aucune valeur mais chercherait uniquement à profiter de l’aveuglement algorithmique d’un algorithme de recherche, ok ? Lol — restons-en là. Et n’oubliez jamais qu’ils ne nous aiment pas (SEOs).

Types de spam sur le web

Il existe essentiellement deux types de spam: le renforcement (boost) et la dissimulation.

Le renforcement (boost)

C’est quand une personne a l’intention d’accroître ou de renforcer (artificiellement?) la valeur d’une page.

  • Le spamming : Il s’agirait de ceux qui essaient à manipuler les moteurs de recherche grâce à des éléments tels que le titre de page (spam de titre), la meta description ou les meta keywords (spam de metas). Comme la plupart d’entre nous le savent, parmi ces trois metas deux ont été abusés au point que la plupart des moteurs de recherche actuels ont cessé de les utiliser comme des signaux importants.
  • De même le spam d’URL est un autre domaine qu’ils ont été tenus d’examiner. Ouais, ça peut paraître étrange parce que certains moteurs de recherche attribuent un certain poids aux URLs. Ça peut être considéré comme une manipulation.
  • Le Link spamming est une autre méthode de spam bien connue qui inclut notamment le spam par l’ancre texte (anchor text). Non seulement les moteurs de recherche ont conscience de la masse de spams de liens, mais aussi de l’ancre texte, car c’est l’un des signaux les plus importants du point de vue du classement (ranking). Évidemment cette partie inclus aussi le fait que les spammeurs cherchent à déposer des liens sur les pages (de forums, commentaires de blogs, livres d’or, etc.) afin d’augmenter la valeur de pages cible ainsi que les plus infâmes techniques de hack.

Techniques de camouflage

Cet ensemble de techniques, c’est quand on ne se sert pas généralement des méthodes perceptibles pour obtenir un classement de page plus élevé. Ou plus exactement, la dissimulation de techniques de renforcement. Ce sont certainement les plus difficiles et les moteurs de recherche ont tendance à les considérer comme plus sournoises que les techniques de renforcement.

  • Contenu caché : Ce sont des techniques où les mots et les liens sont cachés lorsque le navigateur affiche une page. Les pratiques les plus courantes sont l’utilisation de couleurs pour rendre les éléments en question invisibles.
  • Cloaking : Nous le connaissons tous, n’est-ce pas ? C’est lorsqu’on montre au robot de moteur de recherche un contenu de page différent de celui visible par l’utilisateur. On peut supposer une diminution des chances d’être rapporté par les utilisateurs ou des concurrents qui pourraient percevoir le spam.
  • Redirection : La page est automatiquement redirigée par le navigateur comme si la page était indexée par le moteur de recherche, mais l’utilisateur ne s’en apercevra jamais. Ça fonctionnerait essentiellement comme un proxy/doorway qui se joue du moteur et détourne les utilisateurs.

« Dans la plupart des cas, aucun signal ni aucune approche est considérée comme définitive. Les moteurs de recherche emploient souvent une variété de méthodes pour trouver le spam. »

Approches pour combattre le Spam du web

Content Spam (spam de contenu)

Langue: Des ingénieurs de recherche en ligne se sont intéressés au niveau des langues de pages pour voir ce qu’ils pourraient y trouver. Il est sorti que le français était la langue qui s’est souvent révélée être un festival de spam, avec ensuite l’allemand et l’anglais. J’ai trouvé ce modèle assez intéressant.

Domaine: Pas de surprise, il a été révélé que les extensions de domaine .biz avaient un taux élevé de spam, beaucoup plus élevé que les autres. Le .us et le .com sont les suivants. Mais le .biz reste largement en tête – faites attention ok ?

Mots par page: Une autre approche souvent utilisée. Ils ont trouvé que les pages qui contenaient beaucoup de texte étaient souvent celles qui contenaient le plus de spam. Moins de 1500 mots, la courbe du spam diminuait. La tranche de mots 750-1500 semblait être le repère de spammeurs.

Mots clés dans la balise TITLE: C’est un autre domaine qu’ils observeront. L’expérience a montré que les pages de spam avaient tendance à utiliser beaucoup plus de mots clés dans la balise TITLE par rapport aux pages normales.

Le nombre d’ancre de lien (anchor text): Une autre approche intéressante consiste à examiner le rapport du texte de l’ancre au texte de la page. Ça peut être au niveau de la page ou du site. Les sites qui contiennent un pourcentage élevé d’ancre texte (selon le texte standard) sont susceptibles d’être des sites de spam.

Fraction de contenu visible: Celui-ci consiste à utiliser du texte caché, à ne pas confondre avec les rapports du code au texte. Ils s’intéressent à une proportion de texte qui n’est pas effectivement visible sur la page.

Compressibilité: En tant que mécanisme destiné à lutter contre le Keyword Stuffing (bourrage de mots clés), les moteurs de recherche peuvent s’intéresser au taux de compression. Plus précisément, il s’agit du caractère répétitif ou du content spinning utilisé pour spammer. Les moteurs de recherche compressent souvent une page pour enregistrer l’indexation et le traitement. Il est fort probable que les pages de spam aient un taux de compression (non-compressé divisé par le compressé).

Mots globalement populaires: Une autre bonne manière de trouver du Keyword Stuffing est de comparer les mots d’une page aux données de requêtes existantes et de documents connus. Si quelqu’un fait du Keyword Stuffing autour de ces mots clés, ils s’engageront dans une utilisation beaucoup moins naturelle que les requêtes d’utilisateurs et de bonnes pages connues.

Spam de requête: Compte tenu de la montée des requêtes analysées, des données de clics et de personnalisation, les spammeurs pourraient rechercher des variétés de termes cliqués et cliquer sur leurs propres résultats. En observant le type de requêtes, en combinaison avec d’autres signaux, ces tactiques deviennent statistiquement apparentes.

Le spam Host-level est à la recherche d’autres sites et de domaines sur le serveur et/ou le registrar. Tout comme le TrustRank, la plupart du temps les spammeurs se retrouveront dans un même voisinage avec d’autres spammeurs.

Phrase-based: Selon cette approche, un modèle d’apprentissage qui utilise des documents de formation cherche des anomalies textuelles sous forme de phrases liées. C’est un peu du Keyword Stuffing sous stéroïdes. La recherche d’anomalies statistique peut souvent mettre en évidence des documents de type spam.

Link Spam (spam de lien)

TrustRank (classement de confiance): Cette méthode porte plusieurs noms, le TrustRank est du goût de Yahoo. Le concept tourne autour d’avoir « de bons voisins ». La recherche montre que les sites font de bons liens vers les bons sites et vice-versa. Vous êtes reconnu par la compagnie que vous gardez.

Link stuffing (bourrage de liens): Une démarche de spammeur qui consiste à créer une tonne de pages de faible valeur pour pointer plusieurs liens à une page cible. Les sites de spams tendent à avoir une plus grande part de ces types de pages artificielles comparées à d’autres bonnes pages.

Nepotistic links (favoritisme de liens): Nous posséderions tout grâce aux liens payants contrairement à ceux négociés (réciproques). Alors que pour les SEOs ça peut être une zone de flou, les moteurs de recherche, eux, croient certainement que les manipulations de lien sous toutes les formes de réciprocité existantes sont d’évidentes manipulations.

Topological spamming (link farms): Nous avons notre propre pensée à ce sujet, mais les moteurs de recherche, eux, se pencheront sur le pourcentage de lien, dans un graphe, en comparaison à de « bons » sites. En règle générale ceux qui cherchent à manipuler les moteurs auront un pourcentage de liens plus élevé à partir de ces endroits de spam.

Temporal anomalies (anomalies temporaires): Un autre espace où en général les sites de spam s’écartent de l’ensemble de pages (normales) sont les données historiques. Dans l’index il y aura une moyenne d’acquisition de liens et de régression avec des sites « normaux ». Les données temporelles peuvent être utilisées pour aider à détecter les sites spammy qui s’adonnent à la création de liens non naturels.

Leçons pour référenceurs

Que peut-on tirer de tout cela ? Pour moi, ce passage était intéressant sur plusieurs niveaux. Jetons-y un œil:

  • Signaux de classement: Si nous pratiquons la rétro-ingénierie sur leur rétro-ingénierie à notre égard, nous commençons effectivement à voir quels sont les signaux importants qu’ils souhaitent protéger. Comprendre ce qu’ils sont en train de protéger nous dit ce qu’ils considèrent comme important. Vrai ?
  • Signaux de fumée: Compte tenu du nombre d’efforts fournis dans le spam de lien, nous savons que les moteurs de recherche modernes de link-centric ont un intérêt dans des approches de classement moins diversifiées. C’est-à-dire que, si vous avez besoin d’améliorer le positionnement d’une page web par des liens, ils savent où chercher les spammeurs. Le traitement du spam web est fortement lié à l’avenir de la recherche. Observez et apprenez.
  • Vous êtes de mauvais garçons: Nous en avons discuté, nous ne sommes pas listés sur la plupart des cartes de Noël d’ingénieurs en recherche. Sachez-le et comprenez-le. Ils nous tolèrent — même les « white hat » les plus honnêtes d’entre nous.
  • L’atténuation est plus fréquente: Une autre chose que j’ai apprise est que le plus souvent, en particulier dans le spam de liens borderline, le jus peut être coupé. Le site pas désindexé. S’agit-il d’une pénalité ? Un filtre ? Est-ce important ?
  • Autorité/confiance: Il serait sage de prendre conscience de nos actions. Construire une autorité et devenir l’associé d’entités connues est une bonne récompense.

Comme toujours, ça ne coûte rien de mieux comprendre les moteurs de recherche lorsque vous souhaitez faire de l’optimisation pour eux. En tant que groupe, peut-être que si nous commencerions à mieux comprendre les ingénieurs de recherche et leurs défis, ils pourraient mieux nous considérer un jour. Non, quel rêve stupide.

Les combinaisons créent des signaux de spam

Une chose, toujours importante à mémoriser, est que dans la plupart des cas, aucun signal ni aucune approche n’est considérée comme définitive. Les moteurs de recherche utilisent souvent une variété de méthodes pour trouver le spam. Pour ceux d’entre nous qui se débrouillent bien, cela signifie que les risques existent toujours.

Pour que ça fonctionne bien avec vos clients ou même avec vous, en général ça signifierait que votre travail serait satisfaisant sur plus d’un élément. Cela dit, la plupart des gens de la communauté de recherche ne sont pas de grands fans de SEO et il y a ceux qui pensent encore que les « manipulations » les plus douces pourraient être sanctionnées. D’après ce que je sais, il ne faut pas trop s’inquiéter d’un lynchage tout de suite. En fin de compte il y a des niveaux et des seuils, et aussi longtemps que vous éviterez l’abus de manipulations au point de vous emmêler les pinceaux, les choses devraient bien se passer.

Ce qui est sûr, c’est que vous serez un meilleur SEO si vous obteniez une meilleure base en recherche documentaire. Cet article traite de certains aspects communs – il y en a une TONNE de plus pour ceux qui seraient intéressés.

J’espère que vous avez apprécié l’article … jouez-la sereine !

Web Spam : le guide SEO Spamdexing

Commentaires (19)

Catégorie: Référencement



SEO BLACKOUT

Site web dédié aux techniques de référencement et de positionnement de sites web sur Google.

Certaines parties du site sont en accès restreint, ces espaces sont réservés à la SEO Black Hat Team.


Don't Be Evil !