Formation référencement

La commande link est de retour sur Bing (ex Msn)

Ecrit par admin le vendredi 21 janvier 2011 à 18:38 - Catégorie Actualités référencement,Backlinks,Msn Live

Msn a supprimé la commande link et linkdomain depuis plusieurs années pour éviter les abus des webmasters/référenceurs qui n’arrêtaient pas de scraper les backlinks.

En 2007, quelqu’un avait trouvé la parade pour faire fonctionner à nouveau la commande link et linkdomain sur Msn, il suffisait alors d’ajouter un + devant la commande link (Ex:+link:www.bing.com), voir mon article sur le sujet :
Commandes link et linkdomain sur Msn Search 

La commande fût à nouveau bridée quelques mois après cette trouvaille.

Comment obtenir les backlinks sur Bing alors ?

C’est en début de semaine que j’ai trouvé par hasard, comment faire fonctionner la commande link sur BING (ex Msn Live).

Il suffit de rajouter des guillemets devant les commandes link ou linkdomain, pour obtenir des backlinks, ce qui donne par exemple :

"link:www.bing.com

Exemple :
http://www.bing.com/search?count=200&first=1&q=%22link%3ahttp%3a%2f%2fwww.bing.com

ou

"linkdomain:http://www.bing.com

Exemple :
http://www.bing.com/search?count=200&first=1&q=%22linkdomain%3ahttp%3a%2f%2fwww.bing.com

Attention le http:// peut modifier les résultats, pas de http:// avec link en revanche oui avec linkdomain.

En collaboration avec 512Banque nous avons préparé une première version d’un script php qui permet d’extraire les 200 premiers liens de Bing, le script fonctionne mais peut-être largement amélioré en termes de vitesse et pour dépasser cette limite des 200 (c’est une histoire de cookies…) le voici en archive :

» Téléchargez l’archive zip

Installation du script :

  1. Téléchargez l’archive zip ci-dessus,
  2. Décompressez l’archive et uploadez-le tout sur votre serveur dans un dossier
  3. Modifiez dans le fichier bing.php les variables $site et $choix_commande
  4. Appelez le fichier bing.php depuis votre navigateur et armez-vous de patience
  5. C’est tout

Merci à 512banque, webmaster des sites Cultivaref : réferencement white hat et DeliciousCadaver : référencement black hat pour l’aide au développement de cette première version du script.

N’hésitez pas à partager vos améliorations du script ici 🙂

Commentaires (20)

Catégorie: Actualités référencement,Backlinks,Msn Live

Un fusible pour le mauvais client SEO…

Ecrit par proseogeneve le dimanche 16 janvier 2011 à 2:18 - Catégorie Référencement

Un risque auquel vous devez faire face lorsque vous référencez pour des clients est forcément les paiements de ces derniers. Bien sûr, la base est de toujours vous armer d’un contrat dès le départ, et un acompte sur la prestation SEO que vous allez réaliser, mais si le client est véreux, cela peut ne pas suffire…

Un fusible pour le mauvais client SEO…

Commentaires (41)

Catégorie: Référencement

Le Projet Content-Spinning

Ecrit par ringout le mercredi 29 décembre 2010 à 17:30 - Catégorie Référencement

Préambule : Article écrit par Ringout qui travaille actuellement avec d’autres sur un projet de content-spinning avancé et vous propose de rejoindre cette communauté.

Depuis que je fais du référencement BH, j’ai appris grâce au blog de Discodog qu’il existait une technique qui s’appelait content-spinning. Je me suis intéressé à cette façon de créer du contenu en masse.

Le problème qui m’a toujours bloqué et même parfois m’a découragé à faire du content-spinning, c’est la qualité du contenu qui n’était pas à la hauteur de mes attentes quand je voulais soumettre le texte générer soit à mes MFA ou dans des communiqués de presse. Plus le texte avait du volume et plus j’avais besoin d’automatiser cette tâche.

La difficulté résidait dans tous les outils de spinning automatiques que j’ai testé : la qualité des synonymes ainsi que la conjugaison et les liaisons me posaient beaucoup de problèmes. Un autre point important, les bases de synonymes qui sont utilisées dans les outils de spinning n’ont jamais été faites pour le référencement, par conséquent elles sont incompatibles avec nos objectifs. Enfin faire du spinning « à la mano » c’est la chose la plus ennuyeuse que j’ai faite dans le référencement.

Pour cela j’ai rejoint le projet « content spinning » : nous essayons de répondre à tous ces problèmes. Le projet est communautaire, nous sommes maintenant une trentaine de personnes qui travaillent pour un même objectif : un outil de spinning semi-automatique qui spin automatiquement les mots qui ont un sens unique et qui laisse le choix dans le cas d’un mot qui a plusieurs sens.

Nous sommes deux équipes, éditeurs et codeurs :

  • La première équipe travaillant sur la base de données mot racine + synonymes en filtrant et optimisant la qualité des synonymes et en classifiant chaque mot selon son type.
  • La deuxième équipe travaille sur le code pour l’améliorer et répond à toutes les attentes des référenceurs qui veulent du contenu spinné de qualité.

Parmi nos objectifs pour la prochaine version :

  • Un hook pour linkfarmevolution ainsi qu’un api est également en préparation et sera offert gratuitement aux membres du projet.
  • Prévoir l’accordement des genres, des pluriels et de la conjugaison.
  • La liaison du type l’, d’….etc
  • Ajouter dans le menu déroulant une option, permettant au spinneur de rajouter un synonyme de plus si les synonymes de la liste ne lui conviennent pas.

Chaque jour le groupe grandit de plus en plus, mais vu la complexité du projet, plus le nombre des participants évolue, plus nous arriverons plus rapidement à notre but.

Si vous désirez rejoindre notre équipe de fous furieux, contactez-moi en PM sur la sphere ou par mail ringout [@] live.fr.
Enfin je remercie beaucoup Tiger qui nous a proposé volontairement de la visibilité sur SEO BlackOut le blog référence en BH.

N’hésitez pas à vous inscrire sur http://forum.content-spinning.com/ pour faire avancer notre projet.

Ringout

Commentaires (8)

Catégorie: Référencement

Top Blogs Seo : Classement Wikio Novembre 2010

Ecrit par admin le mercredi 3 novembre 2010 à 18:11 - Catégorie Référencement

Voici le top Wikio des blogs SEO pour le mois de novembre 2010 que l’on m’a gentillement proposé de publier sur Seo BlackOut :

Top Blogs Seo : Classement Wikio Novembre 2010

Commentaires (5)

Catégorie: Référencement

Créez un rapport personnalisé dans SEO Mioche Tools

Ecrit par ddpetit le vendredi 29 octobre 2010 à 13:07 - Catégorie Scripts PHP

Bonjour à tous (et à toutes !).

Aujourd’hui, je vous propose un article qui s’adresse à tout ceux qui utilisent SEO Mioche Tools, l’outil créé par Nicolas Jean. L’outil en lui même est très utile, mais les rapports qui sont créés ne sont pas forcément très facile à manipuler, surtout lorsque vous commencez à attirer quelques clients, et que vous souhaitez leur envoyer quelques éléments en rapport avec votre travail. Donc, aujourd’hui à travers ce post, je vais vous montrer comment réaliser ce genre de rapport :

Rapport de positionnement

Vous ne trouvez pas ça joli ?

Créez un rapport personnalisé dans SEO Mioche Tools

Commentaires (10)

Catégorie: Scripts PHP

Sick Submitter

Ecrit par admin le lundi 11 octobre 2010 à 11:40 - Catégorie Outils référencement

Ca fait quelques mois que je dois vous présenter publiquement cet outil formidable qui vous permet de créer automatiquement des milliers de backlinks 🙂
Sick Submitter est un outil qui permet de faire de la soumission automatique sur n’importe quel type de formulaire.

A l’origine il était dédié aux profils de forum, il est maintenant capable de renseigner automatiquement n’importe quel type de formulaire : de créer du profil de forum, de la soumission d’annuaire, du commentaire de blog, du WPMU, du communiqué de presse, de la création automatique de comptes Yahoo, du social bookmark… Il n’y a aucune limite avec Sick Submitter car il valide les mails et passe les captchas !

Fonctionnalités de Sick Submitter

  1. Il permet par défaut de créer automatiquement des profils (nom, prénom, âge, adresse, anniversaire, lien site…) sur un nombre importants de types de forum (phpbb, SMF, Mybb, Vbulletin, Expression Engine, IpBoard, PunBB, FluxBB…)
  2. Il permet également de créer, grâce à son Sick Builder, ses propres templates et packages et donc de faire ses propres listes d’urls uniques (profils, blogs, annuaires, social bookmarks, social networks, communiqués de presse, wpmu…)
  3. Il valide automatiquement les emails
  4. Il permet de passer tout type de captchas, les services proposés sont Decaptcher, DeathByCaptcha, Bypass Captcha et Beat Captchas
  5. Le spinning est possible sur tous les champs textes de Sick Submitter
  6. Multi-threading (jusqu’à 30 urls en même temps)
  7. Création de linkwheels de façon automatisée
  8. Gestion des urls des profils grâce à l’Url Manager
  9. Soumission des urls à des sites de flux rss
  10. Une fonction Ping est également à votre disposition pour pinguer vos urls fraîchement créées
  11. Une fonction keep-alive permet de simuler la présence sur les forums et donc de faire indexer vos profils simplement puisque votre pseudo apparaitra sur la home des forums
  12. Un onglet soumission annuaires vous permet de soumettre à des annuaires phplinkdirectory par défaut mais rien ne vous empêche de créer votre template pour des annuaires français. Vous pouvez choisir la bonne catégorie dans l’annuaire, pour cela, il suffit de renseigner par un mot-clé 4 champs de catégories.
  13. Sick Submitter permet l’utilisation de proxy.
  14. Sick Submitter possède également un scheduler qui vous permet de programmer les tâches à faire dans le temps

A noter que les créateurs de Sick Submitter proposent également un petit programme gratuit qui permet de trier les urls en fonction du type de forum, blog, annuaire… histoire de façiliter la création de packages.

Sick Submitter est un outil de linkbuilding complet, qui vous permettra de ranker sur n’importe quel mot-clé. C’est un outil très simple à prendre en main, il demande néammoins un petit temp d’apprentissage pour pouvoir créer ses propres templates et paquets d’urls.

Les créateurs de Sick Submitter et les développeurs de la communauté sont très actifs :

  • Les créateurs font des mises à jour régulières et fournissent chaque mois un paquet de 30 nouvelles urls de profils à créer
  • Les développeurs proposent des templates et des packages originaux (forums, wpmu, blogs, social bookmarks, social networks…) à des prix très abordables.
  • A côté de ça, des packages gratuits sont proposés par la communauté, rien qu’avec les packages gratuits vous avez largement de quoi faire.

Le reproche que l’on peut faire à SickSubmitter, c’est qu’il est lent par rapport à un Xrumer, son avantage c’est qu’il soumet là où Xrumer ne sait pas encore faire. Il vaut largement un Senuke qui est encore plus lent pour la création de profils. Et niveau prix ya pas photo, c’est le moins cher 🙂

Pour info, vous avez le droit d’installer SickSubmitter sur 2 PC.

Sick Submitter vous coûtera environ 20 dollars par mois, ces 20 dollars seront largement amortis, c’est pour moi le meilleur outil de linkbuilding du moment.

>> Cliquez ici pour essayer Sick Submitter

Je vous mets quelques screenshots de la bête :

>> Cliquez ici pour essayer Sick Submitter

Pour toute question, merci d’utiliser le formulaire de commentaires au pied de cet article.

Commentaires (82)

Catégorie: Outils référencement

Accélérer vos scripts php grâce au multithreading

Ecrit par Maxime le jeudi 2 septembre 2010 à 13:43 - Catégorie Scripts PHP

Lecteur de SeoBlackOut, Tiger m’a fait le plaisir de publier ce premier article qui je l’espère vous plaira. Nous avons mis en place dans ma boite qui crée des boutiques en ligne ce script qui permet de multithreader des scripts php.

Imaginez le cas suivant : Vous souhaitez créer un script qui extrait des données du web. Si vous êtes très BlackHat ce sera pour extraire des digg-likes et des blogs à spammer, ou comme chez Vaisonet ce sera plutôt un script pour faire des relevés de prix sur les boutiques en ligne des concurrents de vos clients … C’est toujours plus sympathique que de le faire à main.

Dans tous les cas, vous ne voulez par faire quelque chose d’agressif et vous temporisez le tout. Vous avez donc certainement quelque chose comme cela :

$sites = array('www.siteA.fr', 'www.siteB.fr', 'www.siteC.fr', )
foreach($sites as $site)
{
 //Votre fonction d'extraction
 extraction($site);
 
 //La tempo pour passer sous les radars
 sleep(15);
}

Si vous voulez accélérer les choses, le seul moyen est de lancer toutes les extractions en parallèle.  C’est facile à faire avec peu de paramètre, mais remplacez 3 sites exemples par 30 à faire tous les jours, c’est vite pénible !

L’idée est donc d’exécuter chaque élément de la boucle foreach dans un thread distinct en même temps que les autres.

Mauvaise nouvelle, php ne sait pas vraiment faire cela, il faut utiliser autre chose. De nombreux langages le permettent : C, C++, Java, etc … J’ai choisi Python. C’est un langage qui n’est pas compilé, rapide à coder et vous le verrez facile à comprendre.

Mais je vois déjà une objection pointer à l’horizon : pourquoi ne pas tout coder en Python ? Ce serait clairement la solution la plus pertinente techniquement, je suis parfaitement d’accord. Mais dans les faits, les cordonniers sont les plus mal chaussés : on traine de vieux bouts de code php issu d’une ancienne application web, ou on fait des extractions plus complexe en Perl avec Talend par exemple.

Et oui, avec le script qui arrive, vous pourrez aussi multithreader des scripts Perl !

Bref, cet outil vous permettra de recycler vos vieux bouts de code 😉

Préalable sur Python

Il vous faut Python 3 installé sur votre poste : http://www.python.org/

Python 3 contient un éditeur très commode : IDLE que je vous encourage à utiliser. Et deux astuces : attention à l’identation avec Python. Mettez l’extension py pour un script Python classique et pyw pour un script se lançant sans fenêtre. Je le recommande pour ce script.

Si vous souhaitez diffuser votre script Python et qu’il fonctionne sans avoir à installer Python, tournez vous vers py2exe (Utilisateurs avancés  : imaginez ce que l’on peut faire en distribuant les calculs via un exe …).

Multithreader PHP grâce à Python

# Limititation : les threads d'utilisent qu'un coeur d'un processeur multicoeur
# Ce n'est pas gênant pour l'utilisation escomptée, sachant que la puissance de
# calcul n'est pas le facteur limitant, celui-ci étant la latence réseau.
# Auteur : Maxime Varinard - Vaisonet - http://www.vaisonet.com
# Vous pouvez librement ré-utiliser ce script, mais un petit backlink avec une belle
# ancre de votre choix contenant e-commerce serait un beau remerciement ;)
import threading, os
from tkinter import *
 
th = 0
 
def lancement(param):
    global th
    th = th + 1
    # la ligne ci-dessous est à adapter pour lancer les bons programmes/scripts
    script = '"c:/Program Files/xampp/php/php.exe" c:/Users/Maxime/Desktop/sleep.php ' + param
    os.system(script)
    th = th - 1
 
# On peut lancer manuellement des scripts, hors boucle for (par exemple un script perl)
a = threading.Thread(None, lancement, None, ('1',))
b = threading.Thread(None, lancement, None, ('5',))
a.start()
b.start()
 
# On lance la boucle des threads
# Le tableau li contient les paramètres à passer au script. Il lancera en parallèle les scripts
# avec les différents paramètres.
li = ['www.siteA.fr', 'www.siteB.fr', 'www.siteC.fr']
for s in li:
    s = threading.Thread(None, lancement, None, (s,))
    s.start()
 
# Le thread qui surveille la fin d'exécution des autres threads
# Permet de signaler la fin d'exécution des scripts lancés s'ils n'ont pas de fenêtres
def alert():
    global th
    while th > 0:
        # On ne fait rien
        continue
    fen = Tk()
    fen.title('Outils Vaisonet')
    tex = Label(fen, text='Les tâches sont terminées !', width=45, height=3)
    tex.pack()
    bou = Button(fen, text='Ok', command = fen.destroy)
    bou.pack()
    fen.mainloop()
    print("fini", th)
 
EA = threading.Thread(None, alert, None)
EA.start()

Le script est bien commenté, mais voici quelques explications complémentaires pour son intégration avec php. Il faut sortir la boucle foreach de votre script php pour l’intégrer dans le script Python. On appelle ensuite votre script php en ligne de commande. Cela veut donc dire qu’il faut savoir utiliser $argv pour passer le paramètre. Voici un exemple, mon fichier sleep.php de test

echo "toto" . $argv[1];
sleep(30);

Et si vraiment vous voulez tenter de faire du mutlithreading avec php, faites un tour du côté de stream_select.
La solution avec cURL pose parfois des problèmes, mais vous pouvez essayer : Multithreading avec Curl et PHP

Ce n’est pas l’astuce SEO Black Hat de la mort qui tue, mais je suis sûr que vous trouverez des applications qui vous seront utiles 😉
Bon code.

Commentaires (12)

Catégorie: Scripts PHP

Web Spam : le guide SEO Spamdexing

Ecrit par admin le vendredi 23 juillet 2010 à 17:50 - Catégorie Référencement

Préambule : cet article est une traduction de l’article : Web Spam : The Definitive Guide

J’ai décidé de faire traduire cet article suite à ma présentation aux SMX Paris dans laquelle je terminais mon intervention en conseillant d’étudier les brevets déposés par les moteurs de recherches ainsi que les interventions vidéos ou écrites des chercheurs anti webspam des différents moteurs.

Je trouve que cet article méritait une traduction, bonne lecture à tous 🙂

Il s’agit d’un guest post de David Harry qui est un SEO et analyste de recherche chez Reliable SEO. Il écrit aussi sur son blog SEO et gère le SEO Training Dojo, une grande communauté dans le milieu SEO. Vous pouvez également le retrouver sur Twitter: @theGypsy

Comprendre les limites et comment travailler en sécurité

Êtes-vous un spammeur ? Non, sérieusement, je le pense. S’il y a un domaine dans lequel beaucoup de potes dans la recherche en ligne et de professionnels du marketing ne sont pas toujours clairs à ce sujet, ce sont les pénalités et les filtres des moteurs de recherche. C’est quelque chose que vous trouverez très répandu dans le cercle du SEO. Nous n’avons pas besoin de chercher plus loin que le Duplicate Content. Alors qu’il est – généralement – un filtre, certains l’interprètent comment une pénalité, ils l’appellent la « pénalité de Duplicate Content ».

J’ai donc pensé que ce serait une bonne idée de revoir – selon le point de vue d’un ingénieur de recherche en ligne (Search Engineer) – les différents types de spam existants. Il ne s’agit pas de vous montrer comment exceller dans le spam – en fait c’est tout le contraire, parce que je ne suis pas fan de ce merdier. Bien sûr, j’ai quelques camarades qui se plaisent bien dans le monde du black-hat, ils savent bien que je ne mange pas de ce pain là, qu’en général je ne pollue pas le web.

Espérons que ce topo vous aide à éviter ces petits tours, ou groupes d’activités qui risquent de mettre votre client ou votre propre site Web en danger.

« Toutes les actions destinées à améliorer le classement (ranking), sans pour autant améliorer la valeur réelle d’une page, sont considérées comme spam. »

Définition du spam web (Web Spam)

Qu’est-ce que le spam ?
Dans ma recherche, pour rédiger cet article, la définition qui m’a semblé être la meilleure, ou du moins la plus concise, est la suivante :

Toute action délibérée de l’homme destinée à stimuler une pertinence positive ou attribuer une importance à certaines pages web, à tort, considérant la véritable valeur de ces pages. (Définition du Web Spam Taxonomy, Stanford)

Hmmm. Est-ce cela le spam ? Si tel était le cas, nous serions tous des spammeurs compte tenu de nos pratiques en SEO. En gros nous faussons un peu le jeu des moteurs de recherche. Mince ! Bon. Un peu plus loin, le papier de Stanford poursuit en disant,

Une majorité du spam web provient des optimiseurs de moteurs de recherche (SEOs), tels que SEO Inc ( www.seoinc.com ) ou Bruce Clay ( www.bruceclay.com ).

Ouch ! Ce n’est pas gentil du tout ça – qu’en pensez-vous :

La plupart des SEOs prétendent que le spam améliore la pertinence aux requêtes qui n’ont rien à voir avec le thème de la page web uniquement. Dans le même temps, de nombreux SEOs approuvent et pratiquent des techniques qui ont un impact sur les scores d’importance pour atteindre ce qu’ils appellent le positionnement ou l’optimisation «éthique» de page web. Veuillez noter que, conformément à notre définition, tous les types d’actions destinées à stimuler le classement, sans pour autant améliorer la valeur réelle d’une page web, sont considérés comme du spam. (C’est moi qui le souligne)

Merde alors — ça nous rappelle que les SEOs ne sont pas des criminels, mais sont certainement un ennemi. Nuançons et considérons le spam comme une manipulation flagrante qui n’ajouterait aucune valeur mais chercherait uniquement à profiter de l’aveuglement algorithmique d’un algorithme de recherche, ok ? Lol — restons-en là. Et n’oubliez jamais qu’ils ne nous aiment pas (SEOs).

Types de spam sur le web

Il existe essentiellement deux types de spam: le renforcement (boost) et la dissimulation.

Le renforcement (boost)

C’est quand une personne a l’intention d’accroître ou de renforcer (artificiellement?) la valeur d’une page.

  • Le spamming : Il s’agirait de ceux qui essaient à manipuler les moteurs de recherche grâce à des éléments tels que le titre de page (spam de titre), la meta description ou les meta keywords (spam de metas). Comme la plupart d’entre nous le savent, parmi ces trois metas deux ont été abusés au point que la plupart des moteurs de recherche actuels ont cessé de les utiliser comme des signaux importants.
  • De même le spam d’URL est un autre domaine qu’ils ont été tenus d’examiner. Ouais, ça peut paraître étrange parce que certains moteurs de recherche attribuent un certain poids aux URLs. Ça peut être considéré comme une manipulation.
  • Le Link spamming est une autre méthode de spam bien connue qui inclut notamment le spam par l’ancre texte (anchor text). Non seulement les moteurs de recherche ont conscience de la masse de spams de liens, mais aussi de l’ancre texte, car c’est l’un des signaux les plus importants du point de vue du classement (ranking). Évidemment cette partie inclus aussi le fait que les spammeurs cherchent à déposer des liens sur les pages (de forums, commentaires de blogs, livres d’or, etc.) afin d’augmenter la valeur de pages cible ainsi que les plus infâmes techniques de hack.

Techniques de camouflage

Cet ensemble de techniques, c’est quand on ne se sert pas généralement des méthodes perceptibles pour obtenir un classement de page plus élevé. Ou plus exactement, la dissimulation de techniques de renforcement. Ce sont certainement les plus difficiles et les moteurs de recherche ont tendance à les considérer comme plus sournoises que les techniques de renforcement.

  • Contenu caché : Ce sont des techniques où les mots et les liens sont cachés lorsque le navigateur affiche une page. Les pratiques les plus courantes sont l’utilisation de couleurs pour rendre les éléments en question invisibles.
  • Cloaking : Nous le connaissons tous, n’est-ce pas ? C’est lorsqu’on montre au robot de moteur de recherche un contenu de page différent de celui visible par l’utilisateur. On peut supposer une diminution des chances d’être rapporté par les utilisateurs ou des concurrents qui pourraient percevoir le spam.
  • Redirection : La page est automatiquement redirigée par le navigateur comme si la page était indexée par le moteur de recherche, mais l’utilisateur ne s’en apercevra jamais. Ça fonctionnerait essentiellement comme un proxy/doorway qui se joue du moteur et détourne les utilisateurs.

« Dans la plupart des cas, aucun signal ni aucune approche est considérée comme définitive. Les moteurs de recherche emploient souvent une variété de méthodes pour trouver le spam. »

Approches pour combattre le Spam du web

Content Spam (spam de contenu)

Langue: Des ingénieurs de recherche en ligne se sont intéressés au niveau des langues de pages pour voir ce qu’ils pourraient y trouver. Il est sorti que le français était la langue qui s’est souvent révélée être un festival de spam, avec ensuite l’allemand et l’anglais. J’ai trouvé ce modèle assez intéressant.

Domaine: Pas de surprise, il a été révélé que les extensions de domaine .biz avaient un taux élevé de spam, beaucoup plus élevé que les autres. Le .us et le .com sont les suivants. Mais le .biz reste largement en tête – faites attention ok ?

Mots par page: Une autre approche souvent utilisée. Ils ont trouvé que les pages qui contenaient beaucoup de texte étaient souvent celles qui contenaient le plus de spam. Moins de 1500 mots, la courbe du spam diminuait. La tranche de mots 750-1500 semblait être le repère de spammeurs.

Mots clés dans la balise TITLE: C’est un autre domaine qu’ils observeront. L’expérience a montré que les pages de spam avaient tendance à utiliser beaucoup plus de mots clés dans la balise TITLE par rapport aux pages normales.

Le nombre d’ancre de lien (anchor text): Une autre approche intéressante consiste à examiner le rapport du texte de l’ancre au texte de la page. Ça peut être au niveau de la page ou du site. Les sites qui contiennent un pourcentage élevé d’ancre texte (selon le texte standard) sont susceptibles d’être des sites de spam.

Fraction de contenu visible: Celui-ci consiste à utiliser du texte caché, à ne pas confondre avec les rapports du code au texte. Ils s’intéressent à une proportion de texte qui n’est pas effectivement visible sur la page.

Compressibilité: En tant que mécanisme destiné à lutter contre le Keyword Stuffing (bourrage de mots clés), les moteurs de recherche peuvent s’intéresser au taux de compression. Plus précisément, il s’agit du caractère répétitif ou du content spinning utilisé pour spammer. Les moteurs de recherche compressent souvent une page pour enregistrer l’indexation et le traitement. Il est fort probable que les pages de spam aient un taux de compression (non-compressé divisé par le compressé).

Mots globalement populaires: Une autre bonne manière de trouver du Keyword Stuffing est de comparer les mots d’une page aux données de requêtes existantes et de documents connus. Si quelqu’un fait du Keyword Stuffing autour de ces mots clés, ils s’engageront dans une utilisation beaucoup moins naturelle que les requêtes d’utilisateurs et de bonnes pages connues.

Spam de requête: Compte tenu de la montée des requêtes analysées, des données de clics et de personnalisation, les spammeurs pourraient rechercher des variétés de termes cliqués et cliquer sur leurs propres résultats. En observant le type de requêtes, en combinaison avec d’autres signaux, ces tactiques deviennent statistiquement apparentes.

Le spam Host-level est à la recherche d’autres sites et de domaines sur le serveur et/ou le registrar. Tout comme le TrustRank, la plupart du temps les spammeurs se retrouveront dans un même voisinage avec d’autres spammeurs.

Phrase-based: Selon cette approche, un modèle d’apprentissage qui utilise des documents de formation cherche des anomalies textuelles sous forme de phrases liées. C’est un peu du Keyword Stuffing sous stéroïdes. La recherche d’anomalies statistique peut souvent mettre en évidence des documents de type spam.

Link Spam (spam de lien)

TrustRank (classement de confiance): Cette méthode porte plusieurs noms, le TrustRank est du goût de Yahoo. Le concept tourne autour d’avoir « de bons voisins ». La recherche montre que les sites font de bons liens vers les bons sites et vice-versa. Vous êtes reconnu par la compagnie que vous gardez.

Link stuffing (bourrage de liens): Une démarche de spammeur qui consiste à créer une tonne de pages de faible valeur pour pointer plusieurs liens à une page cible. Les sites de spams tendent à avoir une plus grande part de ces types de pages artificielles comparées à d’autres bonnes pages.

Nepotistic links (favoritisme de liens): Nous posséderions tout grâce aux liens payants contrairement à ceux négociés (réciproques). Alors que pour les SEOs ça peut être une zone de flou, les moteurs de recherche, eux, croient certainement que les manipulations de lien sous toutes les formes de réciprocité existantes sont d’évidentes manipulations.

Topological spamming (link farms): Nous avons notre propre pensée à ce sujet, mais les moteurs de recherche, eux, se pencheront sur le pourcentage de lien, dans un graphe, en comparaison à de « bons » sites. En règle générale ceux qui cherchent à manipuler les moteurs auront un pourcentage de liens plus élevé à partir de ces endroits de spam.

Temporal anomalies (anomalies temporaires): Un autre espace où en général les sites de spam s’écartent de l’ensemble de pages (normales) sont les données historiques. Dans l’index il y aura une moyenne d’acquisition de liens et de régression avec des sites « normaux ». Les données temporelles peuvent être utilisées pour aider à détecter les sites spammy qui s’adonnent à la création de liens non naturels.

Leçons pour référenceurs

Que peut-on tirer de tout cela ? Pour moi, ce passage était intéressant sur plusieurs niveaux. Jetons-y un œil:

  • Signaux de classement: Si nous pratiquons la rétro-ingénierie sur leur rétro-ingénierie à notre égard, nous commençons effectivement à voir quels sont les signaux importants qu’ils souhaitent protéger. Comprendre ce qu’ils sont en train de protéger nous dit ce qu’ils considèrent comme important. Vrai ?
  • Signaux de fumée: Compte tenu du nombre d’efforts fournis dans le spam de lien, nous savons que les moteurs de recherche modernes de link-centric ont un intérêt dans des approches de classement moins diversifiées. C’est-à-dire que, si vous avez besoin d’améliorer le positionnement d’une page web par des liens, ils savent où chercher les spammeurs. Le traitement du spam web est fortement lié à l’avenir de la recherche. Observez et apprenez.
  • Vous êtes de mauvais garçons: Nous en avons discuté, nous ne sommes pas listés sur la plupart des cartes de Noël d’ingénieurs en recherche. Sachez-le et comprenez-le. Ils nous tolèrent — même les « white hat » les plus honnêtes d’entre nous.
  • L’atténuation est plus fréquente: Une autre chose que j’ai apprise est que le plus souvent, en particulier dans le spam de liens borderline, le jus peut être coupé. Le site pas désindexé. S’agit-il d’une pénalité ? Un filtre ? Est-ce important ?
  • Autorité/confiance: Il serait sage de prendre conscience de nos actions. Construire une autorité et devenir l’associé d’entités connues est une bonne récompense.

Comme toujours, ça ne coûte rien de mieux comprendre les moteurs de recherche lorsque vous souhaitez faire de l’optimisation pour eux. En tant que groupe, peut-être que si nous commencerions à mieux comprendre les ingénieurs de recherche et leurs défis, ils pourraient mieux nous considérer un jour. Non, quel rêve stupide.

Les combinaisons créent des signaux de spam

Une chose, toujours importante à mémoriser, est que dans la plupart des cas, aucun signal ni aucune approche n’est considérée comme définitive. Les moteurs de recherche utilisent souvent une variété de méthodes pour trouver le spam. Pour ceux d’entre nous qui se débrouillent bien, cela signifie que les risques existent toujours.

Pour que ça fonctionne bien avec vos clients ou même avec vous, en général ça signifierait que votre travail serait satisfaisant sur plus d’un élément. Cela dit, la plupart des gens de la communauté de recherche ne sont pas de grands fans de SEO et il y a ceux qui pensent encore que les « manipulations » les plus douces pourraient être sanctionnées. D’après ce que je sais, il ne faut pas trop s’inquiéter d’un lynchage tout de suite. En fin de compte il y a des niveaux et des seuils, et aussi longtemps que vous éviterez l’abus de manipulations au point de vous emmêler les pinceaux, les choses devraient bien se passer.

Ce qui est sûr, c’est que vous serez un meilleur SEO si vous obteniez une meilleure base en recherche documentaire. Cet article traite de certains aspects communs – il y en a une TONNE de plus pour ceux qui seraient intéressés.

J’espère que vous avez apprécié l’article … jouez-la sereine !

Web Spam : le guide SEO Spamdexing

Commentaires (19)

Catégorie: Référencement



SEO BLACKOUT

Site web dédié aux techniques de référencement et de positionnement de sites web sur Google.

Certaines parties du site sont en accès restreint, ces espaces sont réservés à la SEO Black Hat Team.


Don't Be Evil !