Scraper Google

Ecrit par admin le Jeudi 18 octobre 2007 à 17:38 - Catégorie Google, Génération de contenu, Scraping

Il arrive parfois en faisant une recherche sur Google de ne pas pouvoir accéder aux résultats de la recherche et de recevoir le message suivant de Google :

Désolés…
… nous ne pouvons pas traiter votre requête pour le moment. Un virus informatique ou un spyware (logiciel espion) nous envoie des requêtes automatiques, et il semble que votre ordinateur ou votre réseau soit infecté.

google erreur

Par exemple, essayez une recherche sur forums topics ou powered by phpbb, vous obtiendrez à tous les coups ce message au bout d’une dizaine de pages de résultats, bien sûr on clique sur page 2, page 3…

Pour pallier à ça, il suffit d’interroger google labs project Google recherche accessible et là vous n’aurez plus ce message de Google.

Très utile pour les scrapers de contenu ou pour ceux qui font des requêtes sensibles sur google comme la recherche de mots de passe…

Définition de scraper : Récupérer le contenu d’une page web en vue de réutiliser ce contenu sur son propre site. Le but est d’obtenir du contenu sans efforts, la plupart du temps de façon automatique. Cela permet au scraper de générer des milliers de pages sur des thématiques ciblées. Sur ces pages ainsi générées, le scraper va ajouter des Adsenses ou des liens d’affiliation afin de gagner de l’argent facilement.

Ces icones representent les sites de bookmarking social dans lesquels vos lecteurs peuvent partager et faire découvrir vos pages.
  • Scoopeo
  • Digg
  • Technorati
  • del.icio.us
  • blogmarks
  • BlogMemes Fr
  • MisterWong Fr
  • Nuouz
  • Pioche
  • StumbleUpon
  • Tapemoi
  • Tutmarks
  • Wikio
  • Netscape
  • Bruxello
  • Blogasty

Catégorie: Google, Génération de contenu, Scraping


4 Commentaires

Commentaire par Ent-Arktik (4 commentaires)

Jeudi, 18 octobre , 2007 à 18:14

Intéressant!
Voilà qui va m’aider à spammer le web :)
merci.

Commentaire par Buzzinessman (1 commentaire)

Jeudi, 18 octobre , 2007 à 22:23

Ca me rappelle un Page Generator commun ça :D

Commentaire par lol

Jeudi, 18 octobre , 2007 à 23:45

moi perso pour generer du contenu c’est souvent par les rss que je passe vu que a priori le contenu est deja dedans pourquoi s’embeter, apres une petite technique d’ailleur pour eviter le duplicate content, c’est de remplacer les mots communs par des synonymes, une simple array de mot => synonyme suffit pour faire l’affaire :p

sinon felicitation a seoblackout, premier sur racheumeuneu :)

Commentaire par Ent-Arktik (4 commentaires)

Vendredi, 19 octobre , 2007 à 19:03

Deuxième ;)
“lol”, ta technique m’a l’air pas mal… mais tant qu’on y est et vu qu’on peut faire une orgie de recherche, j’aurais plutôt pensé à réunir automatiquement les champs lexicaux des sites des premières pages, et à utiliser ce mots (grâce à un dictionnaire synonymique, j’en ai un) de la façon que tu as dite…

Bref.
Ajoutons à cela des petites retouches (liens, gras, souligné, h1, paragraphes) et la cachette est ultime!

Laisser un commentaire

XHTML: Vous pouvez utiliser les tags suivants: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>



SEO BLACKOUT

Site web dédié aux techniques de référencement et de positionnement de sites web.
Certaines parties du site sont en accès restreint, ces espaces sont réservés à la SEO Black Hat Team.


Don't Be Evil !