Générer du contenu pour sites web, les techniques des copieurs

Ecrit par admin le Lundi 14 avril 2008 à 18:24 - Catégorie Génération de contenu

C’est terrible mais de nos jours les copieurs sont partout, voici un tour de piste de leurs techniques pour générer du contenu pour leurs sites web et autres MFA, que nous mentionnons à titre informatif, pour que vous soyiez conscient de ce qui risque de vous arriver.

Avertissement : Toutes les informations fournies dans cet article le sont à titre purement éducatif et informatif. Il vous est déconseillé de les utiliser sous peine d’amendes et poursuites judiciaires. Vous devez obtenir l’autorisation des auteurs pour pouvoir utiliser leur travail.

Scan de revues, journaux, magasines, encyclopédies …

Pas grand chose à dire à part que c’est une source facile pour créer des articles en quantité sans trop se casser la tête.
Matériel nécessaire :
Un scanner et un logiciel de reconnaissance de caractères OCR.
Ensuite les copieurs font quelques corrections (une relecture en diagonale suffit bien souvent) et des copiers-coller. Les sources ne manquent pas, journaux, magazines, livres, encyclopédies…

Dragon NaturallySpeaking 9

Logiciel de reconnaissance vocal, capable de convertir une voix en texte :
La différence avec les versions précédentes, c’est qu’il n’y a plus besoin d’apprentissage vocal, on peut dicter directement. Cette version permet aussi de convertir l’audio d’une vidéo en texte, ce qui ouvre à d’immenses possibilités…
J’ai lu cette technique sur un forum US et selon la personne qui a présenté cette méthode, ça fontionne à merveille.
Dragon NaturallySpeaking 9 est vendu au prix de 199 Euros sur le site de l’auteur.

Webarchive.org et utilisation des annuaires pour trouver des sites qui n’existent plus

Technique connue, on passe à la moulinette des gros annuaires (Dmoz, Yahoo directory…) en fonction d’un mot-clé et on cherche des noms de domaines expirés ou des sites en erreur 404.
On se rend ensuite sur webarchive.org, on regarde si le site s’y trouve et on aspire le contenu.
On peut aussi racheter le nom de domaine, s’il a encore des backlinks et du pagerank, et on remet le site en ligne…

Générateurs de contenu (YACG, rssgenerator…) Site de vidéos : youtube, dailymotion, sites de jeux en flash…

L’idée c’est de générer du contenu automatiquement à partir de plusieurs sources (résultats moteurs de recherche, annuaires, youtube, wikipedia…) et de faire un mix de ces contenus. on peut utiliser les chaines de markov pour obtenir un contenu unique mais qui du coup devient incrompréhensible pour le lecteur.
On pourrait alors cloaker les pages et faire une version pour les humains (avec contenu lisible pompé tel quel sur un autre site) et faire une version pour les moteurs (avec utilisation des chaines de markov).
Voir exemple de script php proposé par boogybonbon.com : php markov chain class.

Achat de textes

Bien sûr, on peut toujours acheter des textes, voir cet article :
Acheter du contenu pour vos sites web

Trouver des articles non indexés par les moteurs :

- Souvent dû à une mauvaise navigation, en javascript par exemple, frames… et donc les pages ne sont pas crawlées par les bots.
Voir du côté des sites hébergés chez des hébergeurs gratuits comme lycos, avec contenu en frame non indexé, parfois on trouve des sites intéressants à pomper.

Exemple de commande, si je cherche du contenu pour un site de parachutisme :

site:lycos.fr parachutisme (je tombe sur cette url : membres.lycos.fr/parachutisme24/ dont seule la première page est connue de Google)

- On peut aussi duliquer le contenu de “petits” sites que l’on surveille en particulier, avant que Google en indexe le contenu.

Peer to peer

Utiliser Emule ou autre logiciel du même type pour rechercher des documents au format PDF, Word, PPT, vérifier qu’ils ne sont pas présents dans Google déjà ou qu’il n’y a pas de version html correspondante aux documents PDF par exemple.

Traduction de textes

Ici on prend un texte dans une langue, on le fait traduire par un traducteur en ligne dans une autre langue, anglais vers français par exemple.
On peut aussi prendre un texte français, le faire traduire en anglais et de l’anglais le retraduire en français (perte de qualité en terme de compréhension…).

Synonymie

On prend n’importe quel texte et on remplace par des synonymes, pour cela on va essayer de semi-automatiser la tâche à l’aide de dictionnaires de synonymes en ligne.
C’est donc du vol de contenu et manipulation de ce contenu avec remplaçement par des synonymes.

Contenu protégé

Exemple contenu issus de forums privés, blogs privés…. où il faut s’inscrire pour accéder au contenu.

Voilà donc un échantillon des techniques possibles pour obtenir du contenu lisible par un humain, utilisées par les spammeurs et copieurs de contenu du web.

N’hésitez pas à proposer d’autres techniques utilisées par les spammeurs pour générer du contenu au pied cet article, j’en ai certainement oublié (je complèterai l’article au fur et à mesure).

Dans un prochain article, j’expliquerai comment se protéger de certaines de ces techniques pour lutter efficacement contre les copieurs du web.

Ces icones representent les sites de bookmarking social dans lesquels vos lecteurs peuvent partager et faire découvrir vos pages.
  • Scoopeo
  • Digg
  • Technorati
  • del.icio.us
  • blogmarks
  • BlogMemes Fr
  • MisterWong Fr
  • Nuouz
  • Pioche
  • StumbleUpon
  • Tapemoi
  • Tutmarks
  • Wikio
  • Netscape
  • Bruxello
  • Blogasty

Catégorie: Génération de contenu


33 Commentaires

Commentaire par Tuf (2 commentaires)

Lundi, 14 avril , 2008 à 20:07

Pomper les exposé de sa petite soeur? :)

(en esperant qu’elle les a pas déjà pompé sur le net)

Commentaire par admin

Lundi, 14 avril , 2008 à 20:30

:lol: pour ça faut avoir une petite soeur :)

Commentaire par Brad

Lundi, 14 avril , 2008 à 20:35

Le coup du Dragon NaturallySpeaking n’est pas con du tout ! Perso je ne peine pas trop a dicter du texte tout en changeant sa tournure … j’vais faire un essais pour voir :) (et je me met le coup du scan de magasine de coté ^^)

Thanks pour les astuces !

Commentaire par pagetronic

Lundi, 14 avril , 2008 à 20:51

prendre un hébergement sympa au soleil et télécharger des encyclopédies larouse et universalis :D

Je vais vous faire un article la dessus tiens :)

Tiger? toujours open_for_me?

Commentaire par admin

Lundi, 14 avril , 2008 à 20:53

Bonne idée pagetronic ;)

P.S : open à propos de quoi ?

Commentaire par Aurélien (5 commentaires)

Mardi, 15 avril , 2008 à 1:33

Hahaahah le coup du Dragon NaturallySpeaking :D

Commentaire par pagetronic

Mardi, 15 avril , 2008 à 7:09

Open pour écrire sur ton blog :)

Commentaire par Eva

Mardi, 15 avril , 2008 à 10:57

Oui, super…Et après le web devient un gros repaire de sites dégueulasses, avec des articles approximatifs, sans intéret, mal maitrisés etc…qui finiront en plus en première page de Google.
Tu te donnes la peine de faire des articles inventifs, novateurs dans le monde des SEO (et c’est peu dire tellement les articles de WRI, w-hub et consorts sont nuls, et c’est peu dire). Et là, subitement, tu proposes aux autres de faire exactement le contraire de ce que tu mets en oeuvre…Tout çà pour du pognon !
Nan, désolée, j’adhère pas !
Mais sinon, j’aime bien ton blog…

Commentaire par skullpat (2 commentaires)

Mardi, 15 avril , 2008 à 12:03

Pas mal du tout le coup des .doc et .pdf sur la mule :D

Commentaire par lebosstom (13 commentaires)

Mardi, 15 avril , 2008 à 13:10

je pense que tu as fait le tour là…

Au chapitre “Trouver des articles non indexés par les moteurs” je rajouterai l’étude attentive des robots.txt pour repérer du contenu non indexé.

PS : c’est mon côté white hat qui ressort, mais si j’étais toi j’ajouterai un disclaimer à ce billet histoire de dire que tu n’incites pas à enfreindre la propriété intellectuelle et que c’est un billet “reportage” sur les pratiques black hat :).

Commentaire par Eko (2 commentaires)

Mardi, 15 avril , 2008 à 16:42

+1 pour lebosstom..

Une autre astuces : utiliser des flux RSS et les “compiler” de tel manière que la page n’existe pas.

Commentaire par admin

Mardi, 15 avril , 2008 à 18:38

@Pagetronic, bien sûr que je suis open ;)
Lâche-toi, je t’ai déjà dit que je te faisais confiance :)

P.S : j’ai dû changer pass FTP, suite migration… Si t’en a besoin, MP-moi sur la sphère ;)

Commentaire par admin

Mercredi, 16 avril , 2008 à 3:40

@Eva : si tu as aimé les autres billets alors tu ne peux pas ne pas aimer celui-ci :) Les backlinks edu, le contournement de captchas, la soumission auto de formulaires… font parti de la même thématique que l’article présenté ici, à savoir, les techniques de référencement dont j’ai décidé de parler dans ce blog.

@lebosstom : J’incite à rien, je liste les astuces possibles, libre à chacun d’en faire ce qu’il veut, d’ailleurs certaines de ces astuces n’ont rien de “black hat” ;)

Commentaire par ranks (13 commentaires)

Mercredi, 16 avril , 2008 à 12:17

Ben voui, je ne vois pas comment on peut aimer les autres billets et ne pas aimer celui-ci qui est dans la même lignée?!

Sinon, dans le contenu non indexé, tu peux rajouter les pages issues d’un bête POST (même s’il parait qu’elles seront bientôt crawlées…), et également les noindex (quelques sites de journaux dont le contenu est quand même repris ailleurs)

ps: webarchive.org (sans s)

Commentaire par admin

Mercredi, 16 avril , 2008 à 14:01

Merci Ranks, je viens de corriger ;)

Commentaire par pagetronic

Mercredi, 16 avril , 2008 à 20:02

Eva parce que c’est pas le cas aujourd’hui?
arf :) je t’en dirais bien plus tiens.. moi j’ai produit sur 6mois l’année passé 1920 pages avec des gars qui y connaissait rien dutout :lol:
Faut pas te facher comme ca.. vivement que le web devienne une poubelle, que wikipedia et ses admin finissent en tôle
pour qu’on revienne vite à la presse écrite et aux encyclopédies :D
vivement le WEB10 le web de universalis et larousse rachetés par lagardère :P

Commentaire par zyzko

Jeudi, 17 avril , 2008 à 17:42

Il me semble qu’une grande majorité des fichiers *txt *nfo *html & cie hébergés sur des serveurs FTP, n’ayant aucune liaison HTTP, ne sont pas indexés par google:

ex : ftp://ftp.atari.com/patches/betapatch/Civ_II_Gold_ReadMe_1.1b3.txt

Commentaire par Jean-Charles

Vendredi, 18 avril , 2008 à 12:15

et le droit d’auteur dans tout cela ?

Commentaire par admin

Vendredi, 18 avril , 2008 à 22:15

J’expose juste les techniques possibles, chacun prend ses responsabilités quant à l’utilisation de textes protégés…

Par contre je vois que vous êtes plusieurs à réagir à cet article, mais ne voyez-vous pas du plagiat, de la copie de sites, de la reprise d’articles écrits…, depuis longtemps sur le web ? Qu’est-ce qui vous choque dans cet article, je ne dis rien de nouveau, je regroupe juste.
Pour ton histoire de droit d’auteur, ça me fait penser qu’on peut aussi utiliser des textes tombés dans domaine public, c’est à dire dont l’auteur est mort depuis plus de 70 ans.

Commentaire par Julien (11 commentaires)

Vendredi, 18 avril , 2008 à 23:48

Je croyais cet espace relativement épargné par les WRInautes.

Mince, un sanctuaire qui s’effondre :-D

Sinon, je n’ai qu’une chose à dire: mille merci!

Commentaire par pagetronic

Samedi, 19 avril , 2008 à 2:41

un bon scrapping console remanié à la Jan :lol:

comme il le fait sur son
[url=http://bvwg.actulab.net/31-test-anti-duplicate-content.seo]test anti-duplicate content[/url] :D

Commentaire par alex de Referencement Blog (13 commentaires)

Dimanche, 20 avril , 2008 à 16:42

Salut à tous,

@Eva : Tu ne savais pas que c’était un blog officiellement BlackHat SEO ? C’est tout ce même affiché dans la baseline :D

Commentaire par admin

Dimanche, 20 avril , 2008 à 17:12

Pour info : cet article a été remanié suite à certains commentaires.

Commentaire par Thibaut (1 commentaire)

Mardi, 22 avril , 2008 à 14:12

Allez, c’est mon jour de bonté, je vous donne ma technique à moi: récupérer le contenu de tout le spam, parser avec Procmail + Perl et tout mettre dans une DB.

Commentaire par Oscar

Vendredi, 16 mai , 2008 à 17:23

Salut Tiger,
As-tu déjà essayé d’indexer du texte traduit et retraduit par Google ? Vu que déjà une traduction simple c’est pas top, 2 moulinettes de suite ça doit être particulièrement dégueu !? Mais comme c’est de la moulinette Googolienne, ça doit passer non ? Pour des MFA ça doit être pas mal, le seul truc intelligible étant les pubs, lol !
ça ferait un bel entonnoir de conversion, non ? Des que j’ai 5 minutes j’essaye, en espérant que ça oblige Google à investir un peu plus dans ses traducteurs !!

Commentaire par bbmarket (1 commentaire)

Mardi, 20 mai , 2008 à 14:28

Merci pour cette liste de procédés Tiger.
Ca existe, c’est pratique pour qui souhaite l’utiliser, et tu as le mérite d’en faire la liste.

@eva : en ce qui concerne la qualité des informations sur le web, et bien c’est à chacun de faire ses expériences… et apprendre à utiliser les moteurs de recherche pour trouver de l’info “pertinente”… Trouver de bonnes informations ne se résume pas au “triangle d’or” des SERP’s… Enfin bref, pour trouver, il faut savoir chercher !
C’est comme l’info écrite…Tu as 20 Minutes et le reste…

Commentaire par Julien (11 commentaires)

Mardi, 20 mai , 2008 à 15:32

Whaou le logiciel OCR c’est carrément un truc de dingue comment ça marche bien !!!

Commentaire par Switcheur

Jeudi, 12 juin , 2008 à 14:17

“Tout ce que vous ferez de ces informations ne saurait m’en inquiéter et m’en rendre responsable !”

Mais bien sur… t’es responsable de ce qui a sur ton site garçon.
T’es pas à l’abri d’avoir toi aussi des emmerdes si tu incites à faire dans l’illégalité.

Commentaire par admin

Vendredi, 13 juin , 2008 à 13:54

J’ai viré la phrase, maintenant vient pas te la péter ici en me prenant de haut, je suis pas ton pote, mister fée. Et je le répète je n’incite à rien, j’informe… Si ce site ne t’intéresse pas, passe ton chemin…

Commentaire par Switcheur

Vendredi, 13 juin , 2008 à 18:54

Le sujet en lui même est intéressant, mais quand on s’y connait un minumum on dit pas qu’on est responsable de rien par rapport à ses écrit.
C’est comme les sites x qui marquent “je ne suis pas responsable si un mineur accède à mon site, vous me déchargez de toute responsabilité”.

Il faut mieux que ça soit moi, petit webmaster qui te le dise qu’un juge ou autre ;)

sans rancune

Commentaire par admin

Samedi, 14 juin , 2008 à 12:37

Tu as raison, sans rancune donc ;)

Commentaire par popov (1 commentaire)

Mercredi, 18 juin , 2008 à 13:28

Les réactions de certains me font bien rire. L’objectif ”informatif” de cet article est pourtant clairement expliqué dès le début…et pourtant !

En tous cas cet article est intérressant et devrait surtout servir à se protéger (pour les grincheux).

Bonne continuation ;)

Commentaire par 107ans

Jeudi, 24 juillet , 2008 à 15:45

le truc le plus simple
remplacer les a par des @
les E par des 3

Laisser un commentaire

XHTML: Vous pouvez utiliser les tags suivants: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>



SEO BLACKOUT

Site web dédié aux techniques de référencement et de positionnement de sites web.
Certaines parties du site sont en accès restreint, ces espaces sont réservés à la SEO Black Hat Team.


Don't Be Evil !