Formation référencement

Générer du contenu pour sites web, les techniques des copieurs

Ecrit par admin le lundi 14 avril 2008 à 18:24 - Catégorie Génération de contenu

C’est terrible mais de nos jours les copieurs sont partout, voici un tour de piste de leurs techniques pour générer du contenu pour leurs sites web et autres MFA, que nous mentionnons à titre informatif, pour que vous soyiez conscient de ce qui risque de vous arriver.

Avertissement : Toutes les informations fournies dans cet article le sont à titre purement éducatif et informatif. Il vous est déconseillé de les utiliser sous peine d’amendes et poursuites judiciaires. Vous devez obtenir l’autorisation des auteurs pour pouvoir utiliser leur travail.

Scan de revues, journaux, magasines, encyclopédies …

Pas grand chose à dire à part que c’est une source facile pour créer des articles en quantité sans trop se casser la tête.
Matériel nécessaire :
Un scanner et un logiciel de reconnaissance de caractères OCR.
Ensuite les copieurs font quelques corrections (une relecture en diagonale suffit bien souvent) et des copiers-coller. Les sources ne manquent pas, journaux, magazines, livres, encyclopédies…

Dragon NaturallySpeaking 9

Logiciel de reconnaissance vocal, capable de convertir une voix en texte :
La différence avec les versions précédentes, c’est qu’il n’y a plus besoin d’apprentissage vocal, on peut dicter directement. Cette version permet aussi de convertir l’audio d’une vidéo en texte, ce qui ouvre à d’immenses possibilités…
J’ai lu cette technique sur un forum US et selon la personne qui a présenté cette méthode, ça fontionne à merveille.
Dragon NaturallySpeaking 9 est vendu au prix de 199 Euros sur le site de l’auteur.

Webarchive.org et utilisation des annuaires pour trouver des sites qui n’existent plus

Technique connue, on passe à la moulinette des gros annuaires (Dmoz, Yahoo directory…) en fonction d’un mot-clé et on cherche des noms de domaines expirés ou des sites en erreur 404.
On se rend ensuite sur webarchive.org, on regarde si le site s’y trouve et on aspire le contenu.
On peut aussi racheter le nom de domaine, s’il a encore des backlinks et du pagerank, et on remet le site en ligne…

Générateurs de contenu (YACG, rssgenerator…) Site de vidéos : youtube, dailymotion, sites de jeux en flash…

L’idée c’est de générer du contenu automatiquement à partir de plusieurs sources (résultats moteurs de recherche, annuaires, youtube, wikipedia…) et de faire un mix de ces contenus. on peut utiliser les chaines de markov pour obtenir un contenu unique mais qui du coup devient incrompréhensible pour le lecteur.
On pourrait alors cloaker les pages et faire une version pour les humains (avec contenu lisible pompé tel quel sur un autre site) et faire une version pour les moteurs (avec utilisation des chaines de markov).
Voir exemple de script php proposé par boogybonbon.com : php markov chain class.

Achat de textes

Bien sûr, on peut toujours acheter des textes, voir cet article :
Acheter du contenu pour vos sites web

Trouver des articles non indexés par les moteurs :

– Souvent dû à une mauvaise navigation, en javascript par exemple, frames… et donc les pages ne sont pas crawlées par les bots.
Voir du côté des sites hébergés chez des hébergeurs gratuits comme lycos, avec contenu en frame non indexé.

Exemple de commande :

site:lycos.fr mot clé

– On peut aussi duliquer le contenu de « petits » sites que l’on surveille en particulier, avant que Google en indexe le contenu.

Peer to peer

Utiliser Emule ou autre logiciel du même type pour rechercher des documents au format PDF, Word, PPT, vérifier qu’ils ne sont pas présents dans Google déjà ou qu’il n’y a pas de version html correspondante aux documents PDF par exemple.

Traduction de textes

Ici on prend un texte dans une langue, on le fait traduire par un traducteur en ligne dans une autre langue, anglais vers français par exemple.
On peut aussi prendre un texte français, le faire traduire en anglais et de l’anglais le retraduire en français (perte de qualité en terme de compréhension…).

Synonymie

On prend n’importe quel texte et on remplace par des synonymes, pour cela on va essayer de semi-automatiser la tâche à l’aide de dictionnaires de synonymes en ligne.
C’est donc du vol de contenu et manipulation de ce contenu avec remplaçement par des synonymes.

Contenu protégé

Exemple contenu issus de forums privés, blogs privés…. où il faut s’inscrire pour accéder au contenu.

Voilà donc un échantillon des techniques possibles pour obtenir du contenu lisible par un humain, utilisées par les spammeurs et copieurs de contenu du web.

N’hésitez pas à proposer d’autres techniques utilisées par les spammeurs pour générer du contenu au pied cet article, j’en ai certainement oublié (je complèterai l’article au fur et à mesure).

Dans un prochain article, j’expliquerai comment se protéger de certaines de ces techniques pour lutter efficacement contre les copieurs du web.

Articles liés :

Commentaires fermés sur Générer du contenu pour sites web, les techniques des copieurs

Catégorie: Génération de contenu


Pas de commentaires

Les commentaires sont fermés pour cet article.



SEO BLACKOUT

Site web dédié aux techniques de référencement et de positionnement de sites web sur Google.

Certaines parties du site sont en accès restreint, ces espaces sont réservés à la SEO Black Hat Team.


Don't Be Evil !