Seohackers netlinking

Google ne respecte pas la balise meta robots noarchive

Ecrit par admin le Jeudi 1 octobre 2009 à 15:17 - Catégorie Cloacking,Google

Vous savez certainement que l’on peut interdire l’affichage du cache d’une page dans Google, cela est bien utile parfois.
Pour interdire l’affichage du cache, Google et les autres moteurs tels que Yahoo ou Bing par exemple, propose l’ajout d’une balise meta qui a pour syntaxe :
<META NAME="ROBOTS" CONTENT="NOARCHIVE">
ou
<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE"> (pour interdire la mise en cache par googlebot uniquement).

Il y a quelques jours le serveur qui héberge mon site n’était plus accessible, j’ai donc eu dans mon navigateur un beau message « DNS error… vous pouvez afficher la page en cache », je clique sur le lien machinalement et là je vois le cache de mon site or dans mon head j’ai bien la meta noarchive qui est présente puisque j’interdis volontairement la mise en cache.
Voici 2 copies d’écrans, la première avec le cache seoblackout.com sur Google :

cache seoblackout.com sur google

La seconde montre bien que la balise meta robots noarchive est bien présente dans le cache :

source-cache-google

Michaël m’a donné le lien suivant sur twitter http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156412 avec l’extrait suivant « due to temporary failure of the page’s web server… The cached page appears to users exactly… », suite à cette lecture, j’ai donc pensé que l’on voyait le cache car le serveur avait était out pendant quelques heures mais il n’en est rien puisque d’autres sites qui n’ont pas été out sont aussi touchés par ce souci.

De là, j’ai fais une demande de suppression de cache dans google webmaster tools, demande qui a aboutie en moins de 48 heures mais avec l’inconvénient de ne plus afficher le snippet dans les résultats. J’ai donc retiré la demande de suppression mais Google s’est remis à afficher le cache, sans remettre le snippet, j’ai à nouveau refais un demande de suppression de cache que Google a respecté un à deux jours au lieu des 90 jours annoncés dans webmasters tools, puisque depuis mon cache est à nouveau visible (suffit de saisir cache:www.seoblackout.com dans Google), c’est à n’y rien comprendre.

Je vous mets les copies d’écrans de mon Google Webmaster Tools ci-dessous :

Annulation de la première demande de suppression de cache :
Google Webmaster Tools annulation demande de suppression

Seconde demande de suppression de cache :
Google Webmaster Tools : seconde demande de suppression

Conclusion : Google ne respecte pas, pour certains sites, la balise meta robots noarchive, et même lorsque l’on fait une demande de suppression du cache dans Google webmaster Tools, la demande est respectée provisoirement puisque le cache réapparait ensuite.
Dans mon cas, on ne voit que le cache de la home mais pour d’autres sites c’est toutes les pages internes qui apparaissent en cache malgré l’interdiction.

Je n’ai pour le moment aucune piste viable quant au pourquoi Google ne respecte pas cette meta pour certains sites. Bug ??

Commentaires (25)

Catégorie: Cloacking,Google

Cloaking sur ip, comment ça marche ?

Ecrit par admin le Vendredi 28 décembre 2007 à 16:53 - Catégorie Cloacking

Tout cloacker est paranoïaque, on a beau faire les malins (enfin pas trop hein :P ), nous avons tous peur de mettre en place nos techniques de cloacking, les penser, en parler est une chose, trouver le temps de les appliquer et avoir les couilles de le faire en est une autre :)

Matt Cutts Google Dark Vador
Je suis sûr qu’il vous est déjà arrivé de vous réveiller en sursaut une nuit, tout transpirant, vous rêviez, poursuivi par Matt Cutts avec un gros bâton jahissant de votre compte webmaster’s tools, et hurlant cloacking or not cloaking?

Lors de ce réveil en fracas vous avez sûrement comme moi foncé désactiver votre dernier cloaking mal fait avec une bonne vielle détection par UserAgent..

C’est FINI! Fini la peur de cloacker, fini la trouille de vous faire chopper en flagrant délis de roulage de bot.. maintenant vous allez pouvoir détecter même les qualityratters !

Le cloaking par reverse DNS

Qu’est ce que c’est? C’est tout simplement retrouver le chemin de l’IP qui vous visite, savoir à qui elle appartient pour afficher le contenu qui lui est destiné.

Une seule fonction PHP pour ca : gethostbyaddr() ou complète pour notre usage :) eregi(‘who?’,gethostbyaddr($_SERVER['REMOTE_ADDR']))

Dans le cas d’une adresse IP appartenant à Google gethostbyaddr() retournera dnsX.google.com
Que cette IP soit celle d’un Qualityraters en Irlande ou à Madagascar ou GoogleBot en personne le gethostbyaddr() retournera systématiquement quelque chose dans le genre, une valeur qui contiendra le mot « google ».

Quelques petits problèmes :
mon ami Seb :) (celui qui fait du webdesign) me disait hier qu’il y avait des risques que gethostbyaddr ne retourne rien, que le reverse DNS plante.. C’est pas grave nous avons deux autres solutions similaires mais plus lentes :)

Linux dispose d’une fonctionnalité de whois, tapez dans un terminal ‘whois google.com’

il vous retournera toute l’identité du nom de domaine, mais le whois retourne aussi le whois des IP (whois 72.14.207.99 )
(si ça ne marche pas : « apt-get install whois »)
Dans vos script php avec votre dédié, exécutez ce script :

<?php
$q = 'whois ' . $_SERVER['REMOTE_ADDR'];
ob_start();
echo system($q);
$system = ob_get_contents();
ob_end_clean();
if(eregi('google',$system)) {
echo 'coucou google :P ';
};
?>

Maintenant un site de spam est souvent mieux sur un hébergement mutualisé :) genre OVH (on va pas pourrir l’IP où on a tous ses sites)
Pour faire un whois sur un mutualisé il vous faut PhpWhois, là une petite modif du script :

<?php
$q = 'whois ' . $_SERVER['REMOTE_ADDR'];
include_once('whois.main.php');
include_once('whois.utils.php');
$whois = new Whois();
$result = $whois->Lookup($q);
if(eregi('google',$result)) {
echo 'coucou google :P ';
};
?>

Il faut bien savoir que tous ces scripts de whois sont très lents,
il faudra donc impérativement créer une base de données d’IPs afin de limiter les requêtes..

Il doit y avoir d’autres techniques, cet article risque donc d’être complété dans le futur..
On vous le dira :)

Commentaires fermés

Catégorie: Cloacking



SEO BLACKOUT

Site web dédié aux techniques de référencement et de positionnement de sites web sur Google.

Certaines parties du site sont en accès restreint, ces espaces sont réservés à la SEO Black Hat Team.


Don't Be Evil !