Seohackers netlinking

Google ne respecte pas la balise meta robots noarchive

Ecrit par admin le Jeudi 1 octobre 2009 à 15:17 - Catégorie Cloacking,Google

Vous savez certainement que l’on peut interdire l’affichage du cache d’une page dans Google, cela est bien utile parfois.
Pour interdire l’affichage du cache, Google et les autres moteurs tels que Yahoo ou Bing par exemple, propose l’ajout d’une balise meta qui a pour syntaxe :
<META NAME="ROBOTS" CONTENT="NOARCHIVE">
ou
<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE"> (pour interdire la mise en cache par googlebot uniquement).

Il y a quelques jours le serveur qui héberge mon site n’était plus accessible, j’ai donc eu dans mon navigateur un beau message « DNS error… vous pouvez afficher la page en cache », je clique sur le lien machinalement et là je vois le cache de mon site or dans mon head j’ai bien la meta noarchive qui est présente puisque j’interdis volontairement la mise en cache.
Voici 2 copies d’écrans, la première avec le cache seoblackout.com sur Google :

cache seoblackout.com sur google

La seconde montre bien que la balise meta robots noarchive est bien présente dans le cache :

source-cache-google

Michaël m’a donné le lien suivant sur twitter http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156412 avec l’extrait suivant « due to temporary failure of the page’s web server… The cached page appears to users exactly… », suite à cette lecture, j’ai donc pensé que l’on voyait le cache car le serveur avait était out pendant quelques heures mais il n’en est rien puisque d’autres sites qui n’ont pas été out sont aussi touchés par ce souci.

De là, j’ai fais une demande de suppression de cache dans google webmaster tools, demande qui a aboutie en moins de 48 heures mais avec l’inconvénient de ne plus afficher le snippet dans les résultats. J’ai donc retiré la demande de suppression mais Google s’est remis à afficher le cache, sans remettre le snippet, j’ai à nouveau refais un demande de suppression de cache que Google a respecté un à deux jours au lieu des 90 jours annoncés dans webmasters tools, puisque depuis mon cache est à nouveau visible (suffit de saisir cache:www.seoblackout.com dans Google), c’est à n’y rien comprendre.

Je vous mets les copies d’écrans de mon Google Webmaster Tools ci-dessous :

Annulation de la première demande de suppression de cache :
Google Webmaster Tools annulation demande de suppression

Seconde demande de suppression de cache :
Google Webmaster Tools : seconde demande de suppression

Conclusion : Google ne respecte pas, pour certains sites, la balise meta robots noarchive, et même lorsque l’on fait une demande de suppression du cache dans Google webmaster Tools, la demande est respectée provisoirement puisque le cache réapparait ensuite.
Dans mon cas, on ne voit que le cache de la home mais pour d’autres sites c’est toutes les pages internes qui apparaissent en cache malgré l’interdiction.

Je n’ai pour le moment aucune piste viable quant au pourquoi Google ne respecte pas cette meta pour certains sites. Bug ??

Commentaires (25)

Catégorie: Cloacking,Google


25 Commentaires

Commentaire par witamine

Jeudi, 1 octobre , 2009 à 15:39

http://www.google.com/support/webmasters/bin/answer.py?hl=fr&answer=35256

Partie « Cache actuel de votre site » :

« Si vous ne souhaitez pas que les internautes puissent afficher une version en cache de votre page, utilisez la balise META noarchive(…)

Cette page sera toujours explorée et indexée par Google mais le lien « En cache » ne s’affichera plus dans les résultats de recherche. »

Si tu regardes l’exemple fourni :

- http://www.google.com/search?&q=info%3Agoogle.com liste la possibilité de voir la version cache de la home

- http://www.google.com/search?&q=info%3Aseoblackout.com : pas de possibilité de voir la version cache de ta home

Tu en es où ? car là avec la balise met noarchive, on ne peut pas accéder au lien « En cache » sur le snippet comme indiqué dans l’aide de Google.

Dommage que tu n’aies pas « screenshoté » les SERPs à chaque test ;)

Commentaire par BlackMelvyn

Jeudi, 1 octobre , 2009 à 15:40

Décidément, y’a « moquage » !
Et quand y’a moquage, y’a spammage :D

On peut même plus cloaker tranquillement alors ? ;)

Commentaire par admin

Jeudi, 1 octobre , 2009 à 15:48

@witamine: j’en suis au point de départ, comme tu l’as vu on peut toujours voir mon cache malgré la demande dans GWT et la présence de la balise dans le head.

Dans les SERPs, je n’ai jamais eu le lien voir le cache.

@BlackMelvyn : c’est clair que ça motive pas à être clean :lol:

Commentaire par witamine

Jeudi, 1 octobre , 2009 à 15:56

Dans ce cas, n’est-ce pas lié directement à la façon d’explorer une page par Google ?

« Remarque : L’utilisation d’une balise Meta noarchive entraîne uniquement la suppression du lien « En cache » pour la page concernée. Google continuera d’indexer la page et d’en afficher un extrait. »

Commentaire par admin

Jeudi, 1 octobre , 2009 à 16:05

Nan,il affiche un extrait= snippet mais n’a pas à afficher la page en cache quand on saisi directement cache:ndd.com dans google, c’est pas logique par rapport à la meta qu’il fournit pour empêcher la mise en cache.

Commentaire par witamine

Jeudi, 1 octobre , 2009 à 16:15

En effet, on devrait avoir un moyen d’empêcher Google d’avoir une version cache mais selon la définition donnée par Google pour cette META elle semble ne protéger que contre l’affichage du lien :s

http://www.google.com/support/webmasters/bin/answer.py?hl=fr&answer=79812

« noarchive : empêche Google d’afficher le lien En cache associé à une page. »

Commentaire par admin

Jeudi, 1 octobre , 2009 à 16:24

Je suis pas d’accord, elle n’est pas censée juste cacher le lien, elle est censée empêcher l’affichage du cache aussi et c’est ce qu’elle permettait jusqu’à la semaine passée sur ma home et c’est ce qu’elle permet sur plein d’autres sites et sur mes pages internes. Essaye de voir le cache de mes pages internes, ya nada…

Commentaire par witamine

Jeudi, 1 octobre , 2009 à 16:34

ah donc ça « marchait » bien avant :/

Cela ne concerne que la homepage on dirait.

Cela semble lié à l’indexation :

« Par ailleurs, le contenu caché est celui sur lequel se base Google pour déterminer si une page est pertinente pour vos requêtes. »
http://www.google.com/intl/fr/help/features_list.html#cached

Peut-être que ça lui pose problème si la home n’est plus en cache ?

Je ne sais pas hein, je cherche juste à comprendre ^^

Commentaire par witamine

Jeudi, 1 octobre , 2009 à 17:18

Intéressant comportement avec Adsense (mais vieux post, toujours d’actu ?) : http://www.seroundtable.com/archives/003850.html

Commentaire par Trikapalanet Loiseau2nuit

Jeudi, 1 octobre , 2009 à 17:57

En même temps Tiger, as tu essayé de mettre ta directive dans un .htaccess ou un robots.txt ?

Pour causer aux robots, il semble que ce devienne plus efficace que ce genre de métas désormais…

Commentaire par admin

Jeudi, 1 octobre , 2009 à 19:21

Intéressant ton lien witamine :) ça donne des pistes qu’on a déjà évoqué avec d’autres mais on a vu du non respect sur des sites sans adsenses (pour info, j’ai des ads sur seoblackout, pas sur le blog).

@Loiseau2nuit, on ne peut pas mettre cette directive dans le robots.txt mais on peut effectivement la mettre dans le .htaccess (X-Robots-Tag), je vais essayer même si je suis persuadé que ça ne changera rien…
Je rappelle quand même que je l’ai précisé dans GWT avec succès provisoire…

Commentaire par ranks

Jeudi, 1 octobre , 2009 à 23:56

C’est quand même assez étrange ce bug… Sur le site du monde, on peut consulter librement le cache en ce moment, par contre sur celui du figaro, y’a pas moyen.

Commentaire par admin

Vendredi, 2 octobre , 2009 à 9:48

Bien vu ranks :)

Commentaire par Parquet Alsace

Vendredi, 2 octobre , 2009 à 11:57

Aurais tu des choses à cacher ? :p
Perso, je trouve toujours louche des sites sans cache ;-)

Comme d’hab, Google fait ce qu’il veut

Commentaire par Mercatik

Samedi, 3 octobre , 2009 à 14:48

Hello, j’ai retiré ma procédure de suppresion de cache
ce matin…Pour la Black Hatt…

De 12ème sans snippet, je retrouve mon snippet ( cool )
a la 22ème place ( moins cool ).

Remise au cache = donc à « stratégie furtive »
( retrait rapide des troupes ) :)

Si quelqu’un peut expliquer…

Titomus

Commentaire par Trikapalanet Loiseau2nuit

Samedi, 3 octobre , 2009 à 20:23

Oui c’est vra ça, qu’est ce qui te pousse au juste à vouloir dé-cacher ta page en fait ? Ya une règle qui sous-entendrait qu’un site non présent dans le cache Google se référence mieux ou bien ???

Rien trouvé à ce sujet.

Commentaire par admin

Dimanche, 4 octobre , 2009 à 12:04

Pouvoir supprimer un contenu rapidement en cas de litige, cacher son contenu et ses optis aux autres…

Commentaire par Ronan

Lundi, 5 octobre , 2009 à 12:45

Google ne respecte déjà pas le nofollow (après en avoir fait la promotion) et se tamponne de nos robots.txt (le contenu n’est pas indexé, mais l’url de la page est bien indexée par Google). Tu espérais quoi ? Qu’ils se soucient des webmasters peut-être :-)

Commentaire par admin

Mardi, 6 octobre , 2009 à 10:25

Qu’ils mettent à jour les règles du jeu, qu’ils respectent un minimum le webmaster qui donne son contenu gratuitement depuis des années ! Qu’ils arrêtent de nous balancer des vidéos de daube, mdr la dernière en date avec le robots.txt justement, n’importe quoi la justification.

Commentaire par Référencement Marseille

Dimanche, 11 octobre , 2009 à 1:17

je me pose une question, est-ce que ton site a toujours interdit le cache ou pas ? ça peut arriver qu’un des serveurs puisse garder une copie, c’est une idée

Commentaire par slc71

Lundi, 19 octobre , 2009 à 16:45

Tout ce que je viens de lire me laisse un peu sceptique.
GG ferait il des préférences (cf Figaro et Le monde)
ou peut être est ce une nouvelle évolution de google qui tend vers la « transparence » et le tout visible.
Quoi qu il en soit une communication claire de la part de GG serait sympa

Commentaire par Mia

Mardi, 24 novembre , 2009 à 10:18

Bonjour,

Je voudrais désindexer des documents Word de google (mauvaise manip du développeur)
je les ai supprimés du serveur mais le lien vers le cache apparaît toujours … des idées ?

Merci d’avance

Commentaire par admin

Mardi, 24 novembre , 2009 à 13:21

Bonjour Mia,

Soit vous attendez que ça disparaisse, soit vous remettez les mêmes docs sans contenu ou avec un contenu bidon, histoire de faire apparaitre dans le cache autre chose. Là encore faut attendre que le bot repasse…

Vous pouvez aussi passer par Google webmaster tools et faire une demande de suppression de ces documents et du cache.

Vous pouvez aussi interdire l’accès à Googlebot à ces fichiers dans votre fichier robots.txt

Commentaire par HPL

Mardi, 24 novembre , 2009 à 14:01

Bonjour à tous.

Quel fabuleux blog avec de fabuleuses informations dessus ^^

Intéressante cette « déviation » du concept Black Hat appliqué au référencement, ma folle jeunesse de script kiddie est bien éloignée de ces techniques de SEO.

Cela faisait longtemps que j’étais à la recherche d’un site en mesure d’apporter des informations « border-line » et je pense avoir réussi ^^

Votre article sur le cache de google est extrêmement intéressant et donne de bonnes idées.

J’espere avoir le plaisir de vous lire souvent Tiger et les autres membres du staff.

HPL

Commentaire par Mia

Jeudi, 26 novembre , 2009 à 15:32

Bonjour,

merci d’avoir pris le temps de répondre.

J’ai ait la demande via webamster tools mais je me demande si ça va vraiment marcher et j’ai interdit l’accès via robots.txt

J’espère que ça va marcher car c’est tout de même une grosse bourde :s

Bonne continuation

Les commentaires sont fermés pour cet article.



SEO BLACKOUT

Site web dédié aux techniques de référencement et de positionnement de sites web sur Google.

Certaines parties du site sont en accès restreint, ces espaces sont réservés à la SEO Black Hat Team.


Don't Be Evil !