Google ne respecte pas la balise meta robots noarchive
Ecrit par admin le jeudi 1 octobre 2009 à 15:17 - Catégorie Cloacking,Google
Vous savez certainement que l’on peut interdire l’affichage du cache d’une page dans Google, cela est bien utile parfois.
Pour interdire l’affichage du cache, Google et les autres moteurs tels que Yahoo ou Bing par exemple, propose l’ajout d’une balise meta qui a pour syntaxe :
<META NAME="ROBOTS" CONTENT="NOARCHIVE">
ou
<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">
(pour interdire la mise en cache par googlebot uniquement).
Il y a quelques jours le serveur qui héberge mon site n’était plus accessible, j’ai donc eu dans mon navigateur un beau message « DNS error… vous pouvez afficher la page en cache », je clique sur le lien machinalement et là je vois le cache de mon site or dans mon head j’ai bien la meta noarchive qui est présente puisque j’interdis volontairement la mise en cache.
Voici 2 copies d’écrans, la première avec le cache seoblackout.com sur Google :
La seconde montre bien que la balise meta robots noarchive est bien présente dans le cache :
Michaël m’a donné le lien suivant sur twitter http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156412 avec l’extrait suivant « due to temporary failure of the page’s web server… The cached page appears to users exactly… », suite à cette lecture, j’ai donc pensé que l’on voyait le cache car le serveur avait était out pendant quelques heures mais il n’en est rien puisque d’autres sites qui n’ont pas été out sont aussi touchés par ce souci.
De là, j’ai fais une demande de suppression de cache dans google webmaster tools, demande qui a aboutie en moins de 48 heures mais avec l’inconvénient de ne plus afficher le snippet dans les résultats. J’ai donc retiré la demande de suppression mais Google s’est remis à afficher le cache, sans remettre le snippet, j’ai à nouveau refais un demande de suppression de cache que Google a respecté un à deux jours au lieu des 90 jours annoncés dans webmasters tools, puisque depuis mon cache est à nouveau visible (suffit de saisir cache:www.seoblackout.com dans Google), c’est à n’y rien comprendre.
Je vous mets les copies d’écrans de mon Google Webmaster Tools ci-dessous :
Annulation de la première demande de suppression de cache :
Seconde demande de suppression de cache :
Conclusion : Google ne respecte pas, pour certains sites, la balise meta robots noarchive, et même lorsque l’on fait une demande de suppression du cache dans Google webmaster Tools, la demande est respectée provisoirement puisque le cache réapparait ensuite.
Dans mon cas, on ne voit que le cache de la home mais pour d’autres sites c’est toutes les pages internes qui apparaissent en cache malgré l’interdiction.
Je n’ai pour le moment aucune piste viable quant au pourquoi Google ne respecte pas cette meta pour certains sites. Bug ??
Commentaires (25)
- Besoin d'une prestation en référencement ?
- Nous contacter
Commentaire par witamine
jeudi, 1 octobre , 2009 à 15:39
http://www.google.com/support/webmasters/bin/answer.py?hl=fr&answer=35256
Partie « Cache actuel de votre site » :
« Si vous ne souhaitez pas que les internautes puissent afficher une version en cache de votre page, utilisez la balise META noarchive(…)
Cette page sera toujours explorée et indexée par Google mais le lien « En cache » ne s’affichera plus dans les résultats de recherche. »
Si tu regardes l’exemple fourni :
– http://www.google.com/search?&q=info%3Agoogle.com liste la possibilité de voir la version cache de la home
– http://www.google.com/search?&q=info%3Aseoblackout.com : pas de possibilité de voir la version cache de ta home
Tu en es où ? car là avec la balise met noarchive, on ne peut pas accéder au lien « En cache » sur le snippet comme indiqué dans l’aide de Google.
Dommage que tu n’aies pas « screenshoté » les SERPs à chaque test 😉
Commentaire par BlackMelvyn
jeudi, 1 octobre , 2009 à 15:40
Décidément, y’a « moquage » !
Et quand y’a moquage, y’a spammage 😀
On peut même plus cloaker tranquillement alors ? 😉
Commentaire par admin
jeudi, 1 octobre , 2009 à 15:48
@witamine: j’en suis au point de départ, comme tu l’as vu on peut toujours voir mon cache malgré la demande dans GWT et la présence de la balise dans le head.
Dans les SERPs, je n’ai jamais eu le lien voir le cache.
@BlackMelvyn : c’est clair que ça motive pas à être clean 😆
Commentaire par witamine
jeudi, 1 octobre , 2009 à 15:56
Dans ce cas, n’est-ce pas lié directement à la façon d’explorer une page par Google ?
« Remarque : L’utilisation d’une balise Meta noarchive entraîne uniquement la suppression du lien « En cache » pour la page concernée. Google continuera d’indexer la page et d’en afficher un extrait. »
Commentaire par admin
jeudi, 1 octobre , 2009 à 16:05
Nan,il affiche un extrait= snippet mais n’a pas à afficher la page en cache quand on saisi directement cache:ndd.com dans google, c’est pas logique par rapport à la meta qu’il fournit pour empêcher la mise en cache.
Commentaire par witamine
jeudi, 1 octobre , 2009 à 16:15
En effet, on devrait avoir un moyen d’empêcher Google d’avoir une version cache mais selon la définition donnée par Google pour cette META elle semble ne protéger que contre l’affichage du lien :s
http://www.google.com/support/webmasters/bin/answer.py?hl=fr&answer=79812
« noarchive : empêche Google d’afficher le lien En cache associé à une page. »
Commentaire par admin
jeudi, 1 octobre , 2009 à 16:24
Je suis pas d’accord, elle n’est pas censée juste cacher le lien, elle est censée empêcher l’affichage du cache aussi et c’est ce qu’elle permettait jusqu’à la semaine passée sur ma home et c’est ce qu’elle permet sur plein d’autres sites et sur mes pages internes. Essaye de voir le cache de mes pages internes, ya nada…
Commentaire par witamine
jeudi, 1 octobre , 2009 à 16:34
ah donc ça « marchait » bien avant :/
Cela ne concerne que la homepage on dirait.
Cela semble lié à l’indexation :
« Par ailleurs, le contenu caché est celui sur lequel se base Google pour déterminer si une page est pertinente pour vos requêtes. »
http://www.google.com/intl/fr/help/features_list.html#cached
Peut-être que ça lui pose problème si la home n’est plus en cache ?
Je ne sais pas hein, je cherche juste à comprendre ^^
Commentaire par witamine
jeudi, 1 octobre , 2009 à 17:18
Intéressant comportement avec Adsense (mais vieux post, toujours d’actu ?) : http://www.seroundtable.com/archives/003850.html
Commentaire par Trikapalanet Loiseau2nuit
jeudi, 1 octobre , 2009 à 17:57
En même temps Tiger, as tu essayé de mettre ta directive dans un .htaccess ou un robots.txt ?
Pour causer aux robots, il semble que ce devienne plus efficace que ce genre de métas désormais…
Commentaire par admin
jeudi, 1 octobre , 2009 à 19:21
Intéressant ton lien witamine 🙂 ça donne des pistes qu’on a déjà évoqué avec d’autres mais on a vu du non respect sur des sites sans adsenses (pour info, j’ai des ads sur seoblackout, pas sur le blog).
@Loiseau2nuit, on ne peut pas mettre cette directive dans le robots.txt mais on peut effectivement la mettre dans le .htaccess (X-Robots-Tag), je vais essayer même si je suis persuadé que ça ne changera rien…
Je rappelle quand même que je l’ai précisé dans GWT avec succès provisoire…
Commentaire par ranks
jeudi, 1 octobre , 2009 à 23:56
C’est quand même assez étrange ce bug… Sur le site du monde, on peut consulter librement le cache en ce moment, par contre sur celui du figaro, y’a pas moyen.
Commentaire par admin
vendredi, 2 octobre , 2009 à 9:48
Bien vu ranks 🙂
Commentaire par Parquet Alsace
vendredi, 2 octobre , 2009 à 11:57
Aurais tu des choses à cacher ? :p
Perso, je trouve toujours louche des sites sans cache 😉
Comme d’hab, Google fait ce qu’il veut
Commentaire par Mercatik
samedi, 3 octobre , 2009 à 14:48
Hello, j’ai retiré ma procédure de suppresion de cache
ce matin…Pour la Black Hatt…
De 12ème sans snippet, je retrouve mon snippet ( cool )
a la 22ème place ( moins cool ).
Remise au cache = donc à « stratégie furtive »
( retrait rapide des troupes ) 🙂
Si quelqu’un peut expliquer…
Titomus
Commentaire par Trikapalanet Loiseau2nuit
samedi, 3 octobre , 2009 à 20:23
Oui c’est vra ça, qu’est ce qui te pousse au juste à vouloir dé-cacher ta page en fait ? Ya une règle qui sous-entendrait qu’un site non présent dans le cache Google se référence mieux ou bien ???
Rien trouvé à ce sujet.
Commentaire par admin
dimanche, 4 octobre , 2009 à 12:04
Pouvoir supprimer un contenu rapidement en cas de litige, cacher son contenu et ses optis aux autres…
Commentaire par Ronan
lundi, 5 octobre , 2009 à 12:45
Google ne respecte déjà pas le nofollow (après en avoir fait la promotion) et se tamponne de nos robots.txt (le contenu n’est pas indexé, mais l’url de la page est bien indexée par Google). Tu espérais quoi ? Qu’ils se soucient des webmasters peut-être 🙂
Commentaire par admin
mardi, 6 octobre , 2009 à 10:25
Qu’ils mettent à jour les règles du jeu, qu’ils respectent un minimum le webmaster qui donne son contenu gratuitement depuis des années ! Qu’ils arrêtent de nous balancer des vidéos de daube, mdr la dernière en date avec le robots.txt justement, n’importe quoi la justification.
Commentaire par Référencement Marseille
dimanche, 11 octobre , 2009 à 1:17
je me pose une question, est-ce que ton site a toujours interdit le cache ou pas ? ça peut arriver qu’un des serveurs puisse garder une copie, c’est une idée
Commentaire par slc71
lundi, 19 octobre , 2009 à 16:45
Tout ce que je viens de lire me laisse un peu sceptique.
GG ferait il des préférences (cf Figaro et Le monde)
ou peut être est ce une nouvelle évolution de google qui tend vers la « transparence » et le tout visible.
Quoi qu il en soit une communication claire de la part de GG serait sympa
Commentaire par Mia
mardi, 24 novembre , 2009 à 10:18
Bonjour,
Je voudrais désindexer des documents Word de google (mauvaise manip du développeur)
je les ai supprimés du serveur mais le lien vers le cache apparaît toujours … des idées ?
Merci d’avance
Commentaire par admin
mardi, 24 novembre , 2009 à 13:21
Bonjour Mia,
Soit vous attendez que ça disparaisse, soit vous remettez les mêmes docs sans contenu ou avec un contenu bidon, histoire de faire apparaitre dans le cache autre chose. Là encore faut attendre que le bot repasse…
Vous pouvez aussi passer par Google webmaster tools et faire une demande de suppression de ces documents et du cache.
Vous pouvez aussi interdire l’accès à Googlebot à ces fichiers dans votre fichier robots.txt
Commentaire par HPL
mardi, 24 novembre , 2009 à 14:01
Bonjour à tous.
Quel fabuleux blog avec de fabuleuses informations dessus ^^
Intéressante cette « déviation » du concept Black Hat appliqué au référencement, ma folle jeunesse de script kiddie est bien éloignée de ces techniques de SEO.
Cela faisait longtemps que j’étais à la recherche d’un site en mesure d’apporter des informations « border-line » et je pense avoir réussi ^^
Votre article sur le cache de google est extrêmement intéressant et donne de bonnes idées.
J’espere avoir le plaisir de vous lire souvent Tiger et les autres membres du staff.
HPL
Commentaire par Mia
jeudi, 26 novembre , 2009 à 15:32
Bonjour,
merci d’avoir pris le temps de répondre.
J’ai ait la demande via webamster tools mais je me demande si ça va vraiment marcher et j’ai interdit l’accès via robots.txt
J’espère que ça va marcher car c’est tout de même une grosse bourde :s
Bonne continuation
Les commentaires sont fermés pour cet article.