Seohackers netlinking

Comment obtenir un nom de domaine edu en moins de 5 minutes ?

Ecrit par admin le Vendredi 4 novembre 2011 à 10:19 - Catégorie Référencement

L’astuce proposée ici tient plus du fun que d’un réel intérêt en terme d’aide au référencement, néanmoins elle a le mérite de montrer qu’il est possible d’avoir son nom de domaine edu.

Avant de vous expliquer l’astuce, il faut que je vous précise que celle-ci est connue de certains SEO anglophones qui ont déjà fait le tour des noms de domaines en anglais, en revanche ils ont payé leur nom de domaine plus de 7 dollars, alors que là, je vous propose de les payer 1,99 € HT soit 2,38 € TTC

C’est par hasard que j’ai trouvé cette astuce en cherchant autre chose sur le web et c’est en testant chez un registrar bien connu que j’ai pu obtenir les domaines souhaités.

Exemple : http://www.pub.edu.pl

Et oui il ne s’agit pas de l’extension edu mais de l’extension edu.pl domaine national polonais que n’importe qui peut acheter chez ovh.com

Il suffit pour cela de saisir directement le nom de domaine souhaité avec l’extension .edu.pl dans le formulaire de commande d’un nom de domaine :

Par défaut le nom de domaine pointera vers une ip polonaise mais il est facile chez ovh de le faire pointer vers une ip française.

Les usages concernant cette astuce sont divers, ventes de liens « pseudo-trustés » par exemple…

Commentaires (29)

Catégorie: Référencement

Protégé : Viagra

Ecrit par admin le Mercredi 8 juin 2011 à 17:58 - Catégorie Référencement

Cet article est protégé par un mot de passe. Pour le lire, veuillez saisir votre mot de passe ci-dessous :

Commentaires fermés

Catégorie: Référencement

Un fusible pour le mauvais client SEO…

Ecrit par proseogeneve le Dimanche 16 janvier 2011 à 2:18 - Catégorie Référencement

Un risque auquel vous devez faire face lorsque vous référencez pour des clients est forcément les paiements de ces derniers. Bien sûr, la base est de toujours vous armer d’un contrat dès le départ, et un acompte sur la prestation SEO que vous allez réaliser, mais si le client est véreux, cela peut ne pas suffire…

Un fusible pour le mauvais client SEO…

Commentaires (41)

Catégorie: Référencement

Le Projet Content-Spinning

Ecrit par ringout le Mercredi 29 décembre 2010 à 17:30 - Catégorie Référencement

Préambule : Article écrit par Ringout qui travaille actuellement avec d’autres sur un projet de content-spinning avancé et vous propose de rejoindre cette communauté.

Depuis que je fais du référencement BH, j’ai appris grâce au blog de Discodog qu’il existait une technique qui s’appelait content-spinning. Je me suis intéressé à cette façon de créer du contenu en masse.

Le problème qui m’a toujours bloqué et même parfois m’a découragé à faire du content-spinning, c’est la qualité du contenu qui n’était pas à la hauteur de mes attentes quand je voulais soumettre le texte générer soit à mes MFA ou dans des communiqués de presse. Plus le texte avait du volume et plus j’avais besoin d’automatiser cette tâche.

La difficulté résidait dans tous les outils de spinning automatiques que j’ai testé : la qualité des synonymes ainsi que la conjugaison et les liaisons me posaient beaucoup de problèmes. Un autre point important, les bases de synonymes qui sont utilisées dans les outils de spinning n’ont jamais été faites pour le référencement, par conséquent elles sont incompatibles avec nos objectifs. Enfin faire du spinning « à la mano » c’est la chose la plus ennuyeuse que j’ai faite dans le référencement.

Pour cela j’ai rejoint le projet « content spinning » : nous essayons de répondre à tous ces problèmes. Le projet est communautaire, nous sommes maintenant une trentaine de personnes qui travaillent pour un même objectif : un outil de spinning semi-automatique qui spin automatiquement les mots qui ont un sens unique et qui laisse le choix dans le cas d’un mot qui a plusieurs sens.

Nous sommes deux équipes, éditeurs et codeurs :

  • La première équipe travaillant sur la base de données mot racine + synonymes en filtrant et optimisant la qualité des synonymes et en classifiant chaque mot selon son type.
  • La deuxième équipe travaille sur le code pour l’améliorer et répond à toutes les attentes des référenceurs qui veulent du contenu spinné de qualité.

Parmi nos objectifs pour la prochaine version :

  • Un hook pour linkfarmevolution ainsi qu’un api est également en préparation et sera offert gratuitement aux membres du projet.
  • Prévoir l’accordement des genres, des pluriels et de la conjugaison.
  • La liaison du type l’, d’….etc
  • Ajouter dans le menu déroulant une option, permettant au spinneur de rajouter un synonyme de plus si les synonymes de la liste ne lui conviennent pas.

Chaque jour le groupe grandit de plus en plus, mais vu la complexité du projet, plus le nombre des participants évolue, plus nous arriverons plus rapidement à notre but.

Si vous désirez rejoindre notre équipe de fous furieux, contactez-moi en PM sur la sphere ou par mail ringout [@] live.fr.
Enfin je remercie beaucoup Tiger qui nous a proposé volontairement de la visibilité sur SEO BlackOut le blog référence en BH.

N’hésitez pas à vous inscrire sur http://forum.content-spinning.com/ pour faire avancer notre projet.

Ringout

Commentaires (8)

Catégorie: Référencement

Top Blogs Seo : Classement Wikio Novembre 2010

Ecrit par admin le Mercredi 3 novembre 2010 à 18:11 - Catégorie Référencement

Voici le top Wikio des blogs SEO pour le mois de novembre 2010 que l’on m’a gentillement proposé de publier sur Seo BlackOut :

Top Blogs Seo : Classement Wikio Novembre 2010

Commentaires (5)

Catégorie: Référencement

Web Spam : le guide SEO Spamdexing

Ecrit par admin le Vendredi 23 juillet 2010 à 17:50 - Catégorie Référencement

Préambule : cet article est une traduction de l’article : Web Spam : The Definitive Guide

J’ai décidé de faire traduire cet article suite à ma présentation aux SMX Paris dans laquelle je terminais mon intervention en conseillant d’étudier les brevets déposés par les moteurs de recherches ainsi que les interventions vidéos ou écrites des chercheurs anti webspam des différents moteurs.

Je trouve que cet article méritait une traduction, bonne lecture à tous :)

Il s’agit d’un guest post de David Harry qui est un SEO et analyste de recherche chez Reliable SEO. Il écrit aussi sur son blog SEO et gère le SEO Training Dojo, une grande communauté dans le milieu SEO. Vous pouvez également le retrouver sur Twitter: @theGypsy

Comprendre les limites et comment travailler en sécurité

Êtes-vous un spammeur ? Non, sérieusement, je le pense. S’il y a un domaine dans lequel beaucoup de potes dans la recherche en ligne et de professionnels du marketing ne sont pas toujours clairs à ce sujet, ce sont les pénalités et les filtres des moteurs de recherche. C’est quelque chose que vous trouverez très répandu dans le cercle du SEO. Nous n’avons pas besoin de chercher plus loin que le Duplicate Content. Alors qu’il est – généralement – un filtre, certains l’interprètent comment une pénalité, ils l’appellent la « pénalité de Duplicate Content ».

J’ai donc pensé que ce serait une bonne idée de revoir – selon le point de vue d’un ingénieur de recherche en ligne (Search Engineer) – les différents types de spam existants. Il ne s’agit pas de vous montrer comment exceller dans le spam – en fait c’est tout le contraire, parce que je ne suis pas fan de ce merdier. Bien sûr, j’ai quelques camarades qui se plaisent bien dans le monde du black-hat, ils savent bien que je ne mange pas de ce pain là, qu’en général je ne pollue pas le web.

Espérons que ce topo vous aide à éviter ces petits tours, ou groupes d’activités qui risquent de mettre votre client ou votre propre site Web en danger.

« Toutes les actions destinées à améliorer le classement (ranking), sans pour autant améliorer la valeur réelle d’une page, sont considérées comme spam. »

Définition du spam web (Web Spam)

Qu’est-ce que le spam ?
Dans ma recherche, pour rédiger cet article, la définition qui m’a semblé être la meilleure, ou du moins la plus concise, est la suivante :

Toute action délibérée de l’homme destinée à stimuler une pertinence positive ou attribuer une importance à certaines pages web, à tort, considérant la véritable valeur de ces pages. (Définition du Web Spam Taxonomy, Stanford)

Hmmm. Est-ce cela le spam ? Si tel était le cas, nous serions tous des spammeurs compte tenu de nos pratiques en SEO. En gros nous faussons un peu le jeu des moteurs de recherche. Mince ! Bon. Un peu plus loin, le papier de Stanford poursuit en disant,

Une majorité du spam web provient des optimiseurs de moteurs de recherche (SEOs), tels que SEO Inc ( www.seoinc.com ) ou Bruce Clay ( www.bruceclay.com ).

Ouch ! Ce n’est pas gentil du tout ça – qu’en pensez-vous :

La plupart des SEOs prétendent que le spam améliore la pertinence aux requêtes qui n’ont rien à voir avec le thème de la page web uniquement. Dans le même temps, de nombreux SEOs approuvent et pratiquent des techniques qui ont un impact sur les scores d’importance pour atteindre ce qu’ils appellent le positionnement ou l’optimisation «éthique» de page web. Veuillez noter que, conformément à notre définition, tous les types d’actions destinées à stimuler le classement, sans pour autant améliorer la valeur réelle d’une page web, sont considérés comme du spam. (C’est moi qui le souligne)

Merde alors — ça nous rappelle que les SEOs ne sont pas des criminels, mais sont certainement un ennemi. Nuançons et considérons le spam comme une manipulation flagrante qui n’ajouterait aucune valeur mais chercherait uniquement à profiter de l’aveuglement algorithmique d’un algorithme de recherche, ok ? Lol — restons-en là. Et n’oubliez jamais qu’ils ne nous aiment pas (SEOs).

Types de spam sur le web

Il existe essentiellement deux types de spam: le renforcement (boost) et la dissimulation.

Le renforcement (boost)

C’est quand une personne a l’intention d’accroître ou de renforcer (artificiellement?) la valeur d’une page.

  • Le spamming : Il s’agirait de ceux qui essaient à manipuler les moteurs de recherche grâce à des éléments tels que le titre de page (spam de titre), la meta description ou les meta keywords (spam de metas). Comme la plupart d’entre nous le savent, parmi ces trois metas deux ont été abusés au point que la plupart des moteurs de recherche actuels ont cessé de les utiliser comme des signaux importants.
  • De même le spam d’URL est un autre domaine qu’ils ont été tenus d’examiner. Ouais, ça peut paraître étrange parce que certains moteurs de recherche attribuent un certain poids aux URLs. Ça peut être considéré comme une manipulation.
  • Le Link spamming est une autre méthode de spam bien connue qui inclut notamment le spam par l’ancre texte (anchor text). Non seulement les moteurs de recherche ont conscience de la masse de spams de liens, mais aussi de l’ancre texte, car c’est l’un des signaux les plus importants du point de vue du classement (ranking). Évidemment cette partie inclus aussi le fait que les spammeurs cherchent à déposer des liens sur les pages (de forums, commentaires de blogs, livres d’or, etc.) afin d’augmenter la valeur de pages cible ainsi que les plus infâmes techniques de hack.

Techniques de camouflage

Cet ensemble de techniques, c’est quand on ne se sert pas généralement des méthodes perceptibles pour obtenir un classement de page plus élevé. Ou plus exactement, la dissimulation de techniques de renforcement. Ce sont certainement les plus difficiles et les moteurs de recherche ont tendance à les considérer comme plus sournoises que les techniques de renforcement.

  • Contenu caché : Ce sont des techniques où les mots et les liens sont cachés lorsque le navigateur affiche une page. Les pratiques les plus courantes sont l’utilisation de couleurs pour rendre les éléments en question invisibles.
  • Cloaking : Nous le connaissons tous, n’est-ce pas ? C’est lorsqu’on montre au robot de moteur de recherche un contenu de page différent de celui visible par l’utilisateur. On peut supposer une diminution des chances d’être rapporté par les utilisateurs ou des concurrents qui pourraient percevoir le spam.
  • Redirection : La page est automatiquement redirigée par le navigateur comme si la page était indexée par le moteur de recherche, mais l’utilisateur ne s’en apercevra jamais. Ça fonctionnerait essentiellement comme un proxy/doorway qui se joue du moteur et détourne les utilisateurs.

« Dans la plupart des cas, aucun signal ni aucune approche est considérée comme définitive. Les moteurs de recherche emploient souvent une variété de méthodes pour trouver le spam. »

Approches pour combattre le Spam du web

Content Spam (spam de contenu)

Langue: Des ingénieurs de recherche en ligne se sont intéressés au niveau des langues de pages pour voir ce qu’ils pourraient y trouver. Il est sorti que le français était la langue qui s’est souvent révélée être un festival de spam, avec ensuite l’allemand et l’anglais. J’ai trouvé ce modèle assez intéressant.

Domaine: Pas de surprise, il a été révélé que les extensions de domaine .biz avaient un taux élevé de spam, beaucoup plus élevé que les autres. Le .us et le .com sont les suivants. Mais le .biz reste largement en tête – faites attention ok ?

Mots par page: Une autre approche souvent utilisée. Ils ont trouvé que les pages qui contenaient beaucoup de texte étaient souvent celles qui contenaient le plus de spam. Moins de 1500 mots, la courbe du spam diminuait. La tranche de mots 750-1500 semblait être le repère de spammeurs.

Mots clés dans la balise TITLE: C’est un autre domaine qu’ils observeront. L’expérience a montré que les pages de spam avaient tendance à utiliser beaucoup plus de mots clés dans la balise TITLE par rapport aux pages normales.

Le nombre d’ancre de lien (anchor text): Une autre approche intéressante consiste à examiner le rapport du texte de l’ancre au texte de la page. Ça peut être au niveau de la page ou du site. Les sites qui contiennent un pourcentage élevé d’ancre texte (selon le texte standard) sont susceptibles d’être des sites de spam.

Fraction de contenu visible: Celui-ci consiste à utiliser du texte caché, à ne pas confondre avec les rapports du code au texte. Ils s’intéressent à une proportion de texte qui n’est pas effectivement visible sur la page.

Compressibilité: En tant que mécanisme destiné à lutter contre le Keyword Stuffing (bourrage de mots clés), les moteurs de recherche peuvent s’intéresser au taux de compression. Plus précisément, il s’agit du caractère répétitif ou du content spinning utilisé pour spammer. Les moteurs de recherche compressent souvent une page pour enregistrer l’indexation et le traitement. Il est fort probable que les pages de spam aient un taux de compression (non-compressé divisé par le compressé).

Mots globalement populaires: Une autre bonne manière de trouver du Keyword Stuffing est de comparer les mots d’une page aux données de requêtes existantes et de documents connus. Si quelqu’un fait du Keyword Stuffing autour de ces mots clés, ils s’engageront dans une utilisation beaucoup moins naturelle que les requêtes d’utilisateurs et de bonnes pages connues.

Spam de requête: Compte tenu de la montée des requêtes analysées, des données de clics et de personnalisation, les spammeurs pourraient rechercher des variétés de termes cliqués et cliquer sur leurs propres résultats. En observant le type de requêtes, en combinaison avec d’autres signaux, ces tactiques deviennent statistiquement apparentes.

Le spam Host-level est à la recherche d’autres sites et de domaines sur le serveur et/ou le registrar. Tout comme le TrustRank, la plupart du temps les spammeurs se retrouveront dans un même voisinage avec d’autres spammeurs.

Phrase-based: Selon cette approche, un modèle d’apprentissage qui utilise des documents de formation cherche des anomalies textuelles sous forme de phrases liées. C’est un peu du Keyword Stuffing sous stéroïdes. La recherche d’anomalies statistique peut souvent mettre en évidence des documents de type spam.

Link Spam (spam de lien)

TrustRank (classement de confiance): Cette méthode porte plusieurs noms, le TrustRank est du goût de Yahoo. Le concept tourne autour d’avoir « de bons voisins ». La recherche montre que les sites font de bons liens vers les bons sites et vice-versa. Vous êtes reconnu par la compagnie que vous gardez.

Link stuffing (bourrage de liens): Une démarche de spammeur qui consiste à créer une tonne de pages de faible valeur pour pointer plusieurs liens à une page cible. Les sites de spams tendent à avoir une plus grande part de ces types de pages artificielles comparées à d’autres bonnes pages.

Nepotistic links (favoritisme de liens): Nous posséderions tout grâce aux liens payants contrairement à ceux négociés (réciproques). Alors que pour les SEOs ça peut être une zone de flou, les moteurs de recherche, eux, croient certainement que les manipulations de lien sous toutes les formes de réciprocité existantes sont d’évidentes manipulations.

Topological spamming (link farms): Nous avons notre propre pensée à ce sujet, mais les moteurs de recherche, eux, se pencheront sur le pourcentage de lien, dans un graphe, en comparaison à de « bons » sites. En règle générale ceux qui cherchent à manipuler les moteurs auront un pourcentage de liens plus élevé à partir de ces endroits de spam.

Temporal anomalies (anomalies temporaires): Un autre espace où en général les sites de spam s’écartent de l’ensemble de pages (normales) sont les données historiques. Dans l’index il y aura une moyenne d’acquisition de liens et de régression avec des sites « normaux ». Les données temporelles peuvent être utilisées pour aider à détecter les sites spammy qui s’adonnent à la création de liens non naturels.

Leçons pour référenceurs

Que peut-on tirer de tout cela ? Pour moi, ce passage était intéressant sur plusieurs niveaux. Jetons-y un œil:

  • Signaux de classement: Si nous pratiquons la rétro-ingénierie sur leur rétro-ingénierie à notre égard, nous commençons effectivement à voir quels sont les signaux importants qu’ils souhaitent protéger. Comprendre ce qu’ils sont en train de protéger nous dit ce qu’ils considèrent comme important. Vrai ?
  • Signaux de fumée: Compte tenu du nombre d’efforts fournis dans le spam de lien, nous savons que les moteurs de recherche modernes de link-centric ont un intérêt dans des approches de classement moins diversifiées. C’est-à-dire que, si vous avez besoin d’améliorer le positionnement d’une page web par des liens, ils savent où chercher les spammeurs. Le traitement du spam web est fortement lié à l’avenir de la recherche. Observez et apprenez.
  • Vous êtes de mauvais garçons: Nous en avons discuté, nous ne sommes pas listés sur la plupart des cartes de Noël d’ingénieurs en recherche. Sachez-le et comprenez-le. Ils nous tolèrent — même les « white hat » les plus honnêtes d’entre nous.
  • L’atténuation est plus fréquente: Une autre chose que j’ai apprise est que le plus souvent, en particulier dans le spam de liens borderline, le jus peut être coupé. Le site pas désindexé. S’agit-il d’une pénalité ? Un filtre ? Est-ce important ?
  • Autorité/confiance: Il serait sage de prendre conscience de nos actions. Construire une autorité et devenir l’associé d’entités connues est une bonne récompense.

Comme toujours, ça ne coûte rien de mieux comprendre les moteurs de recherche lorsque vous souhaitez faire de l’optimisation pour eux. En tant que groupe, peut-être que si nous commencerions à mieux comprendre les ingénieurs de recherche et leurs défis, ils pourraient mieux nous considérer un jour. Non, quel rêve stupide.

Les combinaisons créent des signaux de spam

Une chose, toujours importante à mémoriser, est que dans la plupart des cas, aucun signal ni aucune approche n’est considérée comme définitive. Les moteurs de recherche utilisent souvent une variété de méthodes pour trouver le spam. Pour ceux d’entre nous qui se débrouillent bien, cela signifie que les risques existent toujours.

Pour que ça fonctionne bien avec vos clients ou même avec vous, en général ça signifierait que votre travail serait satisfaisant sur plus d’un élément. Cela dit, la plupart des gens de la communauté de recherche ne sont pas de grands fans de SEO et il y a ceux qui pensent encore que les « manipulations » les plus douces pourraient être sanctionnées. D’après ce que je sais, il ne faut pas trop s’inquiéter d’un lynchage tout de suite. En fin de compte il y a des niveaux et des seuils, et aussi longtemps que vous éviterez l’abus de manipulations au point de vous emmêler les pinceaux, les choses devraient bien se passer.

Ce qui est sûr, c’est que vous serez un meilleur SEO si vous obteniez une meilleure base en recherche documentaire. Cet article traite de certains aspects communs – il y en a une TONNE de plus pour ceux qui seraient intéressés.

J’espère que vous avez apprécié l’article … jouez-la sereine !

Web Spam : le guide SEO Spamdexing

Commentaires (19)

Catégorie: Référencement

SMX Paris 2010 : Introduction aux techniques de linkbuilding borderline

Ecrit par admin le Lundi 21 juin 2010 à 12:20 - Catégorie Référencement

Voici ma présentation aux SMX Paris :

SMX Paris 2010 : Introduction aux techniques de linkbuilding borderline

Commentaires (26)

Catégorie: Référencement

Script pour surveiller l’indexation Google.

Ecrit par lemoussel le Vendredi 28 mai 2010 à 8:31 - Catégorie Google,Référencement,Scripts PHP

Je ne vais rien vous apprendre en vous indiquant que le moteur de recherche Google est omniprésent. Il est donc important, lors du lancement d’un nouveau site, de surveiller l’indexation des pages du site dans ce moteur de recherche.

Afin de surveiller le référencement d’une ou de plusieurs pages d’un ou plusieurs sites je vous propose ce petit outil “CheckIndex” qui vous permettra de mieux maitriser l’indexation (ou non) de votre site dans le moteur de recherche Google. Il peut aussi vous permettre de connaître la qualité d’indexation Google d’un concurrent ou d’un partenaire éventuel !

Deux points à noter pour utiliser cet outil. Vous devez avoir PHP 5 et la librairie cURL (libcurl) installés sur votre serveur .

Dans cet article je vous propose de voir comment se servir de CheckIndex et de vous présenter les trois fonctions suivantes que cet outil de suivi d’indexation utilise :

  • get_string_between : Fonction permettant de récupérer le texte contenu entre deux balises.
  • google_search_api : Comme son nom l’indique cette fonction permet d’effectuer la recherche sur Google
  • get_web_page : Récupération d’une page HTML.

get_string_between

<?php
function get_string_between($string, $start, $end)
{
     $string = ' '.$string;
     $ini = strpos($string,$start);
     if ($ini == 0) return '';
     $ini += strlen($start);   
     $len = strpos($string,$end,$ini) - $ini;
     return substr($string,$ini,$len);
}
?>

google_search_api

Utilisation de AJAX API de Google.
L’utilisation de cet API est expliquée en détail sur cette page: Class Reference Google AJAX Search API.

<?php
function google_search_api($args)
{
	$referer = 'http://' . $_SERVER["HTTP_HOST"] . $_SERVER['REQUEST_URI'] . ''; 
	if ( !array_key_exists('v', $args) ) $args['v'] = '1.0';
	$dataGoogleSearch = get_web_page('http://ajax.googleapis.com/ajax/services/search/web?'.http_build_query($args, '', '&'));
	if (stristr($dataGoogleSearch['content'], 'GwebSearch') === false) return false;
	else return true;
}
?>

get_web_page

Fonction de récupération d’une page HTML avec :

  • Sélection d’un User Agent tiré au hasard donc différent pour chaque interrogation.
  • Détermination du Internet media type (mime), à l’origine appelé Type MIME ou juste MIME ou encore Content-type.
  • Détermination du jeu de caractères (charset).

<?php
function get_web_page($url)
{
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Avant Browser/1.2.789rel1 (http://www.avantbrowser.com)");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/5.0 (Windows; U; Windows XP) Gecko MultiZilla/1.6.1.0a");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/3.01Gold (Win95; I)");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/4.8 [en] (Windows NT 5.1; U)");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/5.0 (Windows; U; Win98; en-US; rv:1.4) Gecko Netscape/7.1 (ax)");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Opera/7.50 (Windows XP; U)");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Opera/7.51 (Windows NT 5.1; U) [en]");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; en) Opera 8.0");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/5.0 (Windows; U; WinNT4.0; en-US; rv:1.2b) Gecko/20021001 Phoenix/0.2");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser; Avant Browser; .NET CLR 1.0.3705; .NET CLR 1.1.4322; Media Center PC 4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30)");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/532.5 (KHTML, like Gecko) Chrome/4.0.249.0 Safari/532.5");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US) AppleWebKit/532.9 (KHTML, like Gecko) Chrome/5.0.310.0 Safari/532.9");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/5.0 (Windows; U; Windows NT 6.0 x64; en-US; rv:1.9pre) Gecko/2008072421 Minefield/3.0.2pre");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/5.0 (Windows; U; Windows NT 6.0; en-GB; rv:1.9.0.11) Gecko/2009060215 Firefox/3.0.11 (.NET CLR 3.5.30729)");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6 GTB5");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Trident/5.0)");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Trident/4.0)");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0 )");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Opera/9.25 (Windows NT 6.0; U; en)");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Opera/9.80 (Windows NT 5.2; U; en) Presto/2.2.15 Version/10.10");
	$UAlist[] = array('os' => 'Windows', 'useragent' => "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/531.21.8 (KHTML, like Gecko) Version/4.0.4 Safari/531.21.10");
	$UAlist[] = array('os' => 'Mac', 'useragent' => "Mozilla/2.02E (Win95; U)");
	$UAlist[] = array('os' => 'Mac', 'useragent' => "Mozilla/4.0 (compatible; MSIE 5.15; Mac_PowerPC)");
	$UAlist[] = array('os' => 'Mac', 'useragent' => "Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en) AppleWebKit/125.2 (KHTML, like Gecko) Safari/85.8");
	$UAlist[] = array('os' => 'Mac', 'useragent' => "Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en) AppleWebKit/125.2 (KHTML, like Gecko) Safari/125.8");
	$UAlist[] = array('os' => 'Mac', 'useragent' => "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_8; en-US) AppleWebKit/532.8 (KHTML, like Gecko) Chrome/4.0.302.2 Safari/532.8");
	$UAlist[] = array('os' => 'Mac', 'useragent' => "Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.5; en-US; rv:1.9.0.3) Gecko/2008092414 Firefox/3.0.3");
	$UAlist[] = array('os' => 'Mac', 'useragent' => "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.5; en-US; rv:1.9.1) Gecko/20090624 Firefox/3.5");
	$UAlist[] = array('os' => 'Mac', 'useragent' => "Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en-US) AppleWebKit/125.4 (KHTML, like Gecko, Safari) OmniWeb/v563.15");
	$UAlist[] = array('os' => 'Mac', 'useragent' => "Mozilla/5.0 (Macintosh; U; Intel Mac OS X; en-US) AppleWebKit/528.16 (KHTML, like Gecko, Safari/528.16) OmniWeb/v622.8.0.112941");
	$UAlist[] = array('os' => 'Mac', 'useragent' => "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_6; en-US) AppleWebKit/528.16 (KHTML, like Gecko, Safari/528.16) OmniWeb/v622.8.0");
	$UAlist[] = array('os' => 'Mac', 'useragent' => "Opera/9.0 (Macintosh; PPC Mac OS X; U; en)");
	$UAlist[] = array('os' => 'Mac', 'useragent' => "Opera/9.20 (Macintosh; Intel Mac OS X; U; en)");
	$UAlist[] = array('os' => 'Mac', 'useragent' => "Mozilla/5.0 (Macintosh; U; PPC Mac OS X; fr-fr) AppleWebKit/312.5 (KHTML, like Gecko) Safari/312.3");
	$UAlist[] = array('os' => 'Mac', 'useragent' => "Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en) AppleWebKit/418.8 (KHTML, like Gecko) Safari/419.3");
	$UAlist[] = array('os' => 'Mac', 'useragent' => "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_2; en-us) AppleWebKit/531.21.8 (KHTML, like Gecko) Version/4.0.4 Safari/531.21.10");
	$UAlist[] = array('os' => 'Linux', 'useragent' => "ELinks (0.4pre5; Linux 2.6.10-ac7 i686; 80x33)");
	$UAlist[] = array('os' => 'Linux', 'useragent' => "ELinks/0.9.3 (textmode; Linux 2.6.9-kanotix-8 i686; 127x41)");
	$UAlist[] = array('os' => 'Linux', 'useragent' => "Links (2.1pre15; Linux 2.4.26 i686; 158x61)" );
	$UAlist[] = array('os' => 'Linux', 'useragent' => "Links/0.9.1 (Linux 2.4.24; i386;)");
	$UAlist[] = array('os' => 'Linux', 'useragent' => "Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/0.8.12");
	$UAlist[] = array('os' => 'Linux', 'useragent' => "w3m/0.5.1");
	$UAlist[] = array('os' => 'Linux', 'useragent' => "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.10.1");
	$UAlist[] = array('os' => 'Linux', 'useragent' => "Mozilla/5.0 (X11; U; Linux i686; en-US) AppleWebKit/532.4 (KHTML, like Gecko) Chrome/4.0.237.0 Safari/532.4 Debian");
	$UAlist[] = array('os' => 'Linux', 'useragent' => "Mozilla/5.0 (X11; U; Linux i686; en-US) AppleWebKit/532.8 (KHTML, like Gecko) Chrome/4.0.277.0 Safari/532.8" );
	$UAlist[] = array('os' => 'Linux', 'useragent' => "Mozilla/5.0 (X11; U; Linux x86_64; en-US) AppleWebKit/532.9 (KHTML, like Gecko) Chrome/5.0.309.0 Safari/532.9");
	$UAlist[] = array('os' => 'Linux', 'useragent' => "Dillo/2.0");
	$UAlist[] = array('os' => 'Unix', 'useragent' => "Mozilla/5.0 (X11; U; SunOS sun4m; en-US; rv:1.4b) Gecko/20030517 Mozilla Firebird/0.6");
	$UAlist[] = array('os' => 'Unix', 'useragent' => "Mozilla/5.0 (X11; U; SunOS i86pc; en-US; rv:1.9.1b3) Gecko/20090429 Firefox/3.1b3");
	$UAlist[] = array('os' => 'Unix', 'useragent' => "Mozilla/5.0 (X11; U; OpenBSD i386; en-US; rv:1.9.1) Gecko/20090702 Firefox/3.5");
	$UAlist[] = array('os' => 'Unix', 'useragent' => "Mozilla/5.0 (compatible; Konqueror/3.5; NetBSD 4.0_RC3; X11) KHTML/3.5.7 (like Gecko)");
	$UAlist[] = array('os' => 'Unix', 'useragent' => "Mozilla/5.0 (compatible; Konqueror/3.5; SunOS) KHTML/3.5.1 (like Gecko)");
	$UAlist[] = array('os' => 'Unix', 'useragent' => "Mozilla/5.0 (compatible; Konqueror/4.1; DragonFly) KHTML/4.1.4 (like Gecko)");
	$UAlist[] = array('os' => 'Unix', 'useragent' => "Mozilla/5.0 (compatible; Konqueror/4.1; OpenBSD) KHTML/4.1.4 (like Gecko)");
	$UAlist[] = array('os' => 'Unix', 'useragent' => "Mozilla/5.0 (X11; U; FreeBSD; i386; en-US; rv:1.7) Gecko");
	$UAlist[] = array('os' => 'Unix', 'useragent' => "Mozilla/4.77 [en] (X11; I; IRIX;64 6.5 IP30)");
	$UAlist[] = array('os' => 'Unix', 'useragent' => "Mozilla/4.8 [en] (X11; U; SunOS; 5.7 sun4u)");
 
	$options = array(
		CURLOPT_RETURNTRANSFER => true,    
		CURLOPT_HEADER         => false,   
		CURLOPT_FOLLOWLOCATION => true,     
		CURLOPT_ENCODING       => '',      
		CURLOPT_AUTOREFERER    => true,    
		CURLOPT_CONNECTTIMEOUT => 10,      
		CURLOPT_TIMEOUT        => 10,       
		CURLOPT_MAXREDIRS      => 10,       
		CURLOPT_FAILONERROR    => true,
		CURLOPT_USERAGENT      => $UAlist[array_rand($UAlist)]['useragent'],
        CURLOPT_COOKIEJAR      => 'CookieJar',
        CURLOPT_COOKIEFILE     => 'CookieTxt',		
	);
 
	$ch      = curl_init( $url );
	curl_setopt_array( $ch, $options );
	$content = curl_exec( $ch );
	$err     = curl_errno( $ch );
	$errmsg  = curl_error( $ch );
	$header  = curl_getinfo( $ch );
	curl_close( $ch );
 
 
  preg_match( '@([\w/+]+)(;\s+charset=(\S+))?@i', $header['content_type'], $matches_header );
  preg_match( '@<meta\s+http-equiv="Content-Type"\s+content="([\w/]+)(;\s+charset=([^\s"]+))?@i', $content, $matches_meta );
  if ( isset( $matches_header[1] ) ) 
     $header['mime'] = $matches_header[1];
  else
    if ( isset( $matches_meta[1] ) ) 
		$header['mime'] = $matches_meta[1];
 
  if ( isset( $matches_header[3] ) ) 
     $header['charset'] = $matches_header[3];
  else
     if ( isset( $matches_meta[3] ) ) 
		$header['charset'] = $matches_meta[3];
 
	$header['errno']   = $err;
	$header['errmsg']  = $errmsg;
	$header['content'] = $content;
	$header['charset'] = isset($header['charset']) ? $header['charset'] : 'utf-8';
 
	return $header;
}
?>

Voilà nous avons terminés avec les fonctions. Voici donc le code source du “coeur” de CheckIndex.
Son utilisation en est très simple. Il suffit de passer en paramètre un fichier sitemap au format XML contenant les URL à vérifier.

http://www.monsite.com/CheckIndex.php?sitemap=http://www.monsite.com/sitemap.xml

Pour rappel le fichier sitemap.xml doit être sous la forme :

<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="http://www.insolite-du-geek.fr/wp-content/plugins/google-sitemap-generator/sitemap.xsl"?>
<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
	<url>
		<loc>URL1/</loc>
	</url>
	<url>
		<loc>URL2/</loc>
	</url>
</urlset>

Si vous voulez vérifier à intervalle régulier, il vous suffit alors d’appeler “CheckIndex” via une tache « cron » et de vous adresser un email contenant les Urls non indexées.

CheckIndex

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>CheckIndex</title>
<style type="text/css">
	<!--
	body { font-family: verdana; font-size: 12px; background: #000; color: #fff; }
	a { color: #3399FF; }
	-->
</style>
</head>
<body>
<?php
require 'get_string_between.php';
require 'google_search_api.php';
require 'get_web_page.php';
 
if(function_exists('set_time_limit')) set_time_limit(0);
 
if(isset($_GET['sitemap']))
{	
	$sitemapURL = urldecode($_GET['sitemap']);
	$sitemapdata = get_web_page($sitemapURL);
	$nbURL = substr_count($sitemapdata['content'], '<loc>');
 
	ob_start();
 
	for($idxURL = 1; $idxURL <= $nbURL; $idxURL++)
	{
		 $url = get_string_between($sitemapdata['content'], '<loc>', '</loc>');
		 $sitemapdata['content'] = str_replace('<loc>' . $url . '</loc>', '', $sitemapdata['content']);
 		 $flagIndexed = google_search_api(array("q" => "info:$url"));
		 if ($flagIndexed === true) echo '<span style="color:green;">' . $idxURL . ' ' . $url . '</span><br />';
		 else echo  '<span style="color:orange;">' . $idxURL . ' ' . $url . '</span><br />';
 
		 ob_flush();
		 flush();
 
		 sleep(rand(1, 3));  
	}
 
	ob_end_flush();
}
 
?>
</body>
</html>

Commentaires (14)

Catégorie: Google,Référencement,Scripts PHP



SEO BLACKOUT

Site web dédié aux techniques de référencement et de positionnement de sites web sur Google.

Certaines parties du site sont en accès restreint, ces espaces sont réservés à la SEO Black Hat Team.


Don't Be Evil !