Ecrit par lemoussel le Dimanche 22 novembre 2009 à 11:30 - Catégorie Outils référencement
Après avoir vu comment simplifier la soumission manuelle dans les annuaires nous allons, dans cet article, détailler une méthode permettant d’automatiser la soumission de formulaire.
Pour ce faire, il vous faut le plugin nommé « iMacros » qui est un utilitaire permettant d’automatiser des tâches sur votre navigateur WEB en enregistrant les différentes manipulations sous forme de scripts. Entre autre il permet de compléter des formulaires, de téléverser des textes, d’importer ou d’exporter des données à partir/vers des fichiers CSV et XML, de chercher/extraire des données (web scraping).
Bref tout ce que vous faites avec votre navigateur WEB, iMacros peut l’automatiser !
» Lire la suite : Utilisation de iMacros pour la soumission automatique de formulaire
Catégorie: Outils référencement
Ecrit par Bertimus le Mercredi 4 novembre 2009 à 12:56 - Catégorie Outils référencement
Que celui qui prend son pied à soumettre manuellement ses sites dans les annuaires me jette la première pierre, euh non plus judicieux, linke cet article depuis son plus gros site
Et oui, la soumission manuelle dans les annuaires est une tâche fastidieuse mais bonne nouvelle pour vous, l’enjeu de cet article est de vous livrer un outil (préconfiguré) pour rendre cette mission moins ennuyeuse.
» Lire la suite : Moins de prise de tête lors de la soumission manuelle dans les annuaires
Catégorie: Outils référencement
Ecrit par lemoussel le Lundi 2 novembre 2009 à 15:00 - Catégorie Captchas
Une des solutions connues pour outrepasser / bypasser les codes captchas antispam est l’utilisation d’un traitement OCR (Optical Character Recognition = Reconnaissance optique de caractères).
Pour effectuer ce type de traitement, l’image sur laquelle sera effectuée le traitement doit être soit en niveaux de gris ou en monochrome. Cette étape de transformation de l’image est une étape essentielle de tous traitements OCR car la complexité du programme et le temps de calcul s’en trouvent largement réduits.
Pour des raisons de portabilité la plupart des outils d’OCR utilise le format PNM (portable anymap) comme format d’image. L’avantage de ce type de format est de coder l’image dans sa plus simple expression. Le terme « PNM » étant une généralisation regroupant les formats réels PBM (portable bitmap file format – image binaire), PGM (portable graymap file format – image en niveaux de gris) et PPM (portable pixmap file format – image en couleur).
Les fichiers au format PNM se structurent de la même manière et n’introduisent aucune méthode de compression d’image. Les données dans ces fichiers expriment soit la valeur RVB pour le PPM, soit le niveau de gris dans le cas du PGM ou simplement avec des 1 ou 0 pour le PBM.
Par exemple pour le format PBM, qui nous intéresse, la structure est la suivante :
» Lire la suite : Captcha : Conversion d’image en PHP
Catégorie: Captchas
Ecrit par admin le Jeudi 1 octobre 2009 à 15:17 - Catégorie Cloacking, Google
Vous savez certainement que l’on peut interdire l’affichage du cache d’une page dans Google, cela est bien utile parfois.
Pour interdire l’affichage du cache, Google et les autres moteurs tels que Yahoo ou Bing par exemple, propose l’ajout d’une balise meta qui a pour syntaxe :
<META NAME="ROBOTS" CONTENT="NOARCHIVE">
ou
<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE"> (pour interdire la mise en cache par googlebot uniquement).
Il y a quelques jours le serveur qui héberge mon site n’était plus accessible, j’ai donc eu dans mon navigateur un beau message « DNS error… vous pouvez afficher la page en cache », je clique sur le lien machinalement et là je vois le cache de mon site or dans mon head j’ai bien la meta noarchive qui est présente puisque j’interdis volontairement la mise en cache.
Voici 2 copies d’écrans, la première avec le cache seoblackout.com sur Google :

La seconde montre bien que la balise meta robots noarchive est bien présente dans le cache :

Michaël m’a donné le lien suivant sur twitter http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156412 avec l’extrait suivant « due to temporary failure of the page’s web server… The cached page appears to users exactly… », suite à cette lecture, j’ai donc pensé que l’on voyait le cache car le serveur avait était out pendant quelques heures mais il n’en est rien puisque d’autres sites qui n’ont pas été out sont aussi touchés par ce souci.
De là, j’ai fais une demande de suppression de cache dans google webmaster tools, demande qui a aboutie en moins de 48 heures mais avec l’inconvénient de ne plus afficher le snippet dans les résultats. J’ai donc retiré la demande de suppression mais Google s’est remis à afficher le cache, sans remettre le snippet, j’ai à nouveau refais un demande de suppression de cache que Google a respecté un à deux jours au lieu des 90 jours annoncés dans webmasters tools, puisque depuis mon cache est à nouveau visible (suffit de saisir cache:www.seoblackout.com dans Google), c’est à n’y rien comprendre.
Je vous mets les copies d’écrans de mon Google Webmaster Tools ci-dessous :
Annulation de la première demande de suppression de cache :

Seconde demande de suppression de cache :

Conclusion : Google ne respecte pas, pour certains sites, la balise meta robots noarchive, et même lorsque l’on fait une demande de suppression du cache dans Google webmaster Tools, la demande est respectée provisoirement puisque le cache réapparait ensuite.
Dans mon cas, on ne voit que le cache de la home mais pour d’autres sites c’est toutes les pages internes qui apparaissent en cache malgré l’interdiction.
Je n’ai pour le moment aucune piste viable quant au pourquoi Google ne respecte pas cette meta pour certains sites. Bug ??
Catégorie: Cloacking, Google
Ecrit par lemoussel le Vendredi 25 septembre 2009 à 11:23 - Catégorie Outils référencement, Scripts PHP
Alexa propose une option permettant de lister, pour un site donné, les mots-clés ayant générés le plus de trafic pour ce site mais aussi les mots-clés générant le plus de trafic de façon globale par rapport à l’ensemble des sites.
Cette fonctionnalité corrélée aux résultats de recherche google permet d’obtenir une liste de mots-clés générant du trafic sur un thème donné.
Exemple : quels sont les mots-clés générant le plus de trafic pour le mot-clé référencement ?
Après un tri rapide dans excel et élimination de certains résultats et des doublons, on obtient ce type de liste à partir du script :
- achat de mots clés
- achat mot clé
- agence de référencement
- agence référencement
- annuaire
- balise canonique
- c class ip
- conseil seo
- creation site internet paris
- creation site web ethique
- data center google
- devis référencement
- echange de lien
- echange de lien automatique
- echange de liens
- echange de script
- expert référencement
- generateur de meta
- générateur de mots clés
- generateur mot clé
- google bombing
- google dance
- google image
- google news
- indice de popularité
- indice de popularité du site
- indice de popularité google
- keyword stuffing
- liste moteur de recherche
- meta keywords
- moteur de recherche
- moteurs de recherche
- page rank
- pages rank
- redirection javascript
- redirection php
- référencement
- référencement google
- référencement gratuit
- referencement internet
- referencement naturel
- referencement professionnel
- referencement site
- referencement site internet
- referencement site web
- referencement web
- référencer gratuit
- robots.txt generator
A partir de mots-clés saisis, ce script va extraire les n premiers résultats de Google et pour chaque résultat, il extrait les mots-clés référencés par Alexa.
Exemple des mots-clés issus d’Alexa pour SEO BlackOut :
Rem : J’ai repris le chiffre du source HTML et additionné si présence de 2 fois le mot-clé. Ce chiffre qualifiant l’importance du mot-clé pour Alexa .
www.seoblackout.com
seo => 200
black hat seo => 171.356
referencement google => 104.864
captcha bypass => 74.998
black seo => 70.6
blog seo => 59.976
google image => 58.492
seoblackout => 54.128
seo black hat => 45.8
google wonder wheel => 19.684
curl php => 13.876
wonder wheel => 11.39
script php => 9.814
black hat => 8.552
curl => 8.242
freeglobes => 7.617
yacg => 7.104
racheumeuneu => 6.752
suggestion mot clé => 5.796
phpscript => 5.491
Code source du script d’extraction des mots-clés référencés par Alexa :
Ci-dessous le code du script php à copier/coller dans un fichier et à télécharger sur votre serveur ou à utiliser en local :
» Lire la suite : Alexa Keywords PHP Script
Catégorie: Outils référencement, Scripts PHP
Ecrit par admin le Dimanche 13 septembre 2009 à 14:07 - Catégorie Référencement
Saisissez votre mot de passe pour accéder aux commentaires
Catégorie: Référencement
Ecrit par admin le Lundi 31 août 2009 à 12:55 - Catégorie Concours de référencement
La black hattitude, c’est quoi ?
» Lire la suite : Black hattitude
Catégorie: Concours de référencement
Ecrit par admin le Lundi 31 août 2009 à 12:42 - Catégorie SEO BlackOut Life
Aujourd’hui mon ami Rudy a ouvert un forum dédié au référencement black hat, un forum prometteur et ouvert à tous pour le moment.
La seule contrainte est d’avoir la black hattitude
Voici les 3 rubriques principales du forum pour vous donner une idée des aspects traités : Génération de contenu, référencement black hat et monétisation de sites web.
Pour accéder au forum c’est par ici : Forum Black Hat.
Longue vie à ton forum Rudy !
Catégorie: SEO BlackOut Life
Ecrit par lemoussel le Samedi 29 août 2009 à 13:47 - Catégorie Proxies, Scripts PHP
Comment détecter le type d’anonymat d’un seveur proxy ?
Il nous arrive de temps en temps de nous retrouver aux prises avec des robots de spam agissant de manière douteuse sur notre site web. Afin d’être anonyme et éviter le blocage au niveau de leur adresse IP, ceux-ci utilisent des serveurs proxies.
Il existe 3 grands type de serveur proxy :
– Transparent proxy : on sait que la requête HTTP vient d’un proxy et on peut connaitre connaître la véritable adresse du visiteur.
– Anonymous proxy : on sait que la requête HTTP vient d’un proxy mais on ne peut connaitre la véritable adresse du visiteur.
– High anonymous (elite) proxy : Impossible de déterminer l’utilisation d’un proxy et impossibilité de connaitre l’adresse IP du visiteur. Le must !
J’ai remarqué que bon nombre d’outils de spam utilisent des proxies « transparent » (les « transparent proxy » sont les plus répandus). Il suffit donc de détecter ce type de proxy afin de récupérer la véritable adresse IP du visiteur (l’adresse IP est adressée dans les requêtes HTTP par l’entête X-Forwarded-For). De la sorte il sera possible d’appliquer une interdiction d’accès au site pour cette adresse IP.
Ci-dessous le code d’un script php permettant de détecter l’utilisation et le type d’un Proxy à copier/coller dans un fichier et à télécharger sur votre serveur ou à utiliser en local :
» Lire la suite : Proxy : script PHP détection de Proxy
Catégorie: Proxies, Scripts PHP
Ecrit par lemoussel le Lundi 24 août 2009 à 14:22 - Catégorie Outils de spam, Scripts PHP
En complément de l’article Spam referers liens Edu et Gov, je vous propose ce script PHP montrant comment les spammeurs effectuent du spam referer.
Remarque :Cet article est purement éducatif et à titre de démonstration sur l’utilisation de Curl avec PHP. L’exploitation de ce script qui y est décrit est à vos risques et périls. Spammer les referers peut avoir l’effet inverse de celui escompté…
Ce script que j’ai nommé SpamRef est un outil qui simule des visites sur le site cible (sur lequel on veut faire du spam referrer).
Deux paramètres sont demandés lors de son exécution :
1) L’url du site « referer ».
2) Nombre de visites à effectuer sur le site.
Les URL des sites à « visiter » doivent être stockées dans un fichier nommé URLspam.csv.
Code source du script SpamRef :
» Lire la suite : Script PHP Spam Referer
Catégorie: Outils de spam, Scripts PHP