Seohackers netlinking

Extraire les urls des résultats de Google

Ecrit par admin le dimanche 26 octobre 2008 à 15:12 - Catégorie Scraping,Scripts PHP

Comment extraire / parser les urls de résultats de recherche de Google ?

Cela fait plusieurs fois qu’on me demande comment extraire les urls de résultats de recherche de Google dans le but de les utiliser pour diverses raisons : recherche de pages de soumission d’annuaires, recherche des pages de blog avec commentaires, pages de forums, commande link ou site…

Voici donc un script php qui permet d’extraires ces urls de Google.

Différentes options sont proposées, comme le nombre de pages à extraire ou le moteur Google où se fera l’extraction ainsi que la langue du moteur.

Code source du script :

Voici le code du script php à copier/coller dans un fichier et à uploader sur votre serveur ou à utiliser en local :

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
<?php
//Script php : Extraction urls Résultats Google
// Copyrights 2008 Seoblackout.com
//http://www.seoblackout.com	
//Url script : http://www.seoblackout.com/2008/10/26/extraire-resultats-google/
 
@set_time_limit(0);
$useragent='Mozilla/5.0';
$regex='<h3 class="r">';
//extension et langue google
if ((isset($_POST['ext'])) && ($_POST['ext']!='')) 
{
	$ext=strip_tags($_POST['ext']);
	if ($ext=='fr') {
	$lang='fr';
	}
	else if ($ext=='com') {
	$lang='en';
	} 
	else if ($ext=='es') {
	$lang='es';
	}
	else if ($ext=='de') {
	$lang='de';
	}
	else if ($ext=='ca') {
	$lang='en';
	}
	else if ($ext=='ca2') {
	$ext='ca';
	$lang='fr';
	}
	else {
	$ext='fr';
	$lang='fr';
	}
}
else 
{
	// par défaut, on recherche sur google.fr et lang=fr
	$ext='fr';
	$lang='fr';
}
//nombre de page à extraire :
if ((is_numeric($_POST['pages'])) && ($_POST['pages']!='')) 
{
	$c=(strip_tags($_POST['pages'])-1);
}
else 
{
	//10 pages par défaut, on part de 0 donc 10 pages = 9
	$c=9;
}
 
if ((isset($_POST['kw'])) && ($_POST['kw']!='')) 
{
	$kw=trim(strip_tags($_POST['kw']));
	$pagenum = 0;			
	$googlefrurl = "http://www.google.".$ext."/search?hl=".$lang."&q=" . urlencode($kw) . "&start=$pagenum";
	$url_new = '';
 
	while($pagenum <= $c) 
	{
			if (function_exists('curl_init')) 
			{
				$ch = curl_init();
				curl_setopt($ch, CURLOPT_USERAGENT, $GLOBALS['useragent']);
				curl_setopt($ch, CURLOPT_URL,$googlefrurl);
				curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
				$result=curl_exec ($ch);
				curl_close ($ch);
			} 
			else 
			{
				$result= file_get_contents($googlefrurl);
			} 	
		preg_match_all('/'.$regex.'<a href="(.*?)"/si', $result, $matches);
			$i = 0;
			$n = count($matches[1]);
			$pagenum++;
			$pagenum2 = $pagenum.'0';
			$googlefrurl = "http://www.google.".$ext."/search?hl=".$lang."&q=" . urlencode($kw) . "&start=$pagenum2&safe=off&pwst=1&filter=0";
 
			while($i <= $n) 
			{
				$url_new1 = addslashes($matches[1][$i]);
				$url_new .= trim($matches[1][$i])."<br>";
				$i++;
				flush();
			}
	}
	$url_new .= '';				
}
?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
<title>Extraction Urls résultats Google</title>
</head>
<body>
<h1>Extraction Urls résultats Google</h1>
<div>
<?php 
if ((isset($_POST['kw'])) && ($_POST['kw']!='')) {
	echo "<h3>Keyword : ",strip_tags($kw),"</h3>";
	echo "<h6>Google Results</h6>";
	echo str_replace('<br><br>','<br>',$url_new); 
}
?>
<form method="POST" action="<?php echo strip_tags($_SERVER['REQUEST_URI']) ;?>">
<p>Saisir vos mots-clés :</p>
<input name="kw" type="text" size="100" value="<?php if (isset($_POST['kw'])) {echo strip_tags($kw);} ?>">
<p>Nombre de pages à extraire (optionel => 10 pages par défaut):</p>
<input name="pages" type="text" size="3" maxlength="3" value="<?php if (isset($_POST['pages'])) {echo strip_tags($_POST['pages']);} else {echo '10';} ?>">
<p>Moteur :</p>
<select name="ext">
<option value="fr"<?php if (($_POST['ext'])=='fr') {echo ' selected';} ?>>Google.fr (hl=fr)</option>
<option value="com"<?php if (($_POST['ext'])=='com') {echo ' selected';} ?>>Google.com (hl=en)</option>
<option value="es"<?php if (($_POST['ext'])=='es') {echo ' selected';} ?>>Google.es (hl=es)</option>
<option value="de"<?php if (($_POST['ext'])=='de') {echo ' selected';} ?>>Google.de (hl=de)</option>
<option value="ca"<?php if (($_POST['ext'])=='ca') {echo ' selected';} ?>>Google.ca (hl=en)</option>
<option value="ca2"<?php if (($_POST['ext'])=='ca2') {echo ' selected';} ?>>Google.ca (hl=fr)</option>
</select>
<p><input type="submit" value="Go" name="go">
<input type='button' value='Annuler' onclick='location.href="<?php echo strip_tags($_SERVER['REQUEST_URI']) ;?>"'></p>
</form>
<br />
<small>Script proposé par SEO BlackOut : <a href="http://www.seoblackout.com/">référencement</a></small>
</div>
</body>
</html>

Démo :

Dans la démo, le nombre de résultats extraits est limité à 3 pages uniquement !

http://www.seoblackout.com/scripts/extraire-urls-google.php

Commentaires (29)

Catégorie: Scraping,Scripts PHP

Abuser des médias sociaux pour améliorer son référencement

Ecrit par Francis le jeudi 23 octobre 2008 à 15:46 - Catégorie Référencement

Cet article est écrit par un blogueur invité, Francis Vallières, SEO Senior chez NVI et chroniqueur pour Go-Referencement.

En tant que blogueur invité, je crois qu’il est plus poli de d’abord me présenter. Je me nomme Francis et je fais du référencement depuis environ 6 ans. Je suis québécois et je travaille chez NVI, une agence interactive de Montréal. Mon travail consiste à toucher à tout les aspects du référencement, que ce soit du référencement organique ou encore du PPC. Nous travaillons aussi dans le domaine du SMO (Social Media Optimization), soit l’optimisation des sites web pour les médias sociaux. Et c’est de ce dernier domaine que je vais vous parler dans cet article.

Les médias sociaux offrent de toutes nouvelles opportunités pour les spécialistes en référencement. La méthode que je vais expliquer utilise StumpleUpon, une des cibles les plus intéressantes pour les blackhats.

C’est quoi StumbleUpon ?

StumpleUpon est un média social qui permet à ses 6 millions d’utilisateurs de partager leur avis sur un site ou une page web et de le faire partager aux autres utilisateurs en se basant sur vos intérêts personnels. Par exemple, si vous aimez les sites qui traitent de finance, en utilisant le bouton Stumble! de la toolbar de Stumpleupon il y a de bonnes chances que la barre vous envoie sur un site de finance apprécié par les utilisateurs de Stumble. SU se base sur les intérêts que vous avez inscrits lors de votre inscription ainsi que les sites que vous avez appréciés et que vous avez signifiés à SU (en appuyant sur le bouton I Like it!).

Pourquoi je devrais m’intéresser à StumbleUpon ?

Tout simplement parceque le système est relativement facile à abuser et qu’un bon Stumble peut apporter entre 1000 et 25 000 visiteurs. Mais surtout, parceque le potentiel pour le linkbuilding est immense. Considérez un peu le SMO comme le PR du marketing traditionnel, les résultats ne sont pas garantis mais les effets sont énormes. Lors de précédentes campagnes de SMO, pour nous-même ou pour des clients, nous avons obtenus entre autre de cette façon des mentions ou des liens provenant du site web ou de la version papier du :

  • New York Times
  • Sports Illustrated
  • Maxim
  • Yahoo Site of The Day
  • FHM
  • Forbes
  • MSNBC
  • Mais aussi des blogs majeurs (Adobe, Reddit etc..)

Ce genre de liens est extrêmement difficile à obtenir et apporte beaucoup de TrustRank au domaine et est un des moyens les plus rapides de faire vieillir un domaine (éviter la Sandbox ou peu importe le nom de la théorie)

Comment se faire des amis ?

C’est relativement simple, premièrement il vous faut un compte Stumbleupon (surprise). Prenez une bonne heure pour vous familiariser avec la toolbar et comprendre le fonctionnement. Ensuite, pour devenir populaire sur StumbleUpon il vous faut des amis. Et il est toujours mieux d’avoir des amis puissants. Donc vous allez utilisez la commande Browse People pour trouver des gens avec des comptes qui ont plus de 50 subscribers. Vous vous inscrivez d’abord à leurs favoris et ensuite vous leur envoyez un message du genre: « Bonjour, j’aime bien vos stumbles et je me suis abonné, ne vous gênez pas pour m’envoyer vos stumbles ».

Répétez cette opération tout en faisant quelques reviews de leurs stumbles. L’objectif est de les voir s’inscrire à vos favoris. Il vous faut environ de 30 à 50 abonnés pour commencer. Même si c’est un peu long cela en vaut grandement l’effort. Une fois que vous avez atteint cet objectif il est temps pour vous de vous préparer à rendre votre contenu populaire.

L’appât à liens ou linkbait

Il vous faut tout d’abord un article qui va intéresser les lecteurs de votre niche de marché. Par exemple un tutorial (comme cet article) ou encore une liste (220 photos de bouchons de bières, 13 endroits où passez des vacances d’aventure etc.) devrait faire l’affaire. Il vous faut un article de qualité et bien écrit. Une fois votre article écrit et en ligne, il est temps de rendre cet article populaire.

Comment devenir populaire

Il existe une fonction merveilleuse de SU qui vous permet d’envoyer votre article à vos amis accompagné d’un court message ( du genre regardez ceci et faites-en une critique svp ), le bouton Send to. La particularité intéressante est que, une fois l’article envoyé, vos amis sont forcés de voir l’article avant de pouvoir stumbler autre chose. Et la plupart du temps de toute façon comme vous êtes gentil et que vous stumblez vous aussi leur contenu, ils vous rendront la pareille. Utilisez des tags populaires (vous pouvez avoir la liste sur la page d’accueil de SU. Il ne vous reste plus qu’à regarder le trafic dans votre logiciel analytique préféré et espérer que vous obtiendrez des liens de qualités.

Conclusion

Malheureusement SU n’est pas friand de sites francophones. Peut-être cela changera-t’il dans le futur mais pour l’instant je vous conseille de vous en tenir aux sites anglophones pour cette technique. Ne vous découragez pas si vous n’avez pas un succès immense la première fois, avec l’expérience vous comprendrez rapidement ce qui fonctionne et qui ne fonctionne pas. Et aussi, utilisez SU pour rendre votre profil le plus « naturel » possible, vous y gagnerez quelques subscribers ainsi et vous abaissez énormément les chances de vous retrouver banni du système pour abus.

Commentaires (12)

Catégorie: Référencement



SEO BLACKOUT

Site web dédié aux techniques de référencement et de positionnement de sites web sur Google.

Certaines parties du site sont en accès restreint, ces espaces sont réservés à la SEO Black Hat Team.


Don't Be Evil !