Formation référencement

Générateur de (très) longue traîne

Ecrit par 512banque le Vendredi 28 mai 2010 à 14:40 - Catégorie Génération de contenu,Google,Scraping,Scripts PHP

Tenter de se positionner sur des expressions fortement concurrentielles n’est pas forcément un choix judicieux. En effet, certains mots-clés demandent énormément d’efforts et génèrent finalement assez peu de trafic. Le retour sur investissement n’est donc pas au rendez-vous.

Parfois, il vaut mieux tenter de cibler un ensemble de petites requêtes faciles à atteindre, ces requêtes mises bout à bout représentant un trafic non négligeable et dépassant bien souvent les requêtes « star ».

Choisir des expressions de « longue traîne » consiste donc à faire varier l’expression clé principale en utilisant des synonymes et en y ajoutant d’autres mots, tels que la localisation ou d’autres spécificités. Au lieu de chercher à se positionner sur « plombier », on va préférer « plombier dijon » ou « plombier bourgogne » et ainsi de suite pour toutes les grosses villes de france et tous les départements.

Pour trouver des expressions de longue traîne, on peut utiliser notre imagination, mais également les suggestions de google (google suggest) ou la fameuse « roue magique »… Ou bien les deux en même temps !

J’ai ainsi couplé le script de la wonder wheel à celui de google suggest, les deux se trouvant sur Seoblackout ;)

J’ai donc cherché le mot clé « referencement », et en dédoublonné ça m’a donné 650 expressions. Evidemment, il faut faire le tri car on trouvera des expressions aussi peu ciblées que « chiffre d affaires restauration rapide » ou « taux de transformation chimie » mais rien ne vaut une review manuelle pour un travail propre.

Au niveau du script, je sais qu’il existe de nombreuses pistes d’amélioration, mais franchement entre nous… Ca marche et ça me va bien comme ça :)

Voici la bête :

<?php header('Content-Type: text/html; charset=UTF-8'); ?> 
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr">
<head>
  <meta http-equiv="content-type" content="text/html; charset=utf-8" />
  <title>Long tail</title>
  <meta http-equiv="content-style-type" content="text/css" />
</head>
<body>
 
<?php
 
// Auteurs du script : Beunwa http://divioseo.fr/ & Tiger http://www.seoblackout.com
// Modifications par 512banque http://www.deliciouscadaver.com
// Url article du script pour bugs, commentaires... : http://www.seoblackout.com/2010/05/28/generateur-de-tres-longue-traine/
//Site Web : http://www.seoblackout.com
 
 
$etape = strip_tags($_GET['etape']);
 
switch($etape) {
 
case '1': ?>
<form action="?etape=2" method="post">
	<table><tr><td>
		Keyword : <textarea name="kw" rows="10">
<?php 
 
if ((isset($_POST['kw'])) && $_POST['kw']!='')
{
	$q=strip_tags($_POST['kw']);
	foreach (google_wheel($q) as $kws) { echo $kws."\n"; }
	flush();
}
else
{
	echo 'Veuillez saisir un mot-clé !';
}
?></textarea>
	</td><td>
		et <textarea name="mix2" rows="10"><?php echo strip_tags($_POST['mix2'])?></textarea>
	</td><td>
		<br />
		Langue : 
		<select name="lang">
			<option value="fr">FR</option>
			<option value="en">EN</option>
		</select>
		<br />
		Profondeur : 
		<select name="depth">
			<option value="1">1</option>
			<option value="2">2</option>
			<option value="3">3</option>
			<option value="4">4</option>
			<option value="5">5</option>
		</select>  
		<br />
		Alphabet :<input type="checkbox" name="alph" />
	</td></tr></table>
	<br />
	<input type="submit" value="Go" />
</form>
 
<?php
break;
case '2': ?>
<form action="?etape=3" method="post">
 
<h3>Dédoublonner et faire le ménage</h3>
<form  action="?etape=3" method="post">
<textarea rows="20" cols="60" name="kw">
<?php if(isset($_POST['kw'])){
	$lang = strip_tags($_POST["lang"]);
	if($lang == '') $lang = "fr"; 
	$depth = strip_tags($_POST["depth"]);
	if($depth == '') $depth = "1";
 
	$kwsd = array();
	$kwsd=explode("\n",trim(strip_tags($_POST["kw"])));
	foreach ($kwsd as $lst) {
		if($lst != "\n"){
			//mots cles simple
			ggSuggest($lst, $lang, $depth);
 
			//mots cles avec compléments
			$kws2 = array();
			$kws2=explode("\n",strip_tags($_POST["mix2"]));
			foreach ($kws2 as $mix2) {
				ggSuggest($lst.$mix2, $lang, $depth);
			}
 
			//alphabet
			if(strip_tags($_POST["alph"]) == "on"){
				$alpha = "a";
				while($alpha != "z"){
					ggSuggest($lst.' '.$alpha, $lang, $depth);
					$alpha = ++$alpha;
				}
			}
		}
	}
 
} ?>
</textarea>
 
	<br />
	<input type="submit" value="Go" />
</form>
 
<?php
break;
case '3':
$keywords = explode("\r\n", $_POST['kw']);
 
		foreach($keywords as $k=>$v) {
		if(preg_match('#^(.*) [\w]$#',$v)) {
		unset($keywords[$k]);
		} }
 
		$keywords = array_unique($keywords);
		?>
		<h3><?php echo count($keywords); ?> expressions uniques générées</h3>
		<p>Pensez à faire le tri ;)</p>
		<?php
 
		foreach($keywords as $k=>$v) {
		echo $v.'<br />';
		}
 
break;
default: ?>
<form action="?etape=1" method="POST">
  Saisir un mot-clé : <input id="kw" name="kw" type="text" size="" /><br />
  <button id="submit" name="submit" type="submit" value="submit">submit</button>
</form>
 
<?php			 
}
 
 
 
function google_wheel($q) {
$res_final = array(); 
$q=urlencode($q);
$search_url="http://www.google.com/search?q=$q&hl=fr&tbo=1&tbs=ww:1";
	$ch = curl_init();
	curl_setopt($ch, CURLOPT_USERAGENT, 'Opera/9.63 (Windows NT 5.1; U; fr) Presto/2.1.1');
	curl_setopt($ch, CURLOPT_URL,$search_url);
	curl_setopt($ch, CURLOPT_FAILONERROR, true);
	curl_setopt($ch, CURLOPT_REFERER, $search_url);
	curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);
	$res= curl_exec($ch);
	curl_close($ch);
	if ($res) {
		if (preg_match('/"r":\[(.*?)\]}\)/',$res,$matches))
		{		
			$response=str_replace('"','',$matches[1]);
 
			$response2=explode(',',$response);
			$response3='';
			foreach ($response2 as $key => $value) 
			{
				$value2=urlencode($value);
				$search_url2="http://www.google.com/search?q=$value2&hl=fr&tbo=1&tbs=ww:1";
 
				$ch2 = curl_init();
				curl_setopt($ch2, CURLOPT_USERAGENT, 'Opera/9.63 (Windows NT 5.1; U; fr) Presto/2.1.1');
				curl_setopt($ch2, CURLOPT_URL,$search_url2);
				curl_setopt($ch2, CURLOPT_FAILONERROR, true);
				curl_setopt($ch2, CURLOPT_REFERER, $search_url2);
				curl_setopt($ch2, CURLOPT_RETURNTRANSFER,true);
				$res2= curl_exec($ch2);
				curl_close($ch2);
				if ($res2)                                         
				{	
					if (preg_match('/"r":\[(.*?)\]}\)/',$res2,$matches2))
					{		
						$response.=','.str_replace('"','',$matches2[1]);
					}
				}
			}
			$response3=array_unique(explode(',',$response));
			asort($response3);
			foreach ($response3 as $key => $value) 
			{
			$res_final[]=str_replace(array('r2:','[',']'),'',$value);
			flush();
			}
		}
	}
 	return array_unique($res_final);
}
 
function ggSuggest($kw, $lang, $depth = 1, $inc = 1){	
	global $tabKw;
 
	$tabKw[] = $kw;	
    $url = 'http://www.google.com/complete/search?hl='.$lang.'&js=true&qu='. urlencode($kw);
	if (function_exists('curl_init')) {
	$header = array(
        "Accept: text/xml,application/xml,application/xhtml+xml,
		text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5",
        "Accept-Language: fr-fr,fr;q=0.7,en-us;q=0.5,en;q=0.3",
        "Accept-Charset: utf-8;q=0.7,*;q=0.7",
        "Keep-Alive: 300");
		$ch = curl_init();
	    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, false);
	    curl_setopt($ch, CURLOPT_HEADER, false);
	    curl_setopt($ch, CURLOPT_VERBOSE, true);	
	    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
	    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5);
	    curl_setopt($ch, CURLOPT_TIMEOUT, 5);
	    curl_setopt($ch, CURLOPT_REFERER, 'http://www.google.com/');
	    curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)' );
	    curl_setopt($ch, CURLOPT_HTTPHEADER, $header );
	 	curl_setopt($ch, CURLOPT_URL, $url);
		$result=curl_exec ($ch);
		curl_close ($ch);
	} else {
		$result= file_get_contents($url);
	}
	preg_match_all('/\["(.*?)",/si', $result, $kwgoogle, PREG_SET_ORDER);//mot
	preg_match_all('/\,"(.*?)résultats",/si', $result, $nbresult, PREG_SET_ORDER);//nb resultats
 
	if ($kwgoogle=='' || $inc > $depth) {
		return $tabKw;
	}else {
		$ii = 0;
		foreach($kwgoogle as $v){	
			$tk = strip_tags($v[1]);
			if(!in_array($tk, $tabKw)){ 
				$tk = str_replace ('\r',"", $tk);
				$kwr = $nbresult[$ii][1];
				if($kwr == "") $kwr = 0;
				//echo $kwr.' ; '.$tk.'<br />'; je ne veux pas du nombre de résultats
				echo $tk."\n";
				$ii++;                                  
				flush();
				ggSuggest($tk, $lang, $depth, $inc+1); 
			}
		}
	}
	return $tabKw;
}
?>

Pour utiliser cette liste, il vous suffit créer des pages uniques suffisament différentes les unes des autres, une pour chaque mot-clé. Le meilleur moyen de faire ça, c’est d’utiliser un script de spin de votre fabrication ou bien d’acheter un script de content spinning.
Et puisque Tiger m’offre un deuxième lien, j’en profite pour vous présenter le futur site de mon agence de référencement à Chambéry.
Bonne longue traîne à tous ;)

Commentaires (27)

Catégorie: Génération de contenu,Google,Scraping,Scripts PHP

Php Scraping avec fonctions DOM et Xpath

Ecrit par lemoussel le Lundi 25 janvier 2010 à 22:15 - Catégorie Scraping,Scripts PHP

Nous avons vu dans nos différents articles comment extraire/parser le contenu d’une page en utilisant les expressions régulières. La difficulté de cette approche est la maitrise de la rédaction des expressions régulières.

Dans cet article, je vous propose d’essayer une autre méthode par l’utilisation des fonctions DOMDocument et DOMXPath de PHP 5.

La question qui se pose alors : Comment déterminer la structure DOM d’un document HTML ?  Cela ne va t’il pas être plus compliqué que les expressions régulières ?

La réponse est non ! En effet avec le plug-in Firebug pour FireFox, l’exploration de la structure DOM d’une page HTML est très simple. Pour ce faire, nous allons reprendre l’exemple d’extraction des  backlinks référencés par Alexa avec le petit blog de geektitude Insolite du Geek.

Sous FireBug, il suffit de sélectionner la première URL (1), le chemin Xpath s’affiche alors (2). Il nous suffit “Copier le chemin XPath” (3).

Nous obtenons le chemin XPath (2) suivant :  /html/body/div/div/div[3]/div/div/div/div/div/ol/li/div/p/a

Et voilà le plus dur est fait ! Il suffit juste d’intégrer la requête XPath dans le script PHP suivant :

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
 
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
    <title>Scraping avec DOMDocument & DOMXpath</title>
</head>
<body>
<?php
// Alexa Sites Linking to Insolite-du-Geek
$url = 'http://www.alexa.com/site/linksin;0/www.insolite-du-geek.fr';
$queryXPath = '/html/body/div/div/div[3]/div/div/div/div/div/ol/li/div/p/a';
 
$dom = new DOMDocument();
@$dom->loadHTMLFile($url);
$x = new DOMXPath($dom);
$nodeList = $x->query($queryXPath );
foreach ($nodeList as $node) 
	echo utf8_decode(urldecode($node->nodeValue))."<br/>";
?>
</body>
</html>

7 lignes de code PHP pour réaliser un scraping de page HTML.

Remarques :

  1. Noter la présence du @ devant la fonction loadHTMLFile(). Cela évite d’avoir les messages de Warning PHP de défaut de structure DOM du document HTML.
  2. J’ai remarqué que dans certains cas Firebug, insére pour la balise <table> la balise <tbody>. Cette balise n’étant pas présente dans le document, il faut la supprimer de la requête XPath sinon aucun résultat ne sera obtenu.

Sources :

W3C Recommendation : XPath 1.0 standard

Plus d’informations sur XPath : Xpath Tutorial

Commentaires (16)

Catégorie: Scraping,Scripts PHP

ScrapeBox Url scraper et plus encore

Ecrit par Inglourious Seo le Mardi 22 décembre 2009 à 14:24 - Catégorie Backlinks,Scraping

Bonjour à tous !
Je me présente, Aldo du nouveau black hat seo blog Inglourious-seo.com, je m’incruste ici pour vous présenter un superbe outil et me faire un peu de promo, donc si vous avez aimé cet article, inscrivez-vous vite à mon flux rss et suivez-moi sur twitter si vous êtes intéressé par l’utilisation de soft de spam. ;)

Je pense que comme moi vous avez été nombreux à vous retrouver en galère d’un bon url harvester / scraper depuis que l’excellent scrape genious n’est plus maintenu à jour.

Je vous propose de découvrir un outil récent qui fait bien plus encore (manque que l’extraction des pr), mais les fonctions complémentaires sont bien plus intéressantes… :)

Pourquoi scraper des urls ?

url harvester

Il faut savoir que l’on a tous tendance à systématiquement laisser des empreintes lorsque l’on fait des sites et plus encore quand c’est opensource.

Dès lors, on peut retrouver sur le net, le même script de guestbook sur des milliers de sites web.

Trouvez son empreinte (footprint ou dork pour le hacking) et vous obtiendrez la liste de tous les sites utilisants le script de guestbook vulnérable au dofollow.

Un exemple dépassé : « leave a reply » « powered by wordress » pour trouver des formulaires de commentaires WordPress sur Google.

Comme vous le voyez dans la capture d’écran, quelques footprints par défaut, sont disponibles avec le scrapebox.

Recherche et vérification des proxies automatiques

proxies

Si vous scrapez plus de 1000 urls chez Google, votre ip sera bannie à coup sûre, il faut donc la renouveler pour obtenir des milliers d’urls.
Scrape box se charge de vous les fournir à la demande et de les vérifier en temps réel.

Organisez vos listes, triez-les et vérifiez leur pagerank

checker le pagerank

Ces fonctions non indispensables sont néanmoins extrêmement utiles, vous pouvez :

  • dédoublonner les urls
  • dédoublonner les domaines
  • Vérifier leur pagerank
  • exporter/importer les listes

Référencement : Un outil à backlinks en plus ?

Spam de referer

prstorm-mode1

Je n’oserai vous expliquer ce qu’est le spam de referer, vous trouverez plus d’informations à ce sujet ici , ça et

Spam auto de commentaires

auto wordpress commenter

Vous avez la possibilité de “randomiser” pseudo,  adresse mail,  site et les commentaires via content spinning.

Assurez-vous de l’indexation de vos splogs créés via LFE en quelques minutes grâce au ping

rss-submission

Trackback Spammer

trackback-speed

Bien qu’existante depuis plus d’un an, cette tactique est encore peu utilisée, envoyez un trackback aux bons endroits vous permet de gratter encore des liens dofollow (si vous savez où les trouver).

Plus de screenshots ?

scrapebox-interface

Rendez-vous sur le site de l’éditeur : http://www.scrapebox.com/screenshots et la page de vente est là : http://www.scrapebox.com/

Plus sur Scrapebox :

Commentaires (27)

Catégorie: Backlinks,Scraping

Extraire les urls des résultats de Google

Ecrit par admin le Dimanche 26 octobre 2008 à 15:12 - Catégorie Scraping,Scripts PHP

Comment extraire / parser les urls de résultats de recherche de Google ?

Cela fait plusieurs fois qu’on me demande comment extraire les urls de résultats de recherche de Google dans le but de les utiliser pour diverses raisons : recherche de pages de soumission d’annuaires, recherche des pages de blog avec commentaires, pages de forums, commande link ou site…

Voici donc un script php qui permet d’extraires ces urls de Google.

Différentes options sont proposées, comme le nombre de pages à extraire ou le moteur Google où se fera l’extraction ainsi que la langue du moteur.

Code source du script :

Voici le code du script php à copier/coller dans un fichier et à uploader sur votre serveur ou à utiliser en local :

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
<?php
//Script php : Extraction urls Résultats Google
// Copyrights 2008 Seoblackout.com
//http://www.seoblackout.com	
//Url script : http://www.seoblackout.com/2008/10/26/extraire-resultats-google/
 
@set_time_limit(0);
$useragent='Mozilla/5.0';
$regex='<h3 class="r">';
//extension et langue google
if ((isset($_POST['ext'])) && ($_POST['ext']!='')) 
{
	$ext=strip_tags($_POST['ext']);
	if ($ext=='fr') {
	$lang='fr';
	}
	else if ($ext=='com') {
	$lang='en';
	} 
	else if ($ext=='es') {
	$lang='es';
	}
	else if ($ext=='de') {
	$lang='de';
	}
	else if ($ext=='ca') {
	$lang='en';
	}
	else if ($ext=='ca2') {
	$ext='ca';
	$lang='fr';
	}
	else {
	$ext='fr';
	$lang='fr';
	}
}
else 
{
	// par défaut, on recherche sur google.fr et lang=fr
	$ext='fr';
	$lang='fr';
}
//nombre de page à extraire :
if ((is_numeric($_POST['pages'])) && ($_POST['pages']!='')) 
{
	$c=(strip_tags($_POST['pages'])-1);
}
else 
{
	//10 pages par défaut, on part de 0 donc 10 pages = 9
	$c=9;
}
 
if ((isset($_POST['kw'])) && ($_POST['kw']!='')) 
{
	$kw=trim(strip_tags($_POST['kw']));
	$pagenum = 0;			
	$googlefrurl = "http://www.google.".$ext."/search?hl=".$lang."&q=" . urlencode($kw) . "&start=$pagenum";
	$url_new = '';
 
	while($pagenum <= $c) 
	{
			if (function_exists('curl_init')) 
			{
				$ch = curl_init();
				curl_setopt($ch, CURLOPT_USERAGENT, $GLOBALS['useragent']);
				curl_setopt($ch, CURLOPT_URL,$googlefrurl);
				curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
				$result=curl_exec ($ch);
				curl_close ($ch);
			} 
			else 
			{
				$result= file_get_contents($googlefrurl);
			} 	
		preg_match_all('/'.$regex.'<a href="(.*?)"/si', $result, $matches);
			$i = 0;
			$n = count($matches[1]);
			$pagenum++;
			$pagenum2 = $pagenum.'0';
			$googlefrurl = "http://www.google.".$ext."/search?hl=".$lang."&q=" . urlencode($kw) . "&start=$pagenum2&safe=off&pwst=1&filter=0";
 
			while($i <= $n) 
			{
				$url_new1 = addslashes($matches[1][$i]);
				$url_new .= trim($matches[1][$i])."<br>";
				$i++;
				flush();
			}
	}
	$url_new .= '';				
}
?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
<title>Extraction Urls résultats Google</title>
</head>
<body>
<h1>Extraction Urls résultats Google</h1>
<div>
<?php 
if ((isset($_POST['kw'])) && ($_POST['kw']!='')) {
	echo "<h3>Keyword : ",strip_tags($kw),"</h3>";
	echo "<h6>Google Results</h6>";
	echo str_replace('<br><br>','<br>',$url_new); 
}
?>
<form method="POST" action="<?php echo strip_tags($_SERVER['REQUEST_URI']) ;?>">
<p>Saisir vos mots-clés :</p>
<input name="kw" type="text" size="100" value="<?php if (isset($_POST['kw'])) {echo strip_tags($kw);} ?>">
<p>Nombre de pages à extraire (optionel => 10 pages par défaut):</p>
<input name="pages" type="text" size="3" maxlength="3" value="<?php if (isset($_POST['pages'])) {echo strip_tags($_POST['pages']);} else {echo '10';} ?>">
<p>Moteur :</p>
<select name="ext">
<option value="fr"<?php if (($_POST['ext'])=='fr') {echo ' selected';} ?>>Google.fr (hl=fr)</option>
<option value="com"<?php if (($_POST['ext'])=='com') {echo ' selected';} ?>>Google.com (hl=en)</option>
<option value="es"<?php if (($_POST['ext'])=='es') {echo ' selected';} ?>>Google.es (hl=es)</option>
<option value="de"<?php if (($_POST['ext'])=='de') {echo ' selected';} ?>>Google.de (hl=de)</option>
<option value="ca"<?php if (($_POST['ext'])=='ca') {echo ' selected';} ?>>Google.ca (hl=en)</option>
<option value="ca2"<?php if (($_POST['ext'])=='ca2') {echo ' selected';} ?>>Google.ca (hl=fr)</option>
</select>
<p><input type="submit" value="Go" name="go">
<input type='button' value='Annuler' onclick='location.href="<?php echo strip_tags($_SERVER['REQUEST_URI']) ;?>"'></p>
</form>
<br />
<small>Script proposé par SEO BlackOut : <a href="http://www.seoblackout.com/">référencement</a></small>
</div>
</body>
</html>

Démo :

Dans la démo, le nombre de résultats extraits est limité à 3 pages uniquement !

http://www.seoblackout.com/scripts/extraire-urls-google.php

Commentaires (29)

Catégorie: Scraping,Scripts PHP

Dictionnaire des synonymes, des mots à la pelle

Ecrit par BlackMelvyn le Vendredi 11 juillet 2008 à 13:17 - Catégorie Génération de contenu,Scraping

Créer du contenu… le sujet a déjà été abordé maintes fois et la problématique reste bien présente….
Il y a toujours la possibilité d’utiliser des techniques de copieurs ou de faire du typosquatting etc…
Pas mal de solutions en réalité, plus ou moins belles, plus ou moins rapides et plus ou moins détectables.

Si l’on pense un peu au typosquatting, on en arrive rapidement à trouver une alternative à la génération de fautes d’orthographe : les synonymes.
En effet, il suffit de remplacer certains mots par leur synonyme et ainsi passer à travers le filtre anti duplicate content de nos amis les moteurs ;)
Le contenu, si vous travaillez bien, peut être très agréable pour vos visiteurs et ne perdra aucune pertinence quant à l’information que vous éditez…
La question principale est « Où trouver suffisamment de synonymes pour ça ? »

Dictionnaire des synonymes, des mots à la pelle

Commentaires (47)

Catégorie: Génération de contenu,Scraping

Scraper Google

Ecrit par admin le Jeudi 18 octobre 2007 à 17:38 - Catégorie Génération de contenu,Google,Scraping

Il arrive parfois en faisant une recherche sur Google de ne pas pouvoir accéder aux résultats de la recherche et de recevoir le message suivant de Google :

Désolés…
… nous ne pouvons pas traiter votre requête pour le moment. Un virus informatique ou un spyware (logiciel espion) nous envoie des requêtes automatiques, et il semble que votre ordinateur ou votre réseau soit infecté.

google erreur

Par exemple, essayez une recherche sur forums topics ou powered by phpbb, vous obtiendrez à tous les coups ce message au bout d’une dizaine de pages de résultats, bien sûr on clique sur page 2, page 3…

Pour pallier à ça, il suffit d’interroger google labs project Google recherche accessible et là vous n’aurez plus ce message de Google.

Très utile pour les scrapers de contenu ou pour ceux qui font des requêtes sensibles sur google comme la recherche de mots de passe…

Définition de scraper : Récupérer le contenu d’une page web en vue de réutiliser ce contenu sur son propre site. Le but est d’obtenir du contenu sans efforts, la plupart du temps de façon automatique. Cela permet au scraper de générer des milliers de pages sur des thématiques ciblées. Sur ces pages ainsi générées, le scraper va ajouter des Adsenses ou des liens d’affiliation afin de gagner de l’argent facilement.

Commentaires (6)

Catégorie: Génération de contenu,Google,Scraping



SEO BLACKOUT

Site web dédié aux techniques de référencement et de positionnement de sites web sur Google.

Certaines parties du site sont en accès restreint, ces espaces sont réservés à la SEO Black Hat Team.


Don't Be Evil !