Internet: Création de fichier Robots.txt et son Importance

Si vous pensez que vous avez développé un vraiment grand mot clé-rich-unique-contenu entièrement optimisé de site Web pour les moteurs de recherche et un site attirant pour les visiteurs - qui est très bien, mais vous connaissez que vous manque quelque chose ? Un fichier robots.txt. Vous incluez il ? Par la façon dont vous savez quelle est l'importance d'un fichier robots.txt ?

Succès de grandes entreprises se situe en gardant leurs données confidentielles un secret, caché de tous. Ils renseignent le monde et faire quelque chose. Cela leur permet d'exécuter leur orientation future facilement et de changer les plans en fonction de la situation. Emploi du fichier robots.txt est le même. Il peut ou ne peut pas permettre à un moteur de recherche visiter certains ou la totalité de vos pages web. Bien entendu, un visiteur humain est libre de visiter ces pages. Cela étant, pour les moteurs de recherche votre site Web peut être différente de ce qu'un visiteur est de voir. Si vous pensez qu'un ou certains des fichiers et du pages ne sont pas assez bon pour être visité par un moteur de recherche particulier ou moteurs, vous pouvez le faire. Bien que ce n'est pas recommandé - votre site Web convient de manière il ne devrait pas timide éloigner les moteurs de recherche. Néanmoins son toujours mieux connaître les bases de l'écriture de fichier robots.txt. Il vous aidera. Nous discuterons plus loin vers le bas - fichier robots.txt est important. Je répète encore une fois - Don't make pages vous pensez que les moteurs de recherche devraient être masquée. Si n'importe quel moteur de recherche, pensez que vous êtes à quelques astuces, il peut panelize votre site ne causant un-grade - dans le pire des cas à jamais !

Chaque moteur de recherche a un "robot" (un programme de logiciel) qui fait le travail de visiter un site Web. Leur but est de « savoir » du site Web, ce qu'elle est, de recueillir toutes les informations à ce sujet etc.. Robots de moteur de recherche recueillir cette information et ramener à leurs bases de données pour leur montrer dans leurs résultats de recherche. Donc, si votre site n'est pas là dans leur base de données jamais s'apparaître dans les résultats de la recherche.

Les Robots Web sont parfois appelés moteurs de recherche Web ou araignées. Par conséquent, le processus d'un robot visitant votre site Web est appelé « Recherche » ou « Crawling ». Quand quelqu'un dit "les moteurs de recherche ont spidered mon site Web," cela signifie que les robots de moteur de recherche ont visité leur site Web. Ce robot est connu par un nom et a une adresse IP indépendante. Cette adresse IP est sans importance pour nous, mais sachant leurs noms aidera puisque ce nom sera utilisé lorsque nous créons un fichier robots.txt. C'est pourquoi le fichier s'appelle « robots.txt. » Ci-dessous est la liste des robots de certains des moteurs de recherche très populaires :

Moteur de recherche - Robot
Alexa.com - ia_archiver
AltaVista.com - Scooter (racheté par Yahoo)
UK.AltaVista.com - AltaVista-Intranet (racheté par Yahoo)
Débouché - FAST-WebCrawler (racheté par Yahoo)
Go.com - ArchitextSpider
Euroseek.net - Arachnoidea
Gendoor.com (moteur de recherche généalogique) - GenCrawler
Google.com - Googlebot (http://www.google.com/bot.html)
HotBot.com (utilise le robot de Inktomi) - déguster
Inktomi.com Slurp-(slurp@inktomi.com) (Bought par Yahoo)
Infoseek.com - UltraSeek
LookSmart.com - MantraAgent
Lycos.com - Lycos_Spider_(T-Rex)
NorthernLight.com - Gulliver
Nationaldirectory.com - NationalDirectory-SuperSpider
UKSearcher.co.uk - UK Searcher Spider

L'écriture Robots.txt :

Let's apprendre à écrire des commandes de robots. Notez qu'il existe deux façons d'écrire la commande de robots. L'un est d'inclure toutes les commandes dans un fichier texte appelé « robots.txt » et une autre est d'écrire une commande de robots dans la balise meta.

Nous en saurons les deux façons d'écrire la commande de robots.

Commande de robots de l'écriture dans la balise Meta :

Il y a des 4 choses, vous pouvez indiquer un robot de moteur de recherche lorsqu'il demande (visites) votre page :

1) N'indexe pas cette page - les moteurs de recherche n'indexera pas la page.
2) Ne pas suivre que tous les liens sur cette page - la volonté de moteurs de recherche pas suivant les liens inclus dans la page, c'est-à-dire qu'ils n'indexera pas n'importe quelle page que les liens de cette page pour.
3) N'indice cette page - la page d'index seront les moteurs de recherche.
4) Suivre les liens - les moteurs de recherche indexera les pages que les liens de cette page pour.

Notez que « index » est différent de celui de « spider ». Une recherche du moteur araignées premières une page et puis elle indexe. L'indexation est de donner une certaine importance à la page sur la base de son contenu, des informations, des balises meta, la popularité de lien à l'aide du mot-clé recherché. Tout cela est décidé au moment de l'exécution. Quand vous dites des moteurs de recherche pas d'indice une page, cela signifie qu'ils savent que « certains » page existe mais ne figurent pas à eux. C'est une page non-index sera jamais affichée dans leurs résultats de recherche. Cela ne signifie en aucun cas pas une page non-index n'obtiendrez pas de visiteurs, il pourrait s'avérer visiteurs indirectement d'une page qui relie à elle. Oui, aucun visiteur directe par les moteurs de recherche.

Supposons que vous souhaitez que les moteurs de recherche à l'index et également index (suivre) ses pages liées sont ensuite la commande suivante dans la balise Meta :

meta name = « robots » content = « index, suivre »

Supposons que vous vouliez les moteurs de recherche pour indexer une page, mais pas suivre ses liens, puis incluez la commande suivante dans la balise Meta :

meta name = « robots » content = « index, nofollow »

Supposons que vous ne souhaitez pas que les moteurs de recherche pour indexer une page mais suivre ses liens puis incluez la commande suivante dans la balise Meta :

meta name = « robots » content = "noindex, suivre"

Supposons que vous ne veulent les moteurs de recherche soit index ou suivre les liens d'une page donnée puis incluez la commande suivante dans la balise Meta :

meta name = « robots » content = « noindex, nofollow »

Note :
Google a fait une « Cached » de chaque fichier il araignées. C'est un coup de petit composant logiciel enfichable de la page. Vous voulez cesser de Google de le faire ? Inclure la balise Meta suivante :

meta name = « robots » content = « noindex, nofollow, noarchive »

Comme toute balise meta les balises écrits ci-dessus doivent être placés dans la section HEAD d'une page HTML.

Création de fichier robots.txt :

Un fichier robots.txt est un fichier indépendant et doit être écrit dans un éditeur de texte comme le bloc-notes. N'utilisez pas de MS-Word ou tout autre éditeur de texte pour créer robots.txt. La ligne de fond, c'est que ce fichier doit avoir l'extension « .txt » else, il sera inutile.

Commençons. Ouvrez le bloc-notes (il s'agit libre avec Microsoft Windows), puis enregistrez le fichier avec le nom « robots.txt ». Assurez-vous que l'extension est .txt.

En passant, a fait remarquer que nous n'a pas utilisé le nom d'un robot dans la balise meta ! Ce qu'il indique ? Simple - à l'aide de meta vous diriger tous les moteurs de recherche à faire quelque chose ou de ne pas faire quelque chose sur une page. Vous n'avez pas de contrôle sur n'importe quel moteur d'un recherche. La solution est robots.txt.

Il peut toujours arriver que vous ne voulez pas un moteur de recherche particulière à une page d'index pour certaines raisons. Dans cette affaire à l'aide d'un fichier robots.txt aidera. Même si je ne recommandons pas une telle chose. Les moteurs de recherche vous permettre de trafic, pourquoi le haïr. Les empêcher de faire leur travail et ils vous haïssent. Je répète encore une fois garder vos pages à puce pour les moteurs de recherche et leur souhaiter la bienvenue. Très bien, alors pourquoi prendre la peine d'apprendre robots.txt ? Pourquoi devez vous inclure un fichier robots.txt du tout ?

Let's Supposons que le vôtre est un site dynamique de la base de données contenant des informations de vos abonnés du bulletin, clients, leur adresse, numéros de téléphone etc.. Tous ces renseignements confidentiels sont gardé dans un répertoire distinct, appelé « admin ». (Il est recommandé de garder ces informations dans un répertoire séparé. Données de manipulation seront plus faciles pour vous et seront donc faciles à garder à distance les moteurs de recherche. Nous ne saurons juste comment.) Je suis certain que vous ne souhaiteriez toute personne non autorisée à visiter cette région seuls les moteurs de recherche. Il n'aide pas les moteurs de recherche soit puisqu'ils n'ont rien à voir avec les données ou les fichiers il. Here comes the role of un fichier robots.txt. Écrivez le texte suivant dans le fichier robots.txt: (ignorer la ligne horizontale - ils sont inclus uniquement pour séparer les commandes du reste du texte).

---------------------------

User-agent: *
DISALLOW : /admin/

---------------------------

Cela ne permet pas des araignées indexer quoi que ce soit dans le répertoire admin comprenant également des sous-répertoires, le cas échéant.

La marque de l'astérisque (*) indique tous les moteurs de recherche. Comment cesser un moteur de recherche particulière d'exploration vos fichiers ou répertoire ?

Supposons que vous souhaitez arrêter Excite d'exploration ce répertoire :

-----------------------------

User-agent : ArchitextSpider
DISALLOW : /admin/

------------------------------

Supposons que vous souhaitez arrêter Excite et Google de l'exploration de ce répertoire :

------------------------------

User-agent : ArchitextSpider
DISALLOW : /admin/

User-agent : Googlebot
DISALLOW : /admin/

------------------------------

Les fichiers ne sont pas différents. Supposons que vous vouliez un datafile.html de fichier ne pas à être spidered par Excite :

------------------------------

User-Agent : ArchitextSpider
DISALLOW : /datafile.html

-------------------------------

De même, vous ne voulez pas qu'il soit spidered par Google trop :

-------------------------------

User-agent : ArchitextSpider
DISALLOW : /datafile.html

User-agent : Googlebot
DISALLOW : /datafile.html

-------------------------------

Supposons que vous vouliez deux fichiers datafile1.html et datafile2.html ne pas à être spidered par Excite :

-------------------------------

User-Agent : ArchitextSpider
DISALLOW : /datafile1.html
DISALLOW : /datafile2.html

-------------------------------

Vous pouvez deviner que signifie ?

-------------------------------

User-agent : ArchitextSpider
DISALLOW : /datafile1.html
DISALLOW : /datafile2.html

User-agent : Googlebot
DISALLOW : /datafile1.html

--------------------------------

Excite seront pas araignée datafile1.html et datafile2.html, mais Google pas araignée datafile1.html seulement. Elle sera datafile2.html de l'araignée et le reste des fichiers dans le répertoire.

Imaginez que vous avez un fichier conservé dans un sous-répertoire que vous ne voudriez pas être spidered. Que fais-tu? Permet de supposer que le sous-répertoire est « officiel » et le fichier « confidential.html ».

--------------------------------

User-agent: *
DISALLOW : /official/confidential.html

--------------------------------

J'espère que cela suffit. Il faut évidemment un peu de pratique. Si la syntaxe de votre fichier robots.txt n'est pas écrit correctement, les moteurs de recherche ignorera cette commande donnée. Avant de télécharger le fichier robots.txt double vérifier toute erreur possible. Vous devez télécharger le fichier robots.txt dans le répertoire racine de votre serveur. Le look de moteurs de recherche de fichier robots.txt que dans le répertoire racine autre ils totalement ignorent. Surtout le répertoire racine est le répertoire où la page d'index est conservée. Dans ce cas, gardez le fichier robots.txt dans le même répertoire que le fichier d'index.

Note : Vous devriez être capable de voir le fichier robots.txt si vous tapez la commande suivante dans la barre d'adresse de votre navigateur Internet.

http://www.your-domain.com/robots.txt

(Si votre domaine est le nom de domaine de votre site Web. Si le vôtre n'est pas un site .com, remplacez .com avec l'extension respectif votre site Web. Pour e.g..net, .us, .org, etc..)

Vous devez vous demander s'il faut utiliser la balise Meta ou Robots.txt ou laquelle de ces est plus efficace !

Un robots.txt correctement écrit est plus efficace que la balise meta. Tous robots.txt de soutien des moteurs de recherche, mais pas tous de recherche commande de robots moteurs soutien écrit dans les balises meta. Je recommande que vous utilisez tous les deux pour que vous recouvrez votre site dans les deux scénarios.

Une dernière chose - vous pouvez regarder dans vos fichiers de journaux de serveur web pour voir quel moteur de recherche robots ont visité. Ils sont tous quittent les signatures qui peuvent être détectés. Ces signatures ne sont rien, mais le nom de leurs robots. Par exemple si Google a spidered votre site il laissera un fichier journal appelé Googlebot. C'est comment vous savez qui moteur de recherche a spidered vos pages et quand !

--------------------------------
Cet article peut être solliciter ou publié en ligne ou hors ligne pour a fourni gratuitement, le site Web, http://www.searchengineoptimizationpromotion.com, est affiché avec elle.
--------------------------------

Internet

Monday, December 5, 2011

Création de fichier Robots.txt et son Importance

No comments:

Post a Comment