برای بعضی مدیران سایت ربات گوگل زیاد به سراغ سایت آن ها می آید.(و این باعث مصرف پهنای باند می شود). ولی برای بعضی ها خیلی دیر این کار را انجام می دهد. بعضی ها هم نگران این هستند که سایتشان توسط گوگل پیدا نشود و در نتایج قرار نگیرد.
در حال حاظر گوگل در بعضی مواقع سایت جدید شما را مرور می کند. و در زمانی که سایت شما به طور منظم بروز رسانی شود سریعتر به سایت شما سر میزند. ولی شما می توانید فعالیت ربات گوگل را کنترل کنید.
برای این که بتوانید ربات گوگل را کنترل کنید می توانید از robots.txt استفاده کنید. این فایل با فرمت ASCII که در شاخه روت سایت خود قرار می دهید. برای مثال، اگر آدرس شما http://www.domain.com است ، فایل باید در این مسیر قابل مشاهد باشد. http://www.domain.com/robots.txt ، شما می توانید از این فایل برای کنترل ایندکس تصاویر و غیره استفاده کنید. شما می توانید با استفاده از این فایل یک یا چند شاخه را از دسترسی ربات ها محدود کنید. کافیست در خط اول نام ربات را وارد کرده و در خط بعد شاخه ها را وارد کنید.
این فایل نمونه robots.txt تمامی ربات ها را برای دسترسی به شاخه تصاویر و کد Perl و ربات گوگل را از دسترسی به شاخه و آدرس copyright مسدود می کند.
User-agent: *
Disallow: /images/
Disallow: /cgi-bin/
User-agent: Googlebot
Disallow: /copyright/
Disallow: /content/copyright-notice.html
برای کنترل کردن میزان رجوع ربات های گوگل، باید در Google Webmaster Tools عضو شوید (که آموزش آن را در آینده به صورت مفصل خواهم داد) و در آن جا میزان مراجعه ربات گوگل را مشخص کنید.
باید این را مورد نظر داشته باشید که هیچ کدام از این متد ها ۱۰۰% نیستند. برای سوپاپ اطمینان می تونیم از کد های متا استفاده کنیم. مثلا با کد زیر به گوگل میگیم که این سایت را ایندکس نکند:
<meta name=“robots” content=“NOINDEX”>
توسط کد زیر به گوگل می فهمانیم که این سایت را دنبال نکن:
<meta name=“robots” content=“NOFOLLOW”>
گوگل این ۲ متا را متوجه می شود ولی موتور های جستجوی دیگر این کار را امکان دارد انجام ندهند. برای همین بهترین گزینه همان robots.txt است.
ممنون خیلی مفید بود