فایل Robotos.txt

فایل Robots.txt  لیستی از پوشه ها و فایل هایی است که مالک وب سایت قصد دارد این پوشه ها و فایل ها توسط روبوت های موتورهای جستجوگر ایندکس نشوند و در نتیجه در نتایج موتورهای جستجو نمایش داده نشون داده نشوند. 

روبوت چیست ؟ روبوت نرم افزاری است که موتورهای جستجو با استفاده از آن صفحات وب را درون پایگاه دادههای خود ایندکس میکنند . این روبوت اینترنت را با استفاده از لینک ها جستجو کرده و همه یافته های ممکن را ایندکس میکنند

چگونه به این فایل دسترسی پیدا کنیم ؟ کافی است درون موتور جستجوگر خود آدرس سایت را به همراه مسیر robots.txt وارد کنید . مثلاً برای دسترسی به فایل robots.txt موجود در سایت توشیبا آدرس زیر را باز میکنیم :  http://www.toshiba.com/robots.txt

 

فایل robots.txt معمولاً به چهار بخش تقسیم میشود :

۱. پوشه ها

۲. فایلها

۳. مسیرها (URLهای کامل)

۴. مسیرها (URLهای نسبی )

URL های کامل یا همان مطلق آدرسهایی هستند که شما میتوانید آنها را درون مرورگر کپی و قرار دهید .

هر وب سرور بایستی دارای یک فایل robots.txt باشد که معمولاً در مسیر روت وب سرور قرار میگیرند . در غیر اینصورت به احتمال زیاد روبوت ها کل سایت شامل پایگاه های داده ، فایلها و همگی را ایندکس خواهند کرد . اینها بخشهایی هستند که مدیران شبکه تمایلی به نمایش آنها در موتورهای جستجو ندارند . پوشه روت مسیری است که وب سرور از آن برای نصب نرم افزارهای وب سرور استفاده خواهد کرد .

در ویندوز این مسر پوشه :

C:/inetpub/wwwroot

و

در لینوکس این مسیر معمولاً /var/www/خواهد بود .

هیچ قانونی شما را از ایجاد یک روبوت برای پدید آوردن قانون مخالف یعنی مرور فایلهای robots وجود ندارد . یک چنین ابزاری برای بدست استخراج اطلاعات از فایلهای robots.txt میتواند کارساز و در زمان شما صرفه جویی کند . در غیر اینصورت میتوان به همان شیوه قدیمی فایل robots.txt را مرورگر کرد .

برای ایجاد فایل Robots.txt ابتدا شما باید به هاست دسترسی داشته باشید و این فایل را در ریشه اصلی آن کپی کنید. اگر به هر دلیلی شما به هاست دسترسی نداشته باشید می‌توانید با قرار دادن تگ‌های متا در هدر صفحه دسترسی ربات‌های گوگل را به آن محدود نمایید

برای ممانعت از ورود تمامی روبات‌های اینترنتی به صفحه از تگ: 

<meta name=”robots” content=”noindex” />

و برای محدود کردن روبات‌های گوگل از تگ:

<meta name=”googlebot” content=”noindex” />

نمونه robot.txt گوگل :

https://www.google.com/robots.txt

مثال از دستور ها :

دستور زیر به این معنی است که هیچ‌یک از موتورهای جستجو مجاز به خزیدن سایت شما نباشند :

*:User-agent

/:Disallow

 دستور بالا می‌گویید همه ربات‌های موتورهای جستجو به کلیه آدرس‌های سایت دسترسی دارند :

*:User-agent

:Disallow

 

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *