نقش اصلی فایل Robots.txt در محدود کردن دسترسی رباتهای موتور جستجوی گوگل به محتوای سایت شما است. تمامی این رباتها بهصورت خودکار عمل میکنند بهطوریکه قبل از ورود به هر سایت یا صفحهای از وجود فایل Robots.txt بر روی آن و محدود نبودن دسترسی محتویات اطمینان حاصل میکنند. تمام رباتهای استاندارد در وب به قوانین و محدودیتها پایبند بوده و صفحات شمارا بازدید و ایندکس نخواهند کرد ولی ناگفته نماند که بعضی از رباتها توجهی به این فایل ندارند. برای مثال رباتهای Email Harvesters و Spambots Malware یا باتهایی که امنیت سایت شمارا ارزیابی میکنند، امکان دارد هرگز این دستورات را دنبال نکنند و حتی کار خود را از بخشهایی از سایت آغاز کنند که اجازهٔ دسترسی به آن صفحات را ندارند.
در حقیقت با به کار بردن فایل Robots.txt این امکان برای شما به وجود میآید که صفحات سایت را تنها مختص کاربران خود طراحی کنید و ترسی از محتوای تکراری، وجود لینکهای بسیار آن در صفحه و تأثیر منفی آن بر سئو سایت نداشته باشید.هنگامیکه شما قصد دارید رباتهای گوگل را محدود کنید از فایل Robots.txt استفاده میکنید ولی اگر تمام صفحات سایت قابلیت ایندکس توسط گوگل را داشته باشند نیازی به این فایل نخواهید داشت.
برای ایجاد فایل Robots.txt ابتدا شما باید به هاست دسترسی داشته باشید و این فایل را در ریشه اصلی آن کپی کنید. اگر به هر دلیلی شما به هاست دسترسی نداشته باشید میتوانید با قرار دادن تگهای متا در هدر صفحه دسترسی رباتهای گوگل را به آن محدود نمایید.
برای ممانعت از ورود تمامی روباتهای اینترنتی به صفحه از تگ:
<meta name=”robots” content=”noindex” />
و برای محدود کردن روباتهای گوگل از تگ:
<meta name=”googlebot” content=”noindex” />
استفاده میکنیم. در صورت مشاهده این تگ در هدر یک صفحه گوگل بهطورکلی آن را از نتایج جستجوی خود خارج خواهد کرد.
آشنایی با دستورات فایل robots.txt و کاربرد آنها
فایل robots.txt سایت شما از دو فرمان کلی پیروی میکند که برای ربات گوگل GoogleBot یک دستور دیگر نیز اضافه میشود.با بهکارگیری این دو دستور، شما قادر خواهید بود قوانین مختلفی را راستای دسترسی رباتهای خزندهٔ موتورهای جستجوگر برای ورود به سایتتان وضع کنید. این قوانین عبارتاند از:
User-agent
این دستور برای هدفگیری یک ربات خاص بهکاربرده میشود. این دستور را میتوان به دو شکل در فایل robots.txt به کاربرد.اگر میخواهید به تمام رباتهای خزنده یک دستور را بدهید، فقط کافی است بعد از عبارت User-agent از علامت “*” استفاده کنید. مانند زیر:
* : User-agent
دستور بالا به این معنا است که “دستورات فایل، برای همه رباتهای جستجوگر یکسان عمل میکند”.
اما اگر میخواهید تنها به یک ربات خاص مانند ربات گوگل GoogleBot دستور خاصی را بدهید، دستور شما باید به شکل زیر نوشته شود:
* User-agent: Googlebot
کد بالا به این معنی است که “اجرای دستورات فایل، تنها برای ربات گوگل الزامی است”.
disallow
دستور Disallow به رباتها میگوید که چه فولدرهایی از سایت شمارا نباید بررسی کنند. در حقیقت این دستور، بیانگر آدرس صفحهای است که میخواهید از دید روباتها پنهان بماند.
برای مثال اگر مایل نیستید موتورهای جستجو، تصاویر سایت شمارا ایندکس کنند، میتوانید تمام تصاویر سایت را درون یک پوشه در هاستینگ خود قرار دهید و از دسترس موتورهای جستجو خارج سازید.فرض کنیم که تمام این تصاویر را به درون فولدر “Photos” منتقل کردهاید. برای آنکه به موتورهای جستجو بگویید که این تصاویر را ایندکس نکند، باید دستوری مانند زیر را بنویسید:
* :User-agent
Disallow: /photos
با واردکردن دو خط کد بالا در فایل robots.txt، به هیچیک از رباتهای جستجوگر اجازه ورود به فولدر تصاویر سایت را نمیدهد. در کد دستوری بالا، قسمت “User-agent: *” بیانگر این است که اجرای این دستور برای تمامی رباتهای جستجو ضروری است. قسمت “Disallow: /photos” میگوید که ربات، اجازه ورود یا ایندکس پوشه تصاویر سایت را ندارد.
Allow
موتور جستجوی گوگل چندین نوع روبات مخصوص به خود دارد که معروفترین آنها بانام Googlebot شناخته میشود و وظیفه بررسی و ایندکس صفحات وب را بر عهده دارد. این ربات نسبت به سایر رباتهای جستجوگر، دستورات بیشتری را متوجه میشود. علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به نام “Allow” را نیز درک میکند.
دستور Allow به شما امکان میدهد تا به ربات گوگل بگویید که اجازه مشاهده یک فایل، در فولدری که Disallowed شده را دارد. برای درک بهتر این دستور، اجازه بدهید که از مثال قبلی استفاده کنیم، بهتر نیست؟
در مثال قبل رشته کدی را قراردادیم که به رباتهای جستجو، اجازه دسترسی به تصاویر سایت را نمیداد. تمام تصاویر سایت را درون یک پوشه به نام Photos قراردادیم و با دستور زیر یک فایل robots.txt ایجاد کردیم:
* :User-agent
Disallow: /photos
حال تصور کنید درون این پوشهٔ ما که در هاستینگ سایت قرار دارد، تصویری به نام seo.png وجود دارد که میخواهیم Googlebot آن را ایندکس کند. با استفاده از دستور Allow میتوانیم به ربات گوگل بگوییم که این کار را انجام دهد:
- ۹۸/۱۰/۰۳