فایل Robots.txt چیست

نمی دانم نام فایل Robots.txt را شنیده اید یا نه ! اما همین را بگویم که ساخت فایل Robot.txt و آشنایی با دستورات آن برای مدیریت هر چه بهتر ربات های خزنده، امری ضروری است. پس تا پایان این مقاله با من همراه باشید.

بسیار خوب قبل از هر چیز، خیلی ساده می خواهم به شما بگویم که فایل Robots.txt چیست و چه کاربردی دارد؟

فایل Robots.txt چیست و چه کاربردی دارد؟

همه ما می دانیم که ربات های خزنده موتورهای جست و جو دائماً در حال گشت و گذار در میان صفحات وب هستند و با الگوریتم هایی که برای آن ها تعریف شده، مدام در حال Crawl و یافتن صفحات جدید و بررسی صفحات قدیمی تر در فضای وب هستند.

امّا سوال اینجاست؟ ما چطور می توانیم افسار این ربات ها را برای خزش و بررسی وبسایت خودمان به دست بگیریم؟ چطور می توانیم ربات های خزنده را مدیریت کنیم و با ایجاد دستور العمل هایی برای آن ها، رفتارشان را برای بررسی صفحات وبسایت خودمان بهتر کنترل کنیم. البته در دوره جامع آموزش سئو قسمتی را به طور کامل در مورد نحوه کار با فایل Robots.txt به صورت ویدیویی آموزش داده ام که می توانید مراجعه کنید.

مثلاً فرض کنید که ما نمی خواهیم، خزنده های گوگل به صفحه و یا صفحاتی از وبسایت ما سر بزنند. یا به عنوان مثال مجوّز خزش و بررسی صفحاتی از وبسایت خودمان را به خزنده ها اعلام کنیم. برای ارسال چنین سیگنال هایی به سمت ربات های خزنده، از ایجاد دستوراتی داخل فایل Robots.txt استفاده می کنیم.

در کل ما باید در فرآیند سئو و بهینه سازی وبسایت خودمان، دائماً به این موضوع فکر کنیم که چطور می توانیم بیشتر و بهتر، مدیریت ربات های گوگل را به دست بگیریم و از سرکشی ها و خزش بی مورد ربات ها به مکان های مختلف وبسایتِ ما که اصلاً قصد نداریم در گوگل نمایش داده شوند، جلوگیری کنیم.

بسیار خوب امیدوارم توانسته باشم که به زبان ساده بیان کنم فایل Robot.txt چیست و چه کاربردی دارد.

چرا به ساخت فایل robots.txt نیاز داریم؟

هدف اصلی ما از ساخت فایل Robots.txt این است که بتوانیم رفتار خزنده ها و ربات هایی که به وبسایت ما سر می زنند را کنترل کنیم. برای همین نیاز به یک فایل با پسوند txt داریم که به زبان ربات با خودشان صحبت کنیم بنابراین نیاز به دانستن دستوراتی هست که به کمک آن دستورات می توانیم با زبان ربات ها صحبت کنیم.

امّا دلایل اصلی برای اینکه ما نیاز به ساخت فایل Robots.txt داریم از این قرار است:

  • جلوگیری از Crawl یا خزش یک صفحه یا پوشه از وبسایت توسط ربات ها
  • مدیریت نمایش صفحه یا صفحاتی از وبسایت در نتایج جست و جو
  • کنترل ترافیک ربات هایی که به وبسایت ما سر می زنند
  • مدیریت بهتر بودجه خزش یا Crawl Budjet
  • جلوگیری از ایندکس محتوای بی کیفیت
  • جلوگیری از ایجاد صفحات با محتوای تکراری

با ربات های گوگل آشنا شویم

موتور جست و جوی گوگل، ربات ها یا خزنده هایی دارد که به صورت روزانه به هزاران صفحه وب سر می زنند و محتوای آن صفحات را خزش و اندکس می کنند. بد نیست که با مهم ترین ربات های گوگل آشنا شوید تا بدانید دقیقاً گوگل به کمک چه ربات هایی شروع به Crawl وبسایت شما می کند.

  • Googlebot : این ربات گوگل صفحات محتلف وبسایت را خزش و ایندکس می کند
  • Adsense : بررسی صفحات با هدف نمایش تبلیغات
  • Google Image : رباتی که ماموریت بررسی تصاویر را بر عهده دارد
  • Google video : رباتی که ویدیوهای داخل صفحات وب را بررسی می کند
  • GoogleNews : رباتی برای خزش و ایندکس صفحات وبسایت های خبری

آشنایی با بودجه خزش یا Crawl budget

بسیار خوب تا به اینجا با انواع ربات ها و خزنده های گوگل آشنا شدیم و فهمیدیم که این ربات ها به صورت روزانه صفحات وبسایت ما را بررسی می کنند و هر کدام با توجه به وظیفه ای که بر عهده دارند، محتوای صفحات وب را خزش و ایندکس می کنند.

امّا در این میان مفهومی به نام بودجه خزش یا Crawl budget وجود دارد که به تعداد صفحاتی از وبسایت شما گفته می شود که ربات Googlebot خزش و واکاوی می کند که این بودجه خزش بر اساس حجم صفحات وبسایت شما، ریتم تولید محتوا، زمان به روزرسانی محتوای سایت، تعداد . کیفیت بک لینک های هدایت شده به سمت صفحات وبسایت شما و… سنجیده می شود.

دستورات Robots.txt برای مدیریت بهتر ربات ها

در بین همه دستوراتی که برای ربات های خزنده تعریف می شود ۴ دستور از همه مهم تر است که به تعریف هر کدام خواهیم پرداخت:

  • User-agent : برای تعیین نام رباتی که دستورات را برای مدیریت آن می نویسیم.
  • Disallow : پوشه ها و یا صفحاتی که ربات مجوز دسترسی به آن را ندارد.
  • Allow : مواردی که ربات اجازه دارد بررسی کند.
  • Sitemap: برای اینکه نقشه سایت یا sitemap وبسایت خود را به ربات ها معرفی کنید.

دستور Allow راهی برای مجوّز دسترسی ربات ها

در مقابل دستوری داریم که به ربات های گوگل مجوز دسترسی به پوشه و یا فایل هایی را که ما می خواهیم برای گوگل صادر خواهیم کرد.

برای اینکه نحوه کارکرد این دستور در فایل Robots.txt را بهتر متوجه شوید،برای شما یک مثال می زنم.

فرض کنید ما یک پوشه در root هاست خود داریم به نام “Picture”  و به کمک دستور Disallow دسترسی همه ربات ها را به این پوشه بسته ایم.

 

 

User-agent:*

Disallow: /picture

 

حال می خواهیم فقط دسترسی ربات ها را برای ۲ تصویر باز کنیم. یعنی به ربات ها اجازه دهیم تا فقط به دو تصویر Pic1.jpeg و Pic2.jpeg دسترسی داشته باشند.

 

User-agent:*

Disallow: /photos

Allow: / picture / Pic1.jpeg

Allow: / picture / Pic2.jpeg

 

دستور فوق به همه ربات ها اعلام می کند که مجوز دسترسی به هیچ یک از تصاویر داخل پوشه Picture را ندارند به جز دو تصویر Pic1.jpeg و Pic2.jpeg که می توانند بررسی کنند.

لطفا جهت حمایت از ما ادامه مقاله "فایل Robots.txt چیست" را در سایت مارکترها دنبال کنید.