ساخت فایل robots.txt

ساخت فایل robots.txt برای افزایش سرعت ایندکس

ساخت فایل robots.txt برای افزایش سرعت ایندکس چقدر تاثیر گذار است؟ هر سایت نیاز به فایل متنی robots.txt دارد تا به گوگل بفهماند که کدام یک از محتوای سایت شما جهت کسب جایگاه اول گوگل اهمیت دارد و کدام یک از صفحات را از ایندکس کردن جلوگیری کند.

افزایش سرعت ایندکس محتوای سایت سبب بهبود رتبه گوگل خواهد شد لذا داشتن این فایل در هر سایت به صورت اختصاصی الزامی است که در ادامه با این موضوع بیشتر آشنا خواهید شد.

فایل robots.txt چیست؟

فایل robots.txt یک فایل متنی است که به‌وسیله آن خط‌مشی برای ربات موتورهای جستجو تعیین می‌کنیم که چه آدرس‌هایی را خزش و ایندکس کنند و چه آدرس‌هایی را خزش و ایندکس نکنند.
موتورهای جستجو با خزیدن در میان صفحات سایت شما، آن‌ها را ایندکس می‌کند و با دنبال کردن لینک‌ها وارد صفحات یا سایت‌های دیگر می‌شوند. هر ربات استانداردی قبل از خزیدن صفحه‌ای از یک دامنه، ابتدا فایل robots.txt را می‌خواند و بر اساس دستورات موجود در این فایل، اجازه خزیدن را پیدا می‌کند تا بتواند ایندکس را انجام دهد. پس باید دقت داشته باشید که چه صفحاتی را برای خزیدن منع می‌کنید چراکه اگر به‌اشتباه صفحات مهم خود را مخصوصاً صفحات فرود یا همان لندینگ پیج را از طریق این فایل برای ربات‌ها مسدود کنید ضربه بدی به سئو سایت و در نتیجه تجارت آنلاین خود وارد می‌کنید.

جالب است بدانید

فایل robots.txt نیز برای ربات‌ها نوشته می‌شود ولی جالب آن است که بدانید چنین فایلی برای انسان‌ها هم داریم، فایلی با نام humans.txt که ماهیت آن‌یک پیام برای کاربران و بازدیدکنندگان سایت شما است که اصولاً به زبان انگلیسی نوشته می‌شود.

نمونه فایل robots.txt و فایل humans.txt برای سایت گوگل:

https://www.google.com/humans.txt
https://www.google.com/robots.txt

فایل robots.txt را چگونه بسازیم و در کجا قرار دهیم؟

در قسمت زیر یک فایل دانلود قرار دادیم که نمونه آماده فایل robots.txt را آماده کردیم و می توانید دانلود کنید و همچنین فیلم آموزشی آن را نیز برایتان قرار دادیم که بعد از ساخت فایل robots.txt با فرمت ASCII یا UTF-8 باید این فایل حتماً در آدرس http://domain.com/robots.txt مورد دسترسی ربات‌ها قرار گیرد. به جای عبارت http://domain.com باید اسم سایت خودتان را جایگزین کنید.

نمونه دستورات در فایل robots.txt

Disallow: مقابل این کیبورد دایرکتوری را درج می‌کنید که قصد ندارید ربات آن را ایندکس کند. بعد از عبارت User-agent می‌توانید در هرچند بار که لازم باشد از Disallow استفاده نمایید. به این نکته مهم توجه کنید که ربات موتورهای جستجو به حروف کوچک و بزرگ در دایرکتوری‌ها حساس هستند.

Allow برعکس دستور Disallow است هرچند دستور Allow غیر رسمی است ولی توسط اکثر ربات‌های معروف شناخته‌ شده است.

آشنایی با نمونه دستورات در فایل robots.txt

مثال زیر در خط اول شامل همه ربات موتورهای جستجو می‌شود چراکه با علامت ستاره درج‌شده است و خط دوم با / درج شده و شامل کل آدرس‌های یک دامنه می‌شود، بنابراین دستور زیر به این معنی است که هیچ‌یک از موتورهای جستجو مجاز به خزیدن سایت شما نباشند.

User-agent: *
Disallow: /

دستور زیر برعکس دستور بالا می‌گویید همه ربات‌های موتورهای جستجو به کلیه آدرس‌های سایت دسترسی دارند.

User-agent: *
Disallow:

فایل Robots.txt

دستور زیر که در بسیاری از سایت‌های وردپرس استفاده می‌شود به این معناست که تمام ربات‌ها به پوشه ادمین wp-admin دسترسی نداشته باشند ولی به فایل admin-ajax.php که در این پوشه هست دسترسی پیدا کنند. البته بودن چنین دستوراتی در فایل robots.txt ضرری هم ندارد هر چند ربات توانایی وارد شدن به محیط ادمین وردپرس را ندارد ولی خطا در کدنویسی هم از سمت گوگل و هم از سمت ما طبیعتا امکان‌پذیر است. اگر توجه کرده باشید ما در این مقال یک بار از کیورد User-agent استفاده کردیم و سپس ۲ خط دستور وارد کردیم، شما می‌توانید به تعداد دلخواه دستورات لازم را در هر خط وارد نمایید.

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

افزایش سرعت ایندکس

قسمتی در پنل سرچ کنسول وجود دارد که با استفاده از آن می‌توانید به گوگل اعلام کنید که با حداکثر توان ممکن، وب سایت شما را Crawl کند. برای این کار وارد Site Setting شده و از بخش Crawl rate گزینه Limit Google’s maximum crawl rate را انتخاب کرده و مقدار آن را High قرار دهید. البته دقت کنید که استفاده از این مورد از سوی خود گوگل توصیه نشده است و من نیز توصیه می‌کنم از این مورد صرف نظر کنید.

در ادامه می توانید فیلم آموزشی کار با robots.txt را مشاهده یا دانلود کنید و همچنین سرعت ایندکس مطالب یا نوشته های سایت خود را افزایش دهید.