فایل robots.txt چیست؟ کاربرد در سئو + آموزش روش ساخت

robots.txt چیست؟
Author: تیم نیواد
Update: 27 / 05 / 1402
5/5 - (1 امتیاز)

یک فایل robots.txt به خزنده‌های موتورهای جستجو می‌گوید که خزنده به کدام URL ها می‌تواند در سایت شما دسترسی داشته باشد. این عمدتاً برای جلوگیری از بارگذاری بیش از حد سایت شما با درخواست ها استفاده می‌شود. این مکانیسمی برای دور نگه‌داشتن یک صفحه وب از گوگل نیست. برای دور نگه‌داشتن یک صفحه از سایت از Google، آن را با NoIndex کردن صفحه مسدود کنید یا برای صفحه رمز عبور قرار دهید.

فایل robots.txt چیست؟

Robots.txt یک فایل متنی است که مدیران وب‌سایت برای آموزش به روبات‌های وب (معمولاً روبات‌های موتورهای جستجو یا ربات‌های خزنده) ایجاد می‌کنند که چگونه صفحات را در وب‌سایت خود بخزند. فایل robots.txt بخشی از پروتکل حذف روبات‌ها (REP) است.

گروهی از استانداردهای وب که نحوه خزیدن روبات‌ها در وب، دسترسی و فهرست بندی محتوا و ارائه آن محتوا به کاربران را تنظیم می‌کند. REP همچنین شامل دستورالعمل‌هایی مانند متا Robots و همچنین دستورالعمل‌های صفحه، زیر دایرکتوری یا سراسر سایت برای نحوه برخورد موتورهای جستجو با لینک‌ها است.

در عمل، فایل‌های Robots.txt نشان می‌دهند که کدام صفحات توسط ربات‌های خزنده باید خزیده شود. این دستورالعمل های خزیدن توسط Allow یا Disallow در فایل Robots.txt مشخص می‌شوند.

چهار چوب اصلی یا Syntax نوشتاری Robots.txt:

User-agent: [user-agent name]Disallow: [URL string not to be crawled]

robots.txt چگونه کار می‌کند؟

موتورهای جستجو دو کار اصلی دارند:

  1. خزیدن در وب برای کشف محتوا
  2. ایندکس کردن آن محتوا به‌طوری که بتوان آن را برای جستجوگرانی که به دنبال اطلاعات هستند ارائه کرد.

برای خزیدن (Crawl) در سایت‌ها، موتورهای جستجو پیوندها را دنبال می‌کنند تا از یک سایت به سایت دیگر برسند؛ در نهایت در میان میلیاردها لینک و وب‌سایت خزیده می‌شوند. این رفتار خزیدن گاهی اوقات به‌عنوان “عنکبوت” شناخته می‌شود.

robot.txt چگونه عمل می کند؟ عملکرد ربات تسکت چگونه است؟

کراولر های موتور جستجو پس از رسیدن به یک وب سایت اما قبل از spider کردن آن، به دنبال فایل robots.txt می‌گردد. اگر یکی را پیدا کرد، خزنده ابتدا آن فایل را قبل از ادامه صفحه می‌خواند. از آنجایی که فایل robots.txt حاوی اطلاعاتی در مورد نحوه خزیدن موتور جستجو است، اطلاعاتی که در آنجا یافت می‌شود، اقدامات بیشتر خزنده را در این سایت خاص راهنمایی می‌کند. اگر فایل robots.txt حاوی هیچ دستورالعملی نباشد که فعالیت یک مرورگر (عامل کاربر) را ممنوع کند (اگر سایت فایل robots.txt نداشته باشد)، به خزیدن اطلاعات دیگر در سایت ادامه خواهد داد.

سایر اطلاعات مهم robots.txt که باید بدانید:

  • برای یافتن، فایل robots.txt باید در دایرکتوری سطح بالای وب (Root – ریشه اصلی سایت) سایت قرار گیرد.
  • Robots.txt به حروف کوچک و بزرگ حساس است: نام فایل باید “robots.txt” باشد (نه Robots.txt، robots.TXT یا غیره).
  • برخی از عوامل کاربر (ربات‌ها) ممکن است فایل robots.txt شما را نادیده بگیرند. این امر به‌ویژه در مورد خزنده‌های بدجنس مانند روبات‌های بدافزار یا خراش دهنده آدرس ایمیل رایج است.
  • فایل robots.txt به‌صورت عمومی در دسترس است: فقط کافی است robots.txt را به انتهای هر دامنه ریشه‌ای اضافه کنید تا دستورالعمل های آن وب سایت را ببینید (اگر آن سایت دارای فایل robots.txt باشد!). این بدان معناست که هر کسی می‌تواند ببیند چه صفحاتی انجام می‌دهید یا نمی‌خواهید خزیده شوند، بنابراین از آن‌ها برای پنهان کردن اطلاعات خصوصی کاربر استفاده نکنید.
  • هر زیر دامنه (ساب دامین – Sub Domain) در یک دامنه ریشه از فایل‌های جداگانه robots.txt استفاده می‌کند. این بدان معناست که هم blog.example.com و هم example.com باید فایل‌های robots.txt خود را داشته باشند (در blog.example.com/robots.txt و example.com/robots.txt).
  • به‌طور کلی بهترین روش برای نشان دادن مکان هر نقشه سایت (سایت مپ – SiteMap) مرتبط با این دامنه در پایین فایل robots.txt است.

شکل نوشتاری robots.txt ازنظر فنی

نحوه نوشتن فایل Robots.txt را می‌توان به‌عنوان “زبان ” فایل‌های robots.txt در نظر گرفت. پنج اصطلاح متداول وجود دارد که احتمالاً در فایل روبات‌ها با آن‌ها روبرو خواهید شد.

  • User-agent: خزنده وب خاصی که دستورالعمل‌های خزیدن را به آن می‌دهید (معمولاً یک موتور جستجو)
  • Disallow: دستوری که به یک user-agent می‌گوید URL خاص را نخزد. فقط یک خط “:Disallow” برای هر URL مجاز است.
  • Allow (فقط برای Googlebot قابل اجراست): دستوری که به Googlebot اعلام می‌کند می‌تواند به یک صفحه یا زیرپوشه (Sub Folder) دسترسی داشته باشد، حتی اگر صفحه اصلی یا زیرپوشه آن غیرمجاز باشد.
  • Crawl-Delay: یک خزنده چند ثانیه باید قبل از بارگیری و خزیدن محتوای صفحه صبر کند. توجه داشته باشید که Googlebot این دستور را تأیید نمی‌کند، اما نرخ خزیدن را می‌توان در کنسول جستجوی گوگل تنظیم کرد.
  • Sitemap: برای فراخوانی مکان نقشه‌های سایت XML با این URL استفاده می‌شود. توجه داشته باشید که این دستور فقط توسط Google، Ask، Bing و Yahoo پشتیبانی می‌شود. (sitemap: https://nivaad.com/sitemaps-1-sitemap.xml)

الگوهای تطبیق در Robots.txt

وقتی صحبت از URL های واقعی برای مسدود کردن یا مجاز شدن می‌شود، فایل‌های robots.txt می‌توانند نسبتاً پیچیده شوند. گوگل و بینگ هر دو از دو عبارت منظم استفاده می‌کنند که می‌توانند برای شناسایی صفحات یا زیرپوشه‌هایی (Sub Folder) که می‌خواهد حذف شوند، استفاده می‌کنند. این دو کاراکتر ستاره (*) و علامت دلار ($) هستند.

  • * یک علامت عام است که هر دنباله‌ای از کاراکترها را نشان می‌دهد.
  • $ با انتهای URL مطابقت دارد.

گوگل فهرستی عالی الگوهای مهم رو اینجا قرار داده است که می‌توانید این الگوها را در فایل robots.txt استفاده کنید.

فایل robots.txt کجاست؟

موتورهای جستجو و سایر ربات‌های خزنده وب (مانند خزنده فیس‌بوک، Facebot) هرگاه به سایتی مراجعه می‌کنند، می‌دانند که به دنبال فایل robots.txt بگردند؛ اما آن‌ها فقط آن فایل را در یک مکان خاص جستجو می‌کنند آن هم دایرکتوری اصلی می‌باشد.

اگر یک user-agent از www.example.com/robots.txt بازدید کند و فایل روباتی را در آنجا پیدا نکند، فرض می‌کند که سایت فایلی ندارد و به خزیدن همه چیز در صفحه (و شاید حتی در کل سایت) ادامه می‌دهد. حتی اگر صفحه robots.txt مثلاً در example.com/index/robots.txt یا www.example.com/homepage/robots.txt وجود داشته باشد، توسط عوامل کاربر کشف نمی‌شود و درنتیجه سایت مورد بررسی قرار می‌گیرد. انگار اصلاً فایل رباتی وجود نداشته است. درنتیجه محل قرارگیری فایل ربات بسیار مهم است و می‌توان از ابزارهای بررسی فایل Robots.txt استفاده کرد.

چرا به robots.txt نیاز دارید؟

فایل‌های Robots.txt دسترسی خزنده به مناطق خاصی از سایت شما را کنترل می‌کنند. در حالی که اگر شما به‌طور تصادفی Googlebot را از خزیدن در کل سایت خود منع کنید، می‌تواند بسیار خطرناک باشد، اما در مواردی وجود دارد که فایل robots.txt می‌تواند بسیار مفید باشد.

چرا به robot.txt نیاز است؟ علت نیاز به robot.txt

برخی از موارد استفاده رایج عبارت‌اند از:

  • جلوگیری از ظاهر شدن محتوای تکراری در SERP (توجه داشته باشید که متا روبات‌ها (متا تگ Robots در تگ <head> سایت) اغلب انتخاب بهتری برای این کار هستند)
  • خصوصی نگه‌داشتن بخش‌های کامل یک وب سایت
  • جلوگیری از نمایش صفحات نتایج جستجوی داخلی در SERP عمومی
  • تعیین مکان نقشه‌های سایت برای جستجوی سریع‌تر صفحات
  • جلوگیری از ایندکس کردن فایل‌های خاص در وب سایت شما (تصاویر، PDF و غیره) توسط موتورهای جستجو.
  • تعیین تأخیر خزیدن به‌منظور جلوگیری از بارگیری بیش از حد سرورهای شما هنگام بارگیری هم‌زمان چند قطعه محتوا توسط خزنده‌ها

اگر هیچ ناحیه‌ای در سایت شما وجود ندارد که بخواهید دسترسی user-agent به آن را کنترل کنید، ممکن است اصلاً به فایل robots.txt نیاز نداشته باشید؛ اما بهتر است حتماً این فایل را در سایت خود قرار دهید بلکه بیشتر به ربات‌های خزنده کمک می‌کند.

برای اطلاعات پایه ای تر درباره ی سئوی سایت به ادامه مطلب مراجعه کنید.

این محتوا ادامه دارد …

Comments

  • the image علی عزیزی
    علی عزیزی Date ۰۵ شهریور ۱۴۰۲

    مقاله ای پر از نکته بود، منتظر ادامه محتوا هستم

    پاسخ Confirmed
    • the image پیمان نادری
      پیمان نادری Date ۲۰ شهریور ۱۴۰۲

      خواهش میکنم. انشالله به زودی

      پاسخ Confirmed

Dear user What do you think about this article?