فایل Robots.txt چیست | آموزش کامل ساخت و ویرایش فایل robots.txt

فایل Robots.txt

فایل Robots.txt یکی از بخش های کمتر شناخته شده برای سئوکاران تازه کار است. بصورت کلی می توان گفت این فایل دستورالعمل هایی را برای crawler موتورهای جستجو تعریف می کند. در این فایل اشاره می شود که موتورهای جستجو اجازه دسترسی به چه بخش هایی از سایت را دارند یا خیر.

در این مطلب به ساده ترین حالت ممکن به آموزش فایل Robots.txt می پردازیم و با کاربرد آن در سایت آشنا خواهیم شد. در انتها بصورت کامل با این فایل آشنایی خواهید داشت و شیوه ایجاد و ویرایش آن را یاد خواهید گرفت. در ادامه همراه ما باشید.

فایل Robots.txt چیست؟

فایل های زیادی با پسوندهای متفاوت وجود دارد که هر کدام از آنها کاربرد خاص خود را دارد. یکی از انواع فرمت فایل های متنی txt است.
فایل robots.txt یک فایل متنی است که توسط وبمسترها برای هدایت ربات‌های وب (معمولاً ربات‌های موتور جستجو) برای جستجوی صفحات وب سایت خود ایجاد می‌ کنند.

فایل robots.txt بخشی از پروتکل Robots Exclusion Protocol (REP) است.

پروتکل REP مجموعه‌ ای از استانداردهای وب است که چگونگی پیمایش ربات موتورهای جستجو در سایت را مشخص می کند.

این فایل مشخص می کند که ربات ها به کدام بخش از محتوای سایت می توانند دسترسی داشته باشند و کدام بخش ها را اجازه دسترسی ندارند.

کاربرد فایل Robots.txt

فایل robots.txt سایت در هاست و در پوشه اصلی سایت قرار دارد.

با استفاده از دستوراتی که در این فایل نوشته می شود می توان فرمان هایی را به crawler (خزنده) موتورهای جستجو داد.

بصورت پیش فرض زمانی که موتورهای جستجو برای بررسی وارد سایتی می شوند اولین فایلی که بررسی می کنند همین فایل ربوتس است.

در ادامه با توجه به دستورالعمل های تعیین شده شروع به بررسی سایت می کند.

به عنوان مثال، اگر وبمستر بخواهد بخشی از سایت در صفحه نتایج جستجوی موتور (SERP) نشان داده نشود، می‌تواند در فایل robots.txt دستور “disallow” را برای آن بخش قرار دهد.

مطلب مفید: SERP چیست ؟

چرا بعضی از صفحات سایت نباید ایندکس شوند؟

دسترسی موتورهای جستجو به سایت

سوال مهمی که پیش می آید این است که هدف ما از سئو سازی سایت حداکثر کردن ترافیک ورودی سایت است.

حال چرا باید کاری کنیم که صفحات ایندکس نشوند؟

از جمله دلایلی که مانع ایندکس شدن بعضی از صفحات سایت می شوید می توان به این موارد اشاره کرد:

  1. در زمان طراحی سایت
  2. پنهان کردن صفحات غیر ضروری بعد از طراحی
  3. حذف بعضی از محتواهای خاص از ایندکس گوگل
  4. پنهان کردن صفحات بی ارزش، تکراری، زامبی و غیره

۱. در زمان طراحی سایت

در زمان طراحی سایت باید مانع از ورود ربات های جستجو به سایت شد.

با این کار از ایندکس شدن صفحات بی ارزش جلوگیری خواهیم کرد. در این مورد بصورت مفصل در مقاله سئو سایت وردپرس | ۱۳ گام برای افزایش سئو سایت های وردپرسی صحبت کرده ایم.

چرا باید این کار را انجام دهیم؟

زیرا در ابتدا و در زمان طراحی (در صورتی که از قالب های آماده برای طراحی سایت خود استفاده کرده باشید) اغلب یکسری صفحات آماده، تصاویر، نمونه کارها و … وجود دارد که باید پس از طراحی حذف شوند.

در صورت ایندکس شدن این صفحات پیش فرض، گوگل یکسری مطالب تکراری و بی ارزش در سایت پیدا می کند.

نتیجه ایندکس شدن این صفحات تکراری کاهش رتبه سئو خواهد بود.

در انتهای طراحی و بعد از حذف اطلاعات نمونه و غیر تکراری دسترسی ربات های موتورهای جستجو را در سایت باز می کنیم.

۲. پنهان کردن صفحات غیر ضروری بعد از طراحی

حتی بعد از طراحی هم تعدادی از صفحات نباید ایندکس شوند.

از جمله این صفحات می توان به موارد زیر اشاره کرد:

  • صفحه پرداخت
  • صفحه سبد خرید
  • صفحه لیست علاقمندی ها
  • صفحه لاگین
  • تعدای از فایل های کد برنامه
  • تعدادی از فولدرهای سیستم

توجه داشته باشید بعضی از این صفحات به دلیل محتوای کمی که دارند باعث کاهش قدرت سئو وبسایت خواهند شد.

۳. حذف بعضی از محتواهای خاص از ایندکس گوگل

بعضی از صفحات هستند که نیازی به ایندکس شدن ندارند. از جمله این صفحات می توان به موارد زیر اشاره کرد:

  • صفحات لندینگ پیج کمپین ها
  • صفحات محصولات دانلودی
  • فایل هایی که بعد از خرید در دسترس مشتری قرار داده می شوند
  • بعضی از ویدئوها و تصاویر سایت
  • غیره

در تمامی این سناریوها برای اعمال این دستورالعمل ها برای موتورهای جستجو باید به سراغ فایل robots.txt رفت.

۴. پنهان کردن صفحات بی ارزش، تکراری، زامبی و غیره

ممکن است در سایت برای پیاده سازی صفحه ای جدید نیاز به ایجاد صفحات تکراری داشته باشیم.

به عنوان مثال در حال طراحی یک صفحه اصلی سایت جدید باشیم.

در این حالت باید صفحه ای که در حال طراحی آن هستیم غیر قابل ایندکس باشد تا مشکل duplicated content به وجود نیاید.

مطالب مفید:

راهنمای کامل ریدایرکت ۳۰۱

حذف صفحات اضافی با استفاده از ریدایرکت ۴۱۰

این موضوع برای صفحات تکراری دیگر هم قابل اجراست.

مثلا زمانی که قصد داریم برای یک صفحه از مقالات سایت مان، یک صفحه pdf و یک صفحه قابل پرینت هم ایجاد کنیم، باید صفحه اصلی را نگه داشته و مابقی را به کمک فایل robots.txt پنهان کنیم.

در صورتی که سایت شما با وردپرس است و از پلاگین های سئویی مانند یوست، رنک مث و غیره استفاده می کنید می توانید این تغییرات را از داخل پلاگین ها انجام داد.

نکته: دقت کنید که همیشه هم نمی توانیم به این اعتماد کنیم که ربات ها تمامی دستورالعمل های داخل فایل Robots.txt سایت را اجرا کنند. ممکن است برخی ربات ها به دستورات داخل فایل توجه نکنند و صفحات سایت را ایندکس کنند.

نکته: علاوه بر فایل robots، راهکار دیگر جهت پنهان کردن صفحات سایت از دید خزنده ها، کمک گرفتن از کد noindex است.

آموزش ساخت فایل Robots.txt

در این بخش به آموزش ساخت فایل robots برای سایت می رویم.

در ادامه اول از همه یاد می گیریم که چطور وجود داشتن و نداشتن این فایل در سایت را بررسی کنیم.

بعد از آن به سراغ این سوال می رویم که اگر robots در سایت ما وجود نداشته باشد چه اتفاقی می افتد؟

در نهایت بعد از آشنا شدن با کدهای robots.txt نحوه ساخت آن را آموزش می بینیم.

بررسی وجود فایل Robots در سایت

در سایت های وردپرسی، بصورت پیش فرض فایل robots.txt ساخته می شود.

این فایل از طریق این آدرس در دسترس می باشد: example.com/robots.txt

برای بررسی وجود این فایل در سایت خودتان باید به جای example.com آدرس سایت خود را وارد کنید. مانند:

majidrajabi.com/robots.txt

اگر بعد از وارد کردن آدرس با صفحه ۴۰۴ مواجه شدید به این معنی است که سایت فاقد فایل robots.txt است.

در این حالت باید به صورت دستی این فایل را ایجاد کنید.

آیا نداشتن فایل Robots.txt باعث کاهش سئو می شود؟

ربات های خزنده در صورت مشاهده نکردن فایل روبوتس بصورت آزادانه کل سایت را بررسی و ایندکس می کنند.

عدم وجود این فایل بصورت مستقیم باعث کاهش رتبه سئو نمی شود.

در نظر داشته باشید در صورتی که صفحات و فایل های کم ارزش و غیر ضروری ایندکس شوند سئو سایت را کاهش می دهد.

یکی از دلایل کاهش رتبه سئو در این حالت هدر رفتن بودجه خزش (Crawl Budget) می باشد.

تفاوت سایت با داشتن و نداشتن فایل robots.txt

دستورات فایل Robots.txt

دستور user-agent

این دستور برای تعیین نوع ربات های خزنده استفاده میشود.

در سطح وب ربات های زیادی وجود دارند که سایت شما را به دلایل مختلف بررسی می کنند.

مانند ربات های خزنده موتور جستجو بینگ، گوگل، یاهو و… اگر بخواهید نوع خاصی از ربات ها را برای دستورات خود فراخوانی کنید، باید در مقابل این کد نام آن را بنویسید.

مثلا:

user-agent: googlebot

کد بالا صرفا ربات های گوگل را فراخوانی می کند.

اگر به جای نام ربات، علامت * را قرار دهید، در اصل روی صحبت شما با همه ربات ها است:

user-agent: *

دستور disallow

این همان دستوری است که به کمکش میتوانید تعیین کنید کدام صفحات از دید ربات ها پنهان باشند.

به معنای این است که تمامی صفحات از ایندکس پنهان باشند.

disallow: /

دستور زیر به معنای این است که پوشه images سایت غیر قابل ایندکس باشد. (دقت کنید که اگر در هاستتان نام پوشه عکس ها همین باشد، آنها پنهان میشوند. اگر نه باید نام دقیق آن را وارد کنید.)

disallow: /images

دستور زیر به معنای پنهان کردن صفحه majidrajabi.com/seo از دید ربات هاست.

/disallow: /seo

توجه داشته باشید که در ابتدا باید ربات های مورد نظر را فراخوانی کنید. سپس به آنها دستور ایندکس و یا محدود کردن صفحات را بدهید.

دقت کنید که دستور disallow باید در خط بعد از user-agent قرار بگیرد.

دستور Allow

این دستور بعد از دستور disallow قرار می گیرد.

کاربرد آن این است که به ربات ها بگوید فلان فایل یا صفحه را از میان همه صفحاتی که قبلا دستور ایندکس نشدنش را داده بودید، ایندکس کنید.

مثلا در دستور قبلی گفتیم که تمامی عکس های درون پوشه images از دید ربات ها پنهان باشند.

اما به کمک این دستور میتوانیم یک عکس خاص از این پوشه را برای ایندکس آماده کنیم.

Allow: images/seo.jpg

ساخت فایل Robots.txt

تا اینجای مطلب با ساختار فایل robots.txt آشنا شدید.

همچنین توانایی ایجاد و نوشتن دستورات لازم را نیز دارید.

برای ایجاد این فایل کافی است توسط نرم افزارهایی مانند TextEdit، Notepad و یا سایر نرم افزارهایی از این است فایلی با نام robots و با پسوند txt ایجاد کنید (robots.txt)

در انتها بعد از اضافه کردن دستورات مورد نظر، این فایل را در هاست خود بارگذاری نمایید.

توجه: وردپرس در نسخه های جدید به صورت خودکار فایل robots را ایجاد کرده اما شما نمی توانید آن را پیدا کنید. در صورتی که نیاز به دستکاری این فایل دارید، باید یک فایل جدید ساخته و آن را در هاست آپلود کنید.

نمونه فایل Robots.txt برای وردپرس

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
 
Sitemap: https://example.com/sitemap_index.xml

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *