ما هو ملف robots.txt؟ وما هو تأثيره على الموقع؟

 ما هو ملف robots.txt؟ وما هو تأثيره على الموقع؟

ما هو ملف robots.txt

يعتبر ملف robots.txt عنصرًا أساسيًا في عملية إدارة موقعك أو مدونتك. وبالتالي فإن معرفتك بأسس وقواعد إنشاء هذا الملف تساهم في إدارة عدد زيارات العناكب أو الزواحف الخاصة بجوجل وغيره من محركات البحث إلى موقعك الإلكتروني.

ولذلك سنتعرف في هذا المقال من Digidose على ماهية هذا الملف. بالإضافة إلى أهميته وأهم التوجيهات ضمن بنيته وطريقة إنشاء ملف robots.txt الخاص بموقعك الإلكتروني. بالإضافة إلى نصائح أساسية عند إنشاء هذا الملف.

ما هو ملف robots.txt؟

نستطيع القول أن ملف robots.txt هو ملف نصي يحتوي على إرشادات لروبوتات أو عناكب أو زواحف محركات البحث. وبالتالي فهو يتولى عملية إرشادهم إلى الصفحات التي ينبغي الزحف إليها وتلك التي يجب تجاهلها، ويتم تحديد هذه التعليمات من خلال السماح allow أو عدم السماح disallow بسلوك بعض الروبوتات أو ربما جميعها.

اقرأ أيضًا: تعرّف على التيكنيكال سيو أفضل المعايير التقنية لتحسين أداء الموقع

كيف يعمل ملف robots.txt؟

يخبر هذا الملف عادة زواحف محركات البحث بعناوين URL التي بإمكانها الزحف إليها. والأهم من ذلك، تلك التي لا تستطيع الزحف إليها. وبالتالي أثناء عملية الزحف تكتشف هذه روبوتات محركات البحث الروابط وتتبعها، وتأخذهم هذه العملية ما الموقع (A) إلى الموقع (B).   وبالتالي عند وصول الزواحف إلى أي موقع، فإن أول شيء تبحث عنه هو ملف robots.txt.

لماذا يعتبر ملف robots.txt مهمًا للموقع؟

في الواقع يعتبر ملف robots.txt مهمًا لإنه يساعدك على عدم الإفراط في إرهاق موقعك على الويب. بالإضافة إلى ذلك فهو يساهم ب:

  1. تحسين ميزانية الزحف : ويقصد بميزانية الزحف عدد الصفحات التي سيزحف إليها محرك البحث Google ضمن موقعك الإلكتروني. وتجدر الإشارة إلى أنه في حال تجاوز عدد الصفحات التي زحف إليها محرك البحث ميزانية الزحف لموقعك، ستنتج صفحات إضافية لم تتم فهرستها. وبالتالي فمن خلال حظر الصفحات غير الضرورية باستعمال هذا الملف يمكن توجيه زواحف جوجل إلى الصفحات المهمة في موقعك فقط.
  2. حظر الصفحات المكررة وغير المخصصة للعرض للعامة: كما ذكرنا، لا تحتاج جميع الصفحات في موقعك إلى عناكب جوجل وذلك لأنها ليست جميعها بحاجة إلى ترتيب أو فهرسة.
  3. إخفاء الموارد: في بعض الأحيان، قد ترغب في استبعاد بعض الموارد مثل ملفات من نوع PDF. بالإضافة إلى مقاطع الفيديو من نتائج البحث في جوجل.

اقرأ أيضًا:التعرف على التسويق بالفيديو وما هي مزاياه وعيوبه. 

 كيف يمكن الوصول إلى ملف robots.txt؟

في الواقع يمكنك العثور على ملف robots.txt لأي موقع ويب معين عن طريق كتابة عنوان URL الكامل للصفحة الرئيسية. ثم إضافة /robots.txt

مثال:

https://Example.com/robots.txt

وتجدر الإشارة إلى أن ملف robots.txt موجود دائمًا في جذر المجال الخاص بك. وبالتالي فإن الموقع: www.Example.com

يمتلك ملف robots.txt موجود على  www.Example.com/robots.txt

وإذا لم يكن كذلك، ستفترض برامج الزحف أن الموقع لا يمتلك ملف robots.txt.

بنية ملف robots.txt

يتكون هذا الملف من مجموعة واحدة أو أكثر من التوجيهات أو القواعد، ولكل منها وكيل مستخدم محدد (روبوت محرك البحث). بالإضافة إلى تعليمات السماح allow أو عدم السماح disallow. وبالتالي فإن ملف robots.txt يتكون من:

  1. توجيه اسم الوكيل User-Agent.
  2. توجيه منع الوصول Disallow Directive.
  3. بالإضافة إلى توجيه خريطة الموقع Sitemap Directive.

اقرأ أيضًا: أفضل 5 كورسات سيو مجانية وبشهادة معتمدة عالمياً

1-توجيه اسم الوكيل User-Agent

يحتل وكيل المستخدم السطر الأول من كل كتلة من الأوامر. وبالتالي فهو يحدد الزاحف الذي يتعامل معه. ونتيجة لذلك، إذا كنت تريد إخبار Google bot بعدم الزحف إلى صفحة المسؤول WordPress الخاص بك مثلًا ستبدأ كتلة الأوامر لديك ب:


User-Agent: Googlebot
Disallow: /wp-admin/

وتجدر الإشارة إلى أن معظم محركات البحث لديها برامج زحف مختلفة لفهرسهم العادي والصور. بالإضافة إلى مقاطع الفيديو وما إلى ذلك. وبالتالي تختار محركات البحث دائمًا مجموعة التوجيهات الأكثر وضوحًا.

2-توجيه منع الوصول Disallow Directive

يمكن أن يكون لديك العديد من أوامر عدم السماح أو منع الوصول Disallow والتي تحدد اجزاء موقعك التي لا يمكن للزواحف الوصول إليها.

لكن في المقابل، يشير سطر منع الوصول Disallow الفارغ إلى أنك لا ترفض أي شيء، ومعنى ذلك أنه يمكن للزاحف الوصول إلى جميع أقسام موقعك.

وتجدر الإشارة إلى أن التوجيهات مثل السماح allow أو عدم السماح Disallow لا تعتبر حساسة لحالة الأحرف، ومعنى ذلك أنه بإمكانك استعمال الأحرف الكبيرة أو الصغيرة.

3-توجيه خريطة الموقع Sitemap Directive

يخبر توجيه خريطة الموقع Sitemap Directive محركات البحث وعلى وجه الخصوص Bing وYandex. بالإضافة إلى Google، بمكان العثور على خريطة الموقع XML الخاصة بك.

كما تتضمن ملفات Sitemap بشكل عام الصفحات التي تريد أن تزحف إليها زواحف محركات البحث، ويمكنك العثور على هذا التوجيه إما في أعلى ملف ال robots أو في أسفله، وتبدو كالتالي:

Robots.txt Sitemap

في جميع الأحوال، يجب عليك تقديم خريطة الموقع الخاصة بك XML إلى جميع محركات البحث باستخدام أدوات مشرفي المواقع الخاصة بهم. وبالتالي ستزحف عناكب (زواحف) محركات البحث إلى موقعك في النهاية، إلا أن إرسال خريطة الموقع سيسرع عملية الزحف. وبالتالي تعد إضافة توجيه sitemap إلى هذا الملف حلًا بديلًا وسريعًا.

4 خطوات لإنشاء ملف robots.txt

ويمكنك استخدام أداة إنشاء ملف robots.txt. كما يمكنك إنشاء الملف بنفسك عن طريق 4 خطوات وهي:

  1. أضف ملف نصي جديد. ولا تنس تسميته robots.txt، وذلك باستخدام أي محرر نصوص أو مستعرض ويب. وتجدر الإشارة إلى أن الخطأ في تسمية الملف يجعله غير صالح للعمل.
  2. بعد ذلك، أضف القواعد إلى ذلك الملف، حيث يتكون الملف من مجموعات من التوجيهات. كما تتكون كل مجموعة من عدة أسطر من التعليمات تبدأ كل واحدة منها ب “وكيل المستخدم User-Agent” ولديها المعلومات التالية:
    • من تنطبق عليه المجموعة (وكيل المستخدم).
    • الأدلة أو الصفحات أو الملفات التي يمكن الوصول إليها.
    • بالإضافة إلى الأدلة أو الصفحات أو الملفات التي لا يمكن الوصول إليها.
    • خريطة الموقع (اختيارية)، وتتجاهل برامج الزحف جميع الأسطر التي لا تتطابق مع أي من هذه التوجيهات.
  3. ثم حمّل الملف على موقعك الإلكتروني.
  4. بعد ذلك، اختبر الملف وتأكد منه.
خطوات إنشاء ملف robots.txt
خطوات إنشاء ملف robots.txt

أفضل الممارسات لإنشاء ملف robots.txt

ولعل أفضل الممارسات عند إنشاء ملف robots.txt تتعلق بتجنب الأخطاء الشائعة ومن أهمها:

  1. عدم إضافة سطر جديد عند كل توجيه. في الواقع، لن تتمكن محركات البحث من قراءة جميع التوجيهات الموجودة على سطر واحد. وبالتالي سيتم تجاهل إرشاداتك.
  2. لا بأس بإضافة وكيل المستخدم User-Agent نفسه عدة مرات، ولكن الرجوع إليه مرة واحدة يساعد في التقليل من فرص الخطأ البشري.
  3. استخدام الهاشتاغ (#) لإضافة التعليمات. في الواقع، تتجاهل برامج الزحف كل ما يبدأ بعلامة الهاشتاغ (#).
  4. تذكر دائمًا، إذا كنت تريد التحكم في الزحف ضمن نطاق فرعي مختلف فأنت بحاجة إلى ملف robots.txt منفصل. بمعنى آخر، إذا كان موقعك موجودًا على domain.com مثلًا، وكانت مدونتك موجودة على النطاق الفرعي  blog.domain.com فهذا يعني أنك بحاجة إلى ملفين.

وبذلك نكون قد تحدثنا عن ملف robots.txt وتعرفنا على أهميته. بالإضافة إلى بنيته وخطوات إنشاء الملف الخاص بموقعك الإلكتروني. كما تحدثنا عن أفضل الممارسات لإنشاء هذا الملف.

مقالات مشابهة