Google,  מנועי חיפוש

Robots.txt

הקובץ Robots.txt דרוש לבוטים המעכבשים (מלשון 'עכביש') את האתר שלנו כדי לדעת מאיזה קבצים וספריות להתרחק ולא למפות. יש בוטים שללא קובץ ה- Robots.txt לא ימפתחו כלל את האתר. אחרים, כמו Google או yahoo, ימפתחו אותו גם ללא ה-Robots.txt , אך במקרה כזה הם לא יידעו מאיזה קבצים או ספריות להתעלם.

נביא כאן מבוא ליסודות Robots.txt . למידע נרחב יותר, מומלץ לבקר ב-robotstxt.org.

להלן מבנה של קובץ Robots.txt די סטנדרטי, אותו יש למקם בספריית השורש של הדומיין, שכן שם יצפו הבוטים למצוא אותו:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /group/

User-agent: msnbot
Crawl-delay: 10

User-agent: Teoma
Crawl-delay: 10

User-agent: Slurp
Crawl-delay: 10

User-agent: aipbot
Disallow: /

User-agent: BecomeBot
Disallow: /

User-agent: psbot
Disallow: /

——–> End of robots.txt file

MSNbot הוא, כפי שניתן לנחש, הבוט של MSN
Teoma הוא זה של Ask ו-Slurp הוא זה של yahoo.
כשאנו אומרים לבוטים "Disallow: /" אנו מורים להם שלא להיכנס לספריות ספציפיות או בכלל לאתר.
הנחיית "Crawl-delay: 10" מיועדת לבוטים שמעכבשים באתר במהירות רבה מדי ומשתמשים ביותר מדי משאבי מערכת, כשהם מטפלים בחמישה עד שבעה דפים בשנייה. הבוט של Google פועל לאט יותר מאחרים ולא זקוק להנחיה הזאת. הנחיה זו הכרחית בעיקר באתרים גדולים עם אלפי דפים. המספר 10 משמעותו הפוגה של עשר שניות בין טיפול בדף אחד למשנהו.

קובץ ה-Robots.txt חשוב לאבטחת האתר, כדי שמנועי החיפוש יתרחקו מאותם איזורים בהיררכיית האתר שלא היינו רוצים שאפשר יהיה לאתר אותם במנועי החיפוש. הבוטים של מנועי החיפוש (ובמיוחד של שלושת הגדולים – Google, Yahoo ו-MSN) מעוניינים שנכוון אותם וניתן להם את ההנחיות המתאימות לנו. כלי זה, Robots.txt , מאפשר לנו לעשות בדיוק את זה.

תגובה אחת

  • גילפ

    הערה לעניין אבטחת המידע. העכביש צריך לכבד את robots.txt. ישנם כאלו שלא. אם ישנם בוטים או עכבישים שאינם מצייתים (בעיקר כאלו המופעלים על ידי ספאמרים), יש לנקוט במצעים אחרים.

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

מנסים להילחם בספאם: * Time limit is exhausted. Please reload CAPTCHA.