רשימת הרובוטים השלמה

מסתבר שיש מאות רובוטים המטיילים באתרים שלנו, חלקם למטרות טובות, כמו מיפתוח האתר וקישור לדפים בו – למשל ממנועי חיפוש. חלקם למטרות רעות ביותר, כמו קציר של כתובות דואל או חיפוש טפסים כדי לפוצץ מסדי נתונים בקישורים לאתרים שונים. אפשר לחסום פעילות לא רצויה של רובוטים בקובץ robots.txt אך צריך לדעת את מה לחסום ואת מה לא.
user-agents.org הוא מאגר מידע של רובוטים, עכבישים, זחלנים, מנהלי הורדה, שרתי פרוקסי, בודקי קישורים, כלי סינון, רובוטי ספאם ו-user-agents אחרים. מאגר המידע מציג את הרובוטים ומאפיין אותם על פי סוגם, מקורם והתכלית שלשמה נועדו. זוהי רשימה ששווה לבחון כשאנו חוסמים פעילות לא רצויה של רובוטים ספציפיים. בתנאי, כמובן, שאותם רובוטים מצייתים לפרוטוקול.
למידע נוסף על רובוטים ב-web.

3 תגובות לפוסט ”רשימת הרובוטים השלמה“

  1. מאת yogaf:

    אי אפשר באמת לחסום את הרובוטים, נכון?
    robots.txt זו רק המלצה בשבילם.

  2. מאת david:

    אתה חוסם את הרובוטים. יש רובוטים שיתעלמו מ-robots.txt בדיוק באותה מידה שיש נהגים שרואים בתמרור "עצור" המלצה בלבד.
    את אותם רובוטים אתה יכול לחסום באמצעות htaccess.
    הלוואי שהיה אפשר כך גם להתמודד עם הנהגים הסוררים.

  3. מאת yogaf:

    וואלה. רעיון טוב ה-htaccess. איך לא חשבתי על זה.

לכתוב תגובה

מנסים להילחם בספאם: * Time limit is exhausted. Please reload CAPTCHA.