Google,  דואר זבל,  מנועי חיפוש,  שירותי רשת

רשימת הרובוטים השלמה

מסתבר שיש מאות רובוטים המטיילים באתרים שלנו, חלקם למטרות טובות, כמו מיפתוח האתר וקישור לדפים בו – למשל ממנועי חיפוש. חלקם למטרות רעות ביותר, כמו קציר של כתובות דואל או חיפוש טפסים כדי לפוצץ מסדי נתונים בקישורים לאתרים שונים. אפשר לחסום פעילות לא רצויה של רובוטים בקובץ robots.txt אך צריך לדעת את מה לחסום ואת מה לא.
user-agents.org הוא מאגר מידע של רובוטים, עכבישים, זחלנים, מנהלי הורדה, שרתי פרוקסי, בודקי קישורים, כלי סינון, רובוטי ספאם ו-user-agents אחרים. מאגר המידע מציג את הרובוטים ומאפיין אותם על פי סוגם, מקורם והתכלית שלשמה נועדו. זוהי רשימה ששווה לבחון כשאנו חוסמים פעילות לא רצויה של רובוטים ספציפיים. בתנאי, כמובן, שאותם רובוטים מצייתים לפרוטוקול.
למידע נוסף על רובוטים ב-web.

3 תגובות

  • yogaf

    אי אפשר באמת לחסום את הרובוטים, נכון?
    robots.txt זו רק המלצה בשבילם.

  • david

    אתה חוסם את הרובוטים. יש רובוטים שיתעלמו מ-robots.txt בדיוק באותה מידה שיש נהגים שרואים בתמרור "עצור" המלצה בלבד.
    את אותם רובוטים אתה יכול לחסום באמצעות htaccess.
    הלוואי שהיה אפשר כך גם להתמודד עם הנהגים הסוררים.

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

מנסים להילחם בספאם: * Time limit is exhausted. Please reload CAPTCHA.