שיחה:זחלן רשת
הוספת נושאמראה
תגובה אחרונה: לפני 13 שנים מאת Galzigler בנושא robots.txt
ערך זה נכתב או הורחב משמעותית בקורס "טכנולוגיות מידע ותקשורת" במסגרת מיזם עבודות ויקידמיות באוניברסיטת תל אביב - החוג לתקשורת
robots.txt
[עריכת קוד מקור]היי, כדאי להוסיף התייחסות ל- robots.txt, שזה קובץ שמיועד לזחלנים, ואומר להם מה ההגבלות של הסריקה באתר, בעיקר כדי למנוע מהזחלן לנצל את רוחב הפס המוקצה משירות האכסון. (¯`gal´¯) - שיחה 17:58, 20 באוקטובר 2011 (IST)
- אולי כדאי גם להוסיף התייחסות לאפשרות לזהות זחלן באחת מהשיטות הבאות:
- א. זיהוי באמצעות בדיקת ה-IP שאיתו הזחלן גולש לאתר, מול רשימות IP's ידועות של זחלנים לגיטימיים ואולי רצויים.
- מקור לדוגמה: [1]
- החיסרון של שיטה זו בכך שלפעמים ה-IP's של זחלנים משתנים, ונוצר צורך מדי פעם לעדן את רשימות ה-IP's.
- ב. זיהוי באמצעות בדיקת ה-UserAgent שאיתו הזחלן גולש לאתר, ואיתור - אפשר באמצעות RegEx - של מחרוזות ידועות של בוטים לגיטימיים, כגון bingbot, googlebot.
- מקור אפשרי ל-RegEx [2]
- הבעיה בשיטה זו היא שניתן בקלות ליצור UserAgent עם כל מחרוזת, וכך להתחזות לזחלנים לגיטימיים.
- הפיתרון לכך הוא בשיטה הבאה:
- ג. לאחר זיהוי UserAgent כשל זחלן לגיטימי, לבצע בדיקת אימות דינמית על ה-IP שבה גולש הזחלן. כאשר הבדיקה כוללת reverse dns lookup כדי לקבל את ה-host name של ה-IP ולבדוק האם הוא מסתיים בדומיין שבעלי הזחלן הלגיטימי מפרסמים שהוא שלהם, ואז לבצע forward dns lookup כדי לבדוק מהכיוון ההפוך את ה-IP של הדומיין שקיבלנו בבדיקה הקודמת ולוודא שהוא אכן זהה ל-IP שגלש באתר.