שיחה:זחלן רשת

ערך זה נכתב או הורחב משמעותית בקורס "טכנולוגיות מידע ותקשורת" במסגרת מיזם עבודות ויקידמיות באוניברסיטת תל אביב - החוג לתקשורת

‪robots.txt‬

תגובה אחרונה: לפני 13 שניםתגובה אחתאדם אחד בשיחה

היי, כדאי להוסיף התייחסות ל- ‪robots.txt‬, שזה קובץ שמיועד לזחלנים, ואומר להם מה ההגבלות של הסריקה באתר, בעיקר כדי למנוע מהזחלן לנצל את רוחב הפס המוקצה משירות האכסון. (¯`gal´¯)‎ - שיחה 17:58, 20 באוקטובר 2011 (IST)תגובה

אולי כדאי גם להוסיף התייחסות לאפשרות לזהות זחלן באחת מהשיטות הבאות:

א. זיהוי באמצעות בדיקת ה-IP שאיתו הזחלן גולש לאתר, מול רשימות IP's ידועות של זחלנים לגיטימיים ואולי רצויים.

מקור לדוגמה: [1]

החיסרון של שיטה זו בכך שלפעמים ה-IP's של זחלנים משתנים, ונוצר צורך מדי פעם לעדן את רשימות ה-IP's.

ב. זיהוי באמצעות בדיקת ה-UserAgent שאיתו הזחלן גולש לאתר, ואיתור - אפשר באמצעות RegEx - של מחרוזות ידועות של בוטים לגיטימיים, כגון bingbot, googlebot.

מקור אפשרי ל-RegEx [2]

הבעיה בשיטה זו היא שניתן בקלות ליצור UserAgent עם כל מחרוזת, וכך להתחזות לזחלנים לגיטימיים.

הפיתרון לכך הוא בשיטה הבאה:

ג. לאחר זיהוי UserAgent כשל זחלן לגיטימי, לבצע בדיקת אימות דינמית על ה-IP שבה גולש הזחלן. כאשר הבדיקה כוללת reverse dns lookup כדי לקבל את ה-host name של ה-IP ולבדוק האם הוא מסתיים בדומיין שבעלי הזחלן הלגיטימי מפרסמים שהוא שלהם, ואז לבצע forward dns lookup כדי לבדוק מהכיוון ההפוך את ה-IP של הדומיין שקיבלנו בבדיקה הקודמת ולוודא שהוא אכן זהה ל-IP שגלש באתר.

מקורות בנושא עבור מספר זחלנים [3][4][5][6][7]