התממה
התממה (גם: אנונימיזציה, או עִלּוּם נְתוּנִים מְזַהִים[1]) של מאגר נתונים היא יצירת עותק של מאגר נתונים שממנו הושמטו או הוסוו פרטים מזהים, כדי לאפשר מסירה של מאגר נתונים זה לגורם חיצוני, בלי לסכן את שמירת הסודיות של הנתונים שמאגר המקורי. התממה נחוצה, למשל, כאשר מוסד רפואי (בית חולים, קופת חולים וכו') מוסר נתונים של כל החולים שהיו בטיפולו בתקופה מסוימת לשם מחקר רפואי, אך מחויב למנוע אפשרות שמקבל הנתונים ישאב מהם מידע על מצבו הבריאותי של אדם מסוים, משום שתוצאה כזו תהווה פגיעה בפרטיות. על ההתממה להבטיח שלא רק מתוך מאגר הנתונים עצמו לא יתאפשר איתור מידע על פרט מסוים, אלא שגם בדרך של הצלבת נתונים ממאגר זה עם נתונים ממאגר זמין אחר לא תתאפשר תוצאה זו.
צעד ראשון בהתממה הוא סילוק פרטים מזהים ישירים, כגון שמו של אדם, מספר זהות, מספר טלפון, מספר כרטיס אשראי וכדומה. בפרטים אחרים, שהשמטתם תפגע בתועלת שרוצים להפיק מהמאגר, ניתן לצמצם רזולוציה. דוגמאות:
- במקום ציון כתובת מדויקת להסתפק בציון שם היישוב בלבד, וכאשר מדובר ביישוב קטן – לציין רק את שם המועצה האזורית שהוא משתייך אליה.
- במקום ציון גיל מדויק של אדם, לציין את העשור שהוא משתייך אליו. כך גיל 72 וגיל 78 יוחלפו שניהם לטווח 70–79.
על ההתממה להיות כזו שבכל שאילתא על מאגר הנתונים לא תתקבל תשובה שכוללת פרט יחיד או פרטים מעטים. דוגמה: במאגר נמצאים אנשים רבים שגובהם מעל 180 ס"מ, ואנשים רבים שעיניהם כחולות, ואנשים רבים שמתגוררים בראש העין, כך שכל נתון כזה כשלעצמו אינו מזהה איש מסוים, אבל חיתוך בין שלושה נתונים אלה (כלומר שאילתא המבקשת את הפרטים שלהם שלושה מאפיינים יחדיו) עלולה להוביל לאדם יחיד, וכך לחשוף את יתר פרטיו. דרישת התממה זו קרויה דרישת k-אנונימיות – יש לוודא שכל צירוף של שדות ייתן לפחות k רשומות בעלות צירוף זה.[2]
בעקבות החיתוכים האפשריים, הדעה המקובלת במחקר היא שהתממה, כפי שזו מיושמת בדרך כלל, איננה מספיקה כדי למנוע זיהוי חוזר של יחידים מהמאגר. ניתן, עם זאת, למנוע זאת על ידי שימוש באמצעים משלימים, דוגמה, טכניקת ה"פרטיות דיפרנציאלית" המשנה באופן זניח את הנתונים של היחידים השונים באופן שלא אמור לפגוע באפשרות לניתוח רחב, אך כן מקשה על הזיהוי של יחידים מתוך המאגר. טכניקה אחרת נקראת "מידע סינתטי", בה יוצרים "אנשים פיקטיביים" עם מאפיינים פיקטיביים, כך שאף אחד מהיחידים אינו דומה ברוב המאפיינים לאדם המקורי, אך עדיין נשמרים כל היחסים הסטטיסטיים החשובים[3].
דוגמה לסוג בעיה נוסף של התממה: לשם ניתוח סטטיסטי של התפלגות ההכנסות משחררת רשות המיסים מאגר נתונים ובו פרטי ההכנסה השנתית של כל אחד מתושבי ישראל, תוך השמטת פרטי הזיהוי מכל רשומה. שאילתא שתגלה, למשל, שלכל תושבי סביון בגילאי 30–60 יש הכנסה שנתית של יותר ממיליון ש"ח הופכת נתון סטטיסטי לנתון אישי על כל אחד מהחברים באוכלוסייה זו.
ככל שההתממה אגרסיבית יותר, כך עלולה התועלת שבמאגר לקטון, ולכן יש למצוא את שביל הזהב, שיאפשר שמירה על סודיות הנתונים הנדרשת, ועדיין לאפשר להפיק מהקובץ את התועלת המצופה.
קישורים חיצוניים
[עריכת קוד מקור | עריכה]- האיגוד הישראלי לטכנולוגיות שפת אנוש - NLP עברית וערבית - https://www.iahlt.org
- אריאל מנצורה, התממה של קבצים עם מידע פרטני, באתר בנק ישראל
- רחל ארידור־הרשקוביץ, תהילה שוורץ אלטשולר, אתגר הפרטיות בפרסום יזום של מאגרי מידע ממשלתיים, המכון הישראלי לדמוקרטיה, ספטמבר 2017, עמ' 36–53
הערות שוליים
[עריכת קוד מקור | עריכה]- ^ החלטות האקדמיה בישיבתה האחרונה (אייר תשפ"ב, מאי 2022), באתר האקדמיה ללשון העברית, 9 ביוני 2022
- ^ Samarati, Pierangela; Sweeney, Latanya, Protecting privacy when disclosing information: k-anonymity and its enforcement through generalization and suppression, Harvard Data Privacy Lab., 1998
- ^ עומר כביר, דו"ח טכנולוגיה | המאגר שמבקש בנק ישראל להקים מסוכן, הפרת פרטיות מחייבת חקיקה ראשית, באתר כלכליסט, 26 באוגוסט 2021