זה לא חדש שהפרטיות נעלמה מחיינו, כתבתי על כך כאן במדור לפני למעלה משנתיים. הארגונים מחזיקי המידע ומפרסמיו מנסים, ומצליחים חלקית, לשמור על פינה פרטית בתוך אוקיינוס המידע הפתוח לציבור. הפעילות אינה חדשה אך לאחרונה ניתן לה פרסום על במות שונות.
בדרך כלל קבצים עתירי מידע פרטי דרושים לצורך הפקת מידע סטטיסטי, ושם אנחנו מבקשים שמירה על פרטיותם של בעלי הנתונים ובה בעת אפשרות לנתח מתמטית, לצרכים שונים, את יתרת הנתונים. הנושא מורכב ואנסה להסבירו כאן בפשטות.
דוגמה פשוטה לכך היא טבלה המכילה שורות של נתונים – בעמודות מפורט שם פרטי, שם משפחה, מספר תעודת הזהות, תאריך הלידה, עלות שכר, מספר שנות עבודה בארגון ומספרים דומים. מטרתי לשנות את הקובץ – להוציא ממנו פרטים אחדים – כדי שיהיה סיכוי קטן מאוד לזיהוי מלא של הפרט אך תישמר ככל האפשר שימושיות המידע הנותר.
בעזרת טבלה כגון זו אני יכול לבצע מספר פילוחים, כגון גיל ממוצע של העובדים בארגון, שכר ממוצע וכדומה. מובן שאם יהיה טור של חלוקה על פי מגדר אפשר יהיה לבצע פילוחים נוספים. לצורך כל אלו ולשם שמירה על זהות הפרט לא מעניין אותנו השם הפרטי ושם המשפחה של כל עובד. השלב הראשון בשמירה על הפרטיות הוא למחוק את שני הטורים של הנתונים האלו ולבצע את כל הפילוחים על יתרת הטורים. פעולה זו קרויה Data Anonymization, ובעברית – "הַתְממָה".
בפעילות מסוג זה יכולים להיות מיוצגים בסיסי נתונים רבי שורות וטורים, וחשוב להפריד זיהוי, כלומר לבצע התממה, באופן שיאפשר לחזור ולחבר את הנתונים במדויק, כולל זיהוי. ברור שככל שאני מוריד טורים מטבלת המידע אני מגדיל את ההגנה על הפרט אך במקביל מוריד את יעילות המידע לצורך הפקת נתונים סטטיסטיים, ולהפך.
עם גדולי הצרכנים של הטכנולוגיה בארץ נמנים בנק ישראל ומשרד הבריאות, ולשניהם דרושה התממה לצורכי מחקר והפקת מידע סטטיסטי. שני הגופים ודומיהם יכולים להיות ניזונים מאותו בסיס נתונים ענק המכיל פרטים על אזרחי המדינה, אבל – וכאן הבדל חשוב – אף גוף אינו צריך את שמי ואת כתובתי לצורכי סטטיסטיקה. יתרה מכך, במידע שיימסר למשרד הבריאות אין צורך להעביר את השכר שלי, ולבנק ישראל בדרך כלל לא חשוב מתי עליתי ארצה.
בהכנת נתונים למסירה יש להקפיד שלא תהיה אפשרות לקבל את הזהות האמיתית שלי בהצלבת נתונים מבסיסי נתונים שונים, ובמקביל יש לשמור אפשרות לאיחוד הנתונים ובנייה מחדש של קובץ הנתונים הבסיסי, טרום ההתממה.
15 תגובות
יותר קל לבטא מאשר המושג באנגלית
תמיד אפשר ללמוד,,,,
תודה רבה!
הביצוע פשוט וטריוויאלי
תודה. זה מידע חשוב וגם חדיש למדיי ( לפחות עבורי)
מאמר מעניין ומשכיל
אבנר גם למדת אותי מונח חדש בעברית התממה
תודה
כתבה מעננינת וחשובה!
לפני שחושבים על התממה צריך להגן על בסיסי ה תונים מםני פריצה ומפני כניסה של כל מיני גורמים מיותרים בארגון. אצלנו מזלזלים בכל, אז דוקא בהתממה יקפידו?
הכוונה היתה להסביר בפשטות את המושג ואני מקווה שאת היעד הזה השגתי…
הורדת הזהויות לא הופכת את המידע בהכרח לתמים.אני הייתי משתמש במושג של ניטרול זהויות.
על כל אדם
זה בהרבה תחומים
אפילו לגבי הבנקים
סיכוני הסייבר ובתוכם האיום על צינעת הפרט גדלים. כמעט כל האזרחים לא מודעים עד כמה הבעיה חמורה.
באבטחת סייבר צעד אחד או מנגנון אחד לא פותרים את הבעיה. מדובר במשהו סבוך שמורכב מרשת שלמה של אמצעים. ואם אחד מהם פגום או לא קים או לא מתפקד נכון או שיש לו חולשה אז הרעים יצליחו.
אפשר ללמוד באינטרנט הרבה ולא דוקא באוניברסיטה
לצרכים מסויימים תוך שהוא ממשיך להתעדכן ולעבוד מסרבל מאוד את כל התהליכים.