לְמָה התְממָה?

כיצד שומרים על פרטיות בניתוח בסיסי נתונים
תמונה של אבנר
אבנר שרון

זה לא חדש שהפרטיות נעלמה מחיינו, כתבתי על כך כאן במדור לפני למעלה משנתיים. הארגונים מחזיקי המידע ומפרסמיו מנסים, ומצליחים חלקית, לשמור על פינה פרטית בתוך אוקיינוס המידע הפתוח לציבור. הפעילות אינה חדשה אך לאחרונה ניתן לה פרסום על במות שונות.

בדרך כלל קבצים עתירי מידע פרטי דרושים לצורך הפקת מידע סטטיסטי, ושם אנחנו מבקשים שמירה על פרטיותם של בעלי הנתונים ובה בעת אפשרות לנתח מתמטית, לצרכים שונים, את יתרת הנתונים. הנושא מורכב ואנסה להסבירו כאן בפשטות.

דוגמה פשוטה לכך היא טבלה המכילה שורות של נתונים – בעמודות מפורט שם פרטי, שם משפחה, מספר תעודת הזהות, תאריך הלידה, עלות שכר, מספר שנות עבודה בארגון ומספרים דומים. מטרתי לשנות את הקובץ – להוציא ממנו פרטים אחדים – כדי שיהיה סיכוי קטן מאוד לזיהוי מלא של הפרט אך תישמר ככל האפשר שימושיות המידע הנותר.

בעזרת טבלה כגון זו אני יכול לבצע מספר פילוחים, כגון גיל ממוצע של העובדים בארגון, שכר ממוצע וכדומה. מובן שאם יהיה טור של חלוקה על פי מגדר אפשר יהיה לבצע פילוחים נוספים. לצורך כל אלו ולשם שמירה על זהות הפרט לא מעניין אותנו השם הפרטי ושם המשפחה של כל עובד. השלב הראשון בשמירה על הפרטיות הוא למחוק את שני הטורים של הנתונים האלו ולבצע את כל הפילוחים על יתרת הטורים. פעולה זו קרויה Data Anonymization, ובעברית – "הַתְממָה".

בפעילות מסוג זה יכולים להיות מיוצגים בסיסי נתונים רבי שורות וטורים, וחשוב להפריד זיהוי, כלומר לבצע התממה, באופן שיאפשר לחזור ולחבר את הנתונים במדויק, כולל זיהוי. ברור שככל שאני מוריד טורים מטבלת המידע אני מגדיל את ההגנה על הפרט אך במקביל מוריד את יעילות המידע לצורך הפקת נתונים סטטיסטיים, ולהפך.

עם גדולי הצרכנים של הטכנולוגיה בארץ נמנים בנק ישראל ומשרד הבריאות, ולשניהם דרושה התממה לצורכי מחקר והפקת מידע סטטיסטי. שני הגופים ודומיהם יכולים להיות ניזונים מאותו בסיס נתונים ענק המכיל פרטים על אזרחי המדינה, אבל – וכאן הבדל חשוב – אף גוף אינו צריך את שמי ואת כתובתי לצורכי סטטיסטיקה. יתרה מכך, במידע שיימסר למשרד הבריאות אין צורך להעביר את השכר שלי, ולבנק ישראל בדרך כלל לא חשוב מתי עליתי ארצה.

בהכנת נתונים למסירה יש להקפיד שלא תהיה אפשרות לקבל את הזהות האמיתית שלי בהצלבת נתונים מבסיסי נתונים שונים, ובמקביל יש לשמור אפשרות לאיחוד הנתונים ובנייה מחדש של קובץ הנתונים הבסיסי, טרום ההתממה.

שיתוף ב facebook
Facebook
שיתוף ב twitter
Twitter
שיתוף ב linkedin
LinkedIn
שיתוף ב whatsapp
WhatsApp
שיתוף ב email
Email

15 תגובות

  1. מאמר מעניין ומשכיל
    אבנר גם למדת אותי מונח חדש בעברית התממה
    תודה

  2. לפני שחושבים על התממה צריך להגן על בסיסי ה תונים מםני פריצה ומפני כניסה של כל מיני גורמים מיותרים בארגון. אצלנו מזלזלים בכל, אז דוקא בהתממה יקפידו?

  3. הורדת הזהויות לא הופכת את המידע בהכרח לתמים.אני הייתי משתמש במושג של ניטרול זהויות.

  4. סיכוני הסייבר ובתוכם האיום על צינעת הפרט גדלים. כמעט כל האזרחים לא מודעים עד כמה הבעיה חמורה.

  5. באבטחת סייבר צעד אחד או מנגנון אחד לא פותרים את הבעיה. מדובר במשהו סבוך שמורכב מרשת שלמה של אמצעים. ואם אחד מהם פגום או לא קים או לא מתפקד נכון או שיש לו חולשה אז הרעים יצליחו.

  6. לצרכים מסויימים תוך שהוא ממשיך להתעדכן ולעבוד מסרבל מאוד את כל התהליכים.

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

פרסום תגובה מהווה הסכמה לתנאי השימוש באתר.
התגובות יפורסמו לפי שיקול דעת העורך.

עשוי לעניין אותך

תמונה של אפרים כהנא

מנהיגים והחלטות

כיצד התקבלה ההחלטה על המלחמה נגד עיראק בשנת 2003?