هر چند دادهکاوی در بسیاری از برنامهها تأثیرات مثبتی بر جا گذاشته است، به خاطر احتمال افشای دادههای خصوصی، باعث نگرانیهایی میشود
یک معماری گسترده، میتواند زمینهای برای ارایه یک دید سیستماتیک از مشکلات شود تا بتوان پروتکلهای تثبیتشدهای پیادهسازی کرد و زمینهای برای جمعآوری داده، کنترل نتیجهها و به اشتراکگذاری اطلاعات فراهم کرد. دادهکاوی با استخراج موفقیتآمیز اطلاعات، دانش مورد نیاز برای استفاده در زمینههای مختلف از جمله، بازاریابی، هواشناسی، تحلیلهای پزشکی و امنیت ملی را فراهم میسازد، ولی هنوز هیچ تضمینی ارایه نشده است که بتوان دادههای خاصی را مورد دادهکاوی قرار داد؛ بدون آنکه به حریم خصوصی مالک آن اطلاعات تجاوز کرد. برای مثال، در یک سیستم پزشکی، نحوه انجام دادهکاوی در اطلاعات خصوصی بیماران بدون افشای آن اطلاعات، یکی از مسائلی است که با آن روبهرو هستیم. ارگانهایی نظیر سازمان بیمه سلامتی و بررسی وضع بهداشت در ایالاتمتحده (HIPPA) و سازمان مدیریت داده و سیستمهای تحلیلی در اتحادیه اروپا، با درک حساسیتهای به وجود آمده در این زمینه، مجموعهای از قوانین اجباری را در زمینه مدیریت داده و تحلیل سیستمها پدید آوردهاند. این نوع نگرانیها، به موازات گسترش استفاده از سیستمهای تحلیل داده افزایش مییابند. سیستمهای جمعآوری داده به صورت آنلاین، نمونهای از دهها برنامه جدیدی هستند که حریم شخصی افراد را تهدید میکنند. شرکتهای معتبر از چندی پیش با به اشتراک گذاشتن روشها و مدلهای موجود برای دادهکاوی، به دنبال کسب داده بیشتر در مورد مشتریان مشترک هستند تا بتوانند در مورد عادتهای آنها در زمینه خرید کالا اطلاعات دقیقتری داشته باشند. قبل از آنکه تکنیکهای دادهکاوی همهگیر شود و کلاف سردرگم حریم شخصی افراد را تهدید کند، باید بتوان راهی برای حفاظت از حریم و اطلاعات شخصی افراد پیدا کرد. مشکل اصلی از آنجا ناشی میشود که چگونه میتوان هم حریم شخصی افراد را در نظر گرفت و هم از نتایج مفید سیستمهای دادهکاوی بهره برد. برای برطرف کردن موانع موجود در این زمینه، تحقیقات زیادی در حال انجام است، اما در عمل سیستمهای دادهکاوی که بتوانند در عین حال حریم شخصی افراد را نیز حفظ کنند، هنوز در مرحله ابتدایی و آزمایشی هستند. بیشتر این تکنیکها در لایه زیرین به جای بررسی مشکلات سیستمها، روی ابزارهای محاسباتی و الگوریتمها متمرکز شدهاند. هدف ما از بررسی حریم شخصی، به دست آوردن یک دید سیستماتیک از نیازهای ساختاری و طراحی اصول و بررسی راهحلهایی است که بتوانند در سیستمهای دادهکاوی بهطور عملی از حریم شخصی افراد محافظت کنند.
منبع: IEEE Computer - آوریل 2007
طرح پایه
همانطور که در شکل 1 مشاهده میشود، دادهکاوی به همراه حفاظت از حریم شخصی، شامل چندین مرحله میشود که آنها را در یک معماری سه لایه دستهبندی میکنند: در لایه پایین تهیهکنندگان داده (data providers) قرار دارند. یعنی کسانی که مالک داده هستند و عموماً از لحاظ موقعیت مکانی در سطح گستردهای توزیع شدهاند.
تأمینکنندگان داده اطلاعات شخصی خود را به سرور انبار داده (data warehouse server) ارسال میکنند. این سرور که لایه میانی به حساب میآید، از فرایندهای تحلیل آنلاین دادهها، پشتیبانی میکند و از طریق تبدیل دادههای خام کاربران به دادههای گروهی، اطلاعاتی را برای سرورهای دادهکاوی فراهم میکند که امکان پردازش سریعتر آنها فراهم است.
سرورهای انبار داده، با جمعآوری داده با یک نظم فیزیکی خاص، نظیر استفاده از ساختار مکعبیِ چندبعدی و استفاده از توابع جمعی نظیر Sum ،Average ،Max و Min پیشمحاسبههای مختلفی از دادهها فراهم میکند. برای یک سیستم آنلاین از نوع survey، پاسخدهندگان در اصل تأمینکنندگان داده هستند که دادههای خود را به سرور انبار داده تحلیل از نوع survey، ارسال میکنند.
میانگین سن پاسخدهندگان به برنامه، میتواند یک نمونه از اجماع دادهها در سیستم به حساب آید. پردازش دادههای حاصل از توابع اجماع در سرور خیلی آسانتر از پردازش دادههای خام ارسالی توسط تهیهکنندگان داده است.
سرورهای دادهکاوی، در بالاترین لایه قرار میگیرند که کار اصلی در زمینه دادهکاوی توسط آنها انجام میشود. در یک سیستم دادهکاوی که اصول حفاظت از حریم شخصی را رعایت کرده باشد، این سرورها، نمیتوانند آزادانه به همه دادههای ذخیرهشده در انبارهای داده دسترسی داشته باشند.
برای مثال، در یک سیستم بیمارستانی، اداره حسابداری باید فقط بتواند به دادههای مالی بیماران دسترسی داشته باشد و به هیچ عنوان نباید به رکوردهای ثبت شده در مورد سوابق پزشکی آنها دسترسی داشته باشد. توسعه و ایجاد قوانین مؤثر برای دسترسی درست سرورهای دادهکاوی به دادههای انبارهای داده، یکی از مشکلاتی است که تحقیق در مورد آن به صورت ارسال و دریافت گسترده پیشنهادها، در حال انجام است.
به علاوه، یک سرور دادهکاوی ممکن است با ایجاد مدلهای دادهکاوی روی سرور انبار داده، دادههای آن را با سرورهای دادهکاوی دیگر در سیستمهای دیگر به اشتراک بگذارد. انگیزه اصلی از به اشتراک گذاشتن داده در این مدلها، ایجاد مدلهای مشابه برای دادهکاوی در بین سیستمها است.
برای مثال، شرکتهای اجارهدهنده سرور، ممکن است بخواهند روشهای دادهکاوی خود روی رکوردهای مشتریان را به اشتراک بگذارند تا به این ترتیب یک مدل جهانی دادهکاوی در مورد رفتار مشتریان ایجاد کنند که به نفع همه شرکتها خواهد بود. همانطورکه شکل 1 نشان میدهد، به اشتراک گذاشتن داده در بالاترین لایه رخ میدهد که در آن هر سرور دادهکاوی از مدل دادهکاوی مخصوص خود استفاده میکند. بنابراین در اینجا «به اشتراک گذاشتن» به معنی به اشتراک گذاشتن مدلهای دادهکاوی محلی است، نه به اشتراک گذاشتن دادههای خام.
حداقلهای ضروری برای رعایتشدن اصول پایه طراحی
برای طراحی یک سیستم دادهکاوی که حریم شخصی را نیز رعایت کرده باشد، باید ابتدا یک تعریف مشخص از حریم شخصی ارایه دهیم. تفسیر معمول برای این کلمه به این صورت است که یک داده در صورتی شخصی تلقی میشود که مالک آن حق داشته باشد، در مورد محرمانه ماندن یا افشای آن تصمیم بگیرد و مختار باشد که مشخص کند به چه علت یا تا چه اندازه میتوان این دادهها را در اختیار دیگران قرار داد.
بیشتر نظریهپردازان تفسیر عبارت «حریم شخصی در مدلسازی داده» را به این صورت در نظر میگیرند که مالک داده به صورت پیشفرض اجازه افشای دادههای شخصی خود را نداده است؛ مگر اینکه برای اجرای دادهکاوی حتماً به آن دادهها نیاز باشد.
این فرض به همراه تعریف مورد قبول برای حفاظت از اطلاعات، مبانی پایه و اصول پایه طراحی سیستمهای دادهکاوی با رعایت حریم شخصی را ایجاد میکنند:
در یک سیستم دادهکاوی، اطلاعات شخص افشا شده باید شامل حداقل دادههایی باشد که در دادهکاوی به آنها نیاز است.
در نوشتار حاضر منظور و معیار برای کلمه «حداقل»، کیفیت اطلاعات است، نه کمیت آن. از آنجا که معیار کّمی برای اندازهگیری افشای اطلاعات شخصی، در سیستمهای مختلف فرق میکند، پس حداقل دید مشترک این است که نباید هیچ یک از اطلاعات شخصی غیرضروری افشا شود (در این نوشته منظور از غیرضروری، به سطح دقت مورد نیاز در نتایج حاصلی از سیستمهای دادهکاوی بستگی دارد.). بنابراین کلمه «حداقل» به این معنی است که افشای حریم شخصی، بر مبنای نیاز به داده صورت میگیرد. خیلی از قوانین از جمله HIPPA، تبعیت از قانون حداقل نیازهای ضروری را الزامی میدانند.
پروتکلهای حریم شخصی
بر مبنای اصولی که در ساختار شکل 1 و قانون «حداقلهای ضروری» برای رعایت شدن اصول پایه طراحی عنوان شدهاست، استراتژیای را برای حفظ حریم شخصی در سیستمهای دادهکاوی پیادهسازی کردهایم. قلب این استراتژی بر مبنای سه پروتکل است که باید در هنگام تصمیمگیری در مورد افشای دادههای موجودیتهای سیستم، بررسی شوند:
1- جمعآوری داده (Data collection) که در هنگام انتقال داده از تولیدکنندگان داده به سرورهای انباره داده، از حریم شخصی دادهها، حفاظت میکند.
2- کنترل نتیجه (Infereace control) که حفاظت از حریم شخصی را هنگام انتقال داده از انبارهای داده به سرورهای دادهکاوی مدیریت میکند.
3- به اشتراکگذاری اطلاعات (information sharing) دادههای به اشتراک گذاشته شده بین سرورهای دادهکاوی در سیستمهای مختلف را کنترل میکند.
با در نظر گرفتن قانون «حداقلهای ضروری»، باید هدف مشترک این سیستمها، ساختن مدلهای دادهکاوی دقیق، با انتقال حداقل داده شخصی مورد نیاز برای دادهکاوی باشد. در عمل، ساختن سیستمی که در عین کارایی بتواند به خوبی از دادههای شخصی محافظت کند، در اکثر موارد کار سختی است.
شکل1- معماری پایه برای حفاظت از حریم شخص در فرآیندهای داده کاوی. این معماری بهطور کلی شامل سه لایه است: تهیه کنندههای داده، که مالک داده هستند. سرورهای انبار داده، که از فرآیندهای تحلیلی آنلاین پشتیبانی میکنند و سرورهای داده کاوی که کارهای داده کاوی را انجام میدهند و اطلاعات خود را به اشتراک میگذارند. هدف اصلی کنترل کردن دادههای محرمانهای است که بین این موجودیتها رد و بدل میشود؛ بدون آن که مانع فرآیند داده کاوی شویم.
به این ترتیب میبینیم که همیشه یک رابطه معکوس، بین ایجاد یک سیستم دادهکاوی دقیق یا ایجاد یک سیستم امن از نظر حفاظت از دادههای شخصی، وجود دارد. این پروتکلها، مبتنی بر متدهای اثباتشدهای هستند که طراح سیستم میتواند برای برآوردهکردن نیازهای خاصی، آنها را در نظر گیرد و در مورد نسبت افشای دادههای شخصی به دقت دادهکاوی، حالتی را انتخاب کند که بیشترین نفع را برای او داشته باشد. برای مثال، پروتکل «جمعآوری داده» میتواند از یکی از دو روش معمول برای جمعآوری داده استفاده کند که هر یک منافع و معایب خاصی دارد.
پروتکل جمعآوری داده
پروتکل جمعآوری داده (Data collection) به تهیهکنندگان داده اجازه میدهد قسمت مربوط به مورد «حداقل داده شخصی مورد نیاز برای دادهکاوی» را رعایت کنند و تضمین میکند که تنها بخش ضروری داده برای سرور انباره داده ارسال شود.
پروتکل جمعآوری داده از چندین فاکتور ایجاد شده است. اولین فاکتور ضروری، مقیاسپذیر بودن (قابل اندازهگیری) داده است؛ زیرا سرور انبار داده میتواند همانند سیستمهای نوع survey، با صدها هزار تهیهکننده داده در ارتباط باشد. ثانیاً هزینههای محاسباتی برای تهیهکنندگان داده باید کم باشد؛ زیرا آنها در مقایسه با سرورهای انبار داده، قدرت محاسباتی خیلی کمتری دارند و در نتیجه هزینه محاسباتی بالا میتواند آنها را از مشارکت در پروژههای دادهکاوی منصرف کند.
در نهایت، این پروتکل باید درست، ساده و مطمئن باشد. یعنی بتواند در عین حفاظت از حریم شخصی ارسال کننده داده، نتایج نسبتاً دقیقی را نیز ایجاد کند؛ حتی اگر ارسالکنندههای مختلف به صورت متفاوت با سیستم برخورد کنند. برای مثال، اگر بعضی از تهیهکنندگان داده در یک سیستم survey، از پروتکل سوءاستفاده کنند یا دادههای بیمعنی ارسال کنند، پروتکل جمعآوری داده باید تأثیرات ناشی از این برخورد غلط با سیستم را کنترل کند و تضمین کند که نتایج نهایی حاصل از دادهکاوی به اندازه کافی دقیق بمانند.
شکل 2 ساختار درختی مربوط به پروتکلها و زیرپروتکلهای جمعآوری داده را نشان میدهد. همانطور که میبینید پروتکل جمعآوری داده دو نوع اصلی را شامل میشود.
شکل2- ساختار درختی پروتکلهای جمعآوری داده. یک طراح باید تصمیم بگیرد که از کدام روش استفاده کند؛ روشهای مبتنی بر ارزش یا ابعاد، تا راهکارهای متناسب با آن روش به بهترین شکل با طراحی مورد استفاده تناسب داشته باشد.
روش مبتنی بر ارزش
با استفاده از روش مبتنی بر ارزش (Value-based method)، تهیهکنندگان داده به یکی از دو روش زیر به دستکاری مقادیر مربوط به هر داده میپردازند. روش مبتنی بر آشفته کردن، خطا را مستقیماً در داده اعمال میکند. برای مثال، سن را از 23 به 30 یا تگزاس را به کالیفرنیا تغییر میدهد. روش مبتنی بر اجماع دادهها را مطابق با ساختار سلسله مراتبی آنها به حالت کلیتر تبدیل میکند. برای مثال، سن 23 را به بازه 21 تا 25 یا تگزاس را به ایالات متحده تبدیل میکند.
روش مبتنی بر آشفته کردن برای دادههای اختیاری مناسب است. در حالی که روش مبتنی بر اجماع، به دانش سیستم در مورد سلسله مراتب مربوط به داده بستگی دارد و در عوض میتواند در تضمین مبهم ماندن داده نیز کمک کند. برای مثال، ابهام -k یعنی آنکه دادههای هر رکورد دادهای آشفتهشده از دادههای 1-k رکورد دیگر، غیرقابل تشخیص است.
روش مبتنی بر ارزش فرض میکند که رسیدن به دادههای شخصی از طریق بررسی دادههای دستکاری شده برای سرورهای انباره داده ناممکن یا حداقل خیلی سخت است، ولی سرور میتواند دادههای اصلی را از روی توزیع دادههای آشفته موجود بازیابی کند و در نتیجه امکان ایجاد مدلهای دادهکاوی دقیق را فراهم آورد.
روش مبتنی بر ابعاد
دلیل استفاده از نام «روش مبتنی بر ابعاد» (Dimention-based method) این است که دادههای مورد بررسی معمولاً صفات (ابعاد) زیادی دارند. ایده اصلی این است که با حذف کردن تعداد بعدهای داده، آن قسمتی از دادهها را که شخصی به حساب میآیند، جداسازی کنیم.
روش مبتنی بر block این کار را از طریق جداسازی بعضی از صفات شخصی انجام میدهد و این دسته از دادهها را در اختیار سرور انبار داده قرار نمیدهد، ولی این روش ممکن است باعث از دست دادن داده شود، ولی سرورهای دادهکاوی نتوانند از روی این دسته از دادهها، نتایج دقیقی به دست آورند.
مدل پیچیدهتری با نام مدل مبتنی بر Projection دادههای اصلی را روی زیر فضاهایی با ابعاد کمتر منعکس میکند. این زیرفضاها با دقت زیادی طراحی شدهاند تا تنها حداقل دادههای مورد نیاز برای ایجاد مدلهای دادهکاوی دقیق را شامل شوند.
مزایا و معایب
هر یک از این مدلها، مزایا و معایبی دارد. روش مبتنی بر ارزش، مستقل از وظایف دادهکاوی عمل میکند و در نتیجه برای برنامههایی مناسب است که برای وظایف دادهکاوی چندگانه یا وظایف تعریف نشده در جمعآوری داده مناسب است. از سوی دیگر، روش مبتنی بر ابعاد با وظایف دادهکاوی تکبعدی متناسب است؛ زیرا بعد از تفکیک و کم کردن ابعاد، اطلاعاتی که باید بازیابی شوند، به هدف و وظیفه مورد نظر ما بستگی دارد.
تا کنون تحقیقات نتوانسته است یک مدل کلی و قابل استفاده از الگوی مبتنی بر Projection برای همه برنامهها ایجاد کند. با این وجود باز هم این روش از لحاظ نسبت کاهش دقت به افشای اطلاعات شخصی، در مقایسه با روش مبتنی بر ارزش مزیتهای زیادی دارد.
بیشتر روشهای مبتنی بر ارزش، با صفات مختلف، به روشهای مستقل و متفاوتی برخورد میکنند. در نتیجه بعضی از صفاتی که در دادهکاوی اهمیتی ندارند نیز در همان سطح افشای دادههای مهم، برای سرور انباره داده، ارسال میشوند. مطالعات اخیر نشان میدهد که در صورت استفاده از روش آشفتهسازی تصادفی، سرور انباره داده میتواند با نقض تکنیکهای حفظ حریم شخصی، آشفتگیها را از دادههای آشفته حذف کند و به این ترتیب حداقل بخشی از دادههای محرمانه را به دست آورد.
در روش مبتنی بر projection به خاطر بررسی رابطه بین صفات و ارایه دادههای صرفاً ضروری برای دادهکاوی از مشکلات معمول در سیستم روش مبتنی بر ارزش خبری نیست.
همچنین از طریق دریافت اطلاعات در مورد دادههای ضروری، میتواند از ارایه اطلاعات شخصی غیرضروری جلوگیری کند و به این ترتیب عملکرد آشفتهسازی داده را بهبود بخشد. من و یکی از همکارانم در یکی از پروژههای سابق، الگویی را ارایه کردیم که بر مبنای دریافت راهنماییهای لازم و کاهش ابعاد داده متناسب با راهنماییهای دریافتی، پایهریزی شده بود.
این روش برای سیستمهای پویا نظیر سیستمهای survey طراحی شده بود که در آنها تهیهکنندگان داده به صورت ناهمزمان به سیستم متصل شده و دادههای مورد نظر ما را تأمین میکنند. در این الگو برای راهنمایی تهیهکنندگان داده که هنوز دادههای خود را ارسال نکردهاند، ابتدا دادههای جمعآوریشده از اعضای قبلی بررسی میشود و سپس با تحلیل آنها، دادههای ضروری برای دادهکاوی شناسایی و از تهیه کننده داده درخواست میشود. سپس سیستم درخواست دریافت صفات مورد نیاز را ارسال میکند. نمونههای قبلی نشان میدهد که الگوها و برنامههای دارای راهنما، از الگوهایی که فاقد راهنما باشند بهتر عمل میکنند.
پروتکل کنترل نتیجه
محافظت از دادههای شخصی در سرورهای انبارهداده، از طریق کنترل اطلاعات ارسالی برای سرورهای دادهکاوی میسر میشود و هدف از پروتکل کنترل نتیجه (Inference Control Protocol) نیز عملی کردن همین کار است. بر مبنای قانون حداقلهای مورد نیاز، پروتکل کنترل نتیجه تضمین میکند که دادههای سرورهای انبار داده هم برای پاسخگویی به پرسوجو از انبارهای داده عملکرد کافی دارند و هم تا حد ممکن جلوی افشای اطلاعات شخصی غیر ضروری را میگیرند.
برای طراحی و پیادهسازی پروتکل کنترل نتیجه، چندین پیشنیاز وجود دارد. یکی از این نیازها، داشتن امکان جلوگیری از ارسال نتایج است. اگر سرور دادهکاوی یک سرور مشکوک یا رقیب باشد، در این صورت سعی میکند با استفاده از نتایج پرسوجوهای قبلی خود به دادههای شخصی و محرمانه دست پیدا کند. مثالی از این روش در شکل 3 ارایه شده است.
شکل3- نتیجهگیریهایی که اطلاعات محرمانه را افشا میکنند. اگر سرور داده کاوی قصد نفود داشته باشد، میتواند از طریق پاسخ پرسوجوهای ارسالی و دادههای مربوط به بعضی از سلولهای دادهای (که با نام Known یا شناخته شده، نشان داده شدهاند)، تعداد DVDهای فروخته شده توسط فروشنده در ماه ژوئن را محاسبه کند (فرض بر ا ین است که این دادهها، محرمانه هستند و نباید افشا شوند). اگر Q1 تا Q8 به ترتیب نتیجه پرسوجوهای ارسالی باشند، کافی است برای یافتن تعداد DVDهای فروخته شده، عبارت زیر را محاسبه کنیم:
Q1+Q8=(Q5+Q6)=88-72=16
به علاوه، پروتکل کنترل نتیجه باید به اندازه کافی کارایی داشته باشد تا به درخواستهای انجام شده از سرورهای انبار داده در مدت زمان منطقی پاسخ دهد. یعنی باید زمان پاسخگویی یا همان مدت زمان بین درخواست از سرور و پاسخ سرور به درخواست، در یک بازه معقول قرار گیرد. زمانی که پروتکل کنترل نتیجه صرف میکند نیز جزو زمان پاسخگویی سرور به حساب میآید. پس این زمان نیز باید همواره کنترل شود تا زمان پاسخگویی سرور انباره داده بتواند همیشه در حد معقولی باقی بماند.
برای رسیدن به این نیازها، پروتکلهای کنترل نتیجه باید اطلاعات قرار گرفته در پاسخ پرسوجوها را محدود کنند تا سرورهای دادهکاوی نتوانند از طریق بررسی پاسخ پرسوجوهای ارسالی، به دادههای شخصی افراد دسترسی پیدا کنند.
شکل 4 ساختار درختی قوانین کنترل نتیجه را نشان میدهد که شامل دو روش برای کنترل نتیجه است.
شکل4- ساختار درختی پروتکلهای کنترل نتیجه. طراح میتواند با توجه به نیاز خود بررسی کند که کدام یک از روشها پرسوجوگرا یا دادهگرا برای او مناسبتر است.
روش پرسوجوگرا
روش پرسوجوگرا (Query-Oriented)، بر مبنای مفهوم ارایه مجموعهای از پرسوجویهای امن، بنا شده است. در این حالت به شرطی به مجموعه پرسوجوهای Q1 تا Qn، امن میگوییم که بررسی و ترکیب پاسخ آنها، در سرور دادهکاوی منجر به افشای اطلاعات خصوصی موجود در سیستم نشود.
بنابراین کنترل نتیجه به روش پرسوجوگرا به این معنی است که وقتی سرور انباره داده یک درخواست داده یا پرسوجو را دریافت کند، تنها در صورتی به آن پاسخ خواهد داد که نتوان از ترکیب نتیجه آن پرسوجو و مجموعه پرسوجوهای ذخیرهشده در تاریخچه پرسوجوهای ذخیره شده (یعنی پرسوجوهایی که قبل از این به آنها پاسخ داده شده است)، به اطلاعات خصوصی افراد دسترسی پیدا کرد.
در این حالت میگوییم که پرسوجوی ارسالی، امن است. در رابطه با کنترل نتیجه به روش پرسوجوگرا، در پایگاههای داده آماری، کنترل نتیجه در این گونه انبارهای داده نیاز به بررسی حجم عظیمی از داده را شامل میشود. در نتیجه بار کاری این نوع سرورها با کنترل نتیجه به روش استفاده و بررسی پرسوجوهای قبلی بسیار کمتر میشود و در نتیجه کارایی سیستم افزایش مییابد.
از آنجا که تشخیص پویای مجموعه پرسوجوهای امن (بررسی آنی تاریخچه پرسوجوهای انجامشده)، یک فرآیند زمانبر است، در نتیجه استفاده از حالتهای غیرپویای که معادل با این روش باشند، مناسبتر است. حالت استاتیک قبل از اتصال به شبکه، مجموعهای از پرسوجوهای امن را مشخص میکند (قبل از آنکه هر گونه پرسوجویی را دریافت کند).
اگر یک مجموعه از پرسوجوها امن باشند، در این صورت هر زیرمجموعهای از آن پرسوجوها نیز امن به حساب میآید. در هنگام اجرا و زمانی که سرور انباره داده، یک پرسوجو را دریافت میکند، تنها در صورتی به آن پاسخ میدهد که آن پرسوجو در یکی از مجموعه پرسوجوهای امن از قبل تعریف شده قرار داشته باشد. در غیر این صورت، آن پرسوجو مردود میشود.
از طرف دیگر، روش پرسوجوهای امن ولی ثابت، در تولید مجموعه پرسوجوهای امن، خیلی محتاط و محافظهکار است و در نتیجه ممکن است بعضی از پرسوجوها را مردود کند. در حالی که مردود کردن آن ها ضروری نیست.
روش دادهگرا
با استفاده از روش دادهگرا، برای کنترل نتیجه، سرور انباره داده، دادههای خام سرور را آشفته میکند و پاسخ پرسوجوها را بر مبنای این دادههای آشفته، تا حد ممکن با دقت جواب میدهد. همانطور که در شکل 4 مشاهده میشود، پروتکل جمعآوری داده میتواند آشفتگی در داده را ایجاد و مدیریت کند؛ مگر اینکه برنامه نیاز داشته باشد که دادههای اصلی را در سرور انبار داده ذخیره کند. در این موارد، برای استفاده از روش دادهگرا، سرور انبار داده باید قبل از پردازش پرسوجو، دادهها را آشفته کند.
روش دادهگرا، فرض میکند که با آشفتهسازی میتواند از افشای دادههای محرمانه، جلوگیری کند و بدون هیچ محدودیتی و بر مبنای دادههای آشفته به همه پرسوجوها پاسخ دهد. تحقیقات نشان میدهد که پاسخهای حاصل شده با استفاده از دادههای آشفته هنوز هم برای ایجاد مدلهای دادهکاوی نسبتاً دقیق، مناسب هستند.
مزایا و معایب
استفاده از هر یک از این دو روش با توجه به کاربرد خاص آنها، نیاز به رعایت نکات خاصی دارد. روش دادهگرا خود را موظف میداند به همه پرسوجوها پاسخگو باشد. از طرفی، روش پرسوجوگرا معمولاً تعداد قابلتوجهی از پرسوجوها را مردود میکند و این بدان معنا است که بعضی از سرورهای دادهکاوی ممکن است نتوانند وظایف دادهکاوی خود را کامل کنند.
مزیت روش پرسوجوگرا در این است که در مقایسه با روش دادهگرا، پاسخهای دقیقی تولید میکند. وقتی سرور انباره داده به یک پرسوجو پاسخ میدهد، جواب ارایه شده همیشه دقیق و درست است. در حالی که در روش دادهگرا دقت پاسخ به پرسوجوها همیشه حالت تقریبی دارد و به همین سبب ممکن است برای دادهکاوی خیلی هم مناسب نباشد؛ به ویژه در جاهایی که نیاز به ایجاد خروجی خیلی دقیق وجود دارد.
کارایی و سرعت بالا، یکی از مزیتهای مهم روش پرسوجوگرا از نوع غیرپویا است؛ زیرا در این روش به علت پیشمحاسبه خیلی از فرایندهای محاسباتی زمانبر، هزینه زمانی پاسخ به پرسوجو و به عبارتی زمان پاسخ به پرسوجو خیلی کوتاهتر است.
مدل پویا از نظر کارایی عملکرد ضعیفتری دارد و در عوض به تعداد بیشتری پرسوجو، پاسخگو است. با دریافت تعداد بیشتری پرسوجو سرور دادهکاوی باید زمان بیشتری را برای بررسی تاریخچه پرسوجوهای کامل شده صرف کند. روش دادهگرا هم کارایی کمی دارد؛ زیرا سربار محاسباتی ناشی از تخمین پاسخ پرسوجوها میتواند چندین برابر مدت پاسخگویی به خود پرسوجو وقت تلف کند.
یک راه برای کارایی پروتکلهای بهبود کنترل نتیجه، ترکیب کردن روشهای پرسوجوگرا و دادهگرا است. با معرفی الگوی پاسخدادن یا رد یک پرسوجو به روشهای دادهگرا، روش ترکیبی حاصل، به سرور انبار داده اجازه میدهد بعضی از پرسوجوهای نقضکننده حریم شخصی (نظیر پرسوجوی Q3 در شکل3) را مردود کند.
در نتیجه، این کار به طور مؤثری نیاز به آشفتهسازی در دادهها را کاهش میدهد و در عین حال همان سطح از حفاظت از دادهها، ارایه میشود. چون دادهها به صورت آشفته ذخیره شده است، در نتیجه سرور موظف است پرسوجوهای کمتری را مردود کند و از طرفی میتواند برای اکثر پرسوجوها جواب تقریباً درستی ایجاد کند و در همان حال از دادههای خصوصی افراد نیز حفاظت کند.
پروتکل به اشتراک گذاری اطلاعات
از آنجا که سرورهای دادهکاوی، مدلهای دادهکاوی را بر مبنای سیستم خودشان ایجاد میکند، در نتیجه هر یک از این سرورها، تمایل دارد مدل دادهکاوی خود را با دیگران به اشتراک بگذارد، نه داده خام موجود در سرور انباره داده را که برای سایر سرورهای دادهکاوی نیز در دسترس است. مدلهای دادهکاوی محلی، خودشان نیز میتوانند از لحاظ نقض حریم شخصی، حساسیت ایجاد کنند؛ به ویژه در مواردی که مدلهای محلی برای مورد خاصی ایجاد شدهاند و کاربرد کلی ندارند.
برای حفاظت از حریم شخصی در سیستمهای دادهکاوی محلی، باید مکانیزمهایی وجود داشته باشد تا جلوی افشای اطلاعات اختصاصی از مدلهای دادهکاوی محلی گرفته شود. این مکانیزم را پروتکل به اشتراکگذاری اطلاعات مینامند که دوباره برای رعایت اصل «ارایه حداقل نیازهای ضروری»، پیریزی شده است.
هدف از این پروتکل این است که سرورهای دادهکاوی در سیستمهای مختلف بتوانند در ایجاد یک مدل دادهکاوی مشترک سهیم شوند و برای رسیدن به این هدف نیز حداقل دادههای اختصاصی خود را در مورد مدلهای دادهکاوی محلی در زمینه به اشتراکگذاری اطلاعات در آن پلتفرم مشترک استفاده کنند.
تعداد زیادی پروتکل به اشتراک گذاری اطلاعات برای استفاده در برنامههایی که وظیفهای جز دادهکاوی دارند، ارائه شده است؛ نظیر برنامههای تعامل بین پایگاههای داده. به اشتراکگذاری اطلاعات برای بسیاری از سیستمهای توزیع شده، اهمیتی حیاتی دارد و بیشتر برنامهها نیز روی طراحی پروتکلهای ویژه به اشتراکگذاری اطلاعات برای فعالیتهای دادهکاوی متمرکز است.
یکی از مهمترین نگرانیها در ایجاد سیستمهای به اشتراکگذاری داده، ایجاد امکان دفاع در برابر سیستمهای نفوذیای است که با استفاده از اختیارت، کاملاً به طور دلخواه و متناسب با نیازهای خود، عمل میکنند. مدل دفاع، به مدل نفوذ (مجموعهای از فرضیات در مورد هدف نفودگر و نحوه عمل یا رفتار او) بستگی دارد. دو مدل از انواع معروف نفوذ، با نام روش semihonest (دورو) و beyond semihonest (فراتر از دو رو) شناخته میشود.
نفوذ به روش semihonest
یک نفوذگر در صورتی semihonest شناخته میشود که دقیقاً از پروتکلهای طراحی شده تبعیت کند، ولی با انجام همه محاسبات و برقراری همه ارتباطات لازم، روشهایی را برای رسیدن به اطلاعات محرمانه شناسایی کند.
ثابت شده است که رمزنگاری به روش cryptographic میتواند بهطور مؤثری جلوی نفوذ به روش semihonest را سد کند. در این روش هر سرور دادهکاوی، مدلدادهکاوی مربوط به خود را رمزنگاری میکند و مدل رمزنگاری شده را با سایر سرورهای دادهکاوی مبادله میکند.
ویژگیهای بعضی از الگوهای رمزنگاری نظیر سیستمهای مبتنی بر الگوریتم RSA یا Rivest-Shaminr-Adleman، این امکان را فراهم میآورد تا بتوان برای سرورهای دادهکاوی، الگوریتمهایی ایجاد کرد که بعضی از وظایف دادهکاوی معین را انجام دهند و بدون اطلاع از کلید خصوصی سایر موجودیتها، بعضی از وظایف تعریفشده برای آنها بهعنوان یک سرور دادهکاوی را عملیاتی کنند. این وظایف شامل دستهبندی، همراه کردن قوانین دادهکاوی، clustering دادهها، فیلترکردن تعاملی، استفاده از عملگرهایی نظیر intersection ،union و element reductionاست.
از آنجا که در این روش بدون دانستن کلیدهای private، دسترسی به مدلهای دادهکاوی اصلی، با استفاده از مقادیر رمزنگاری شده موجود امکانپذیر نیست، میتوان از این روش بهعنوان دفاعی امن در برابر نفوذهای semihonest استفاده کرد. چندی است که محققان دستهبندی روشهای رمزنگاری cryptographic را برای استفاده در سیستمهایی با تنظیمات مختلف، کاملکردهاند.
نفوذ به روش beyond semihonest
اگر سیستم نفوذگر، برای نفوذ پروتکل تعیینشده را نادیده بگیرد یا داده ورودی خود را تغییر دهد یا از این دو روش استفاده کند، در این صورت به روش نفوذ مورد استفاده، beyond semihonest میگوییم. از آنجا که دفاع در برابر این روش نفوذ، سخت یا حتی غیرممکن است، نحوه برخورد با این روشها نیز به مدلهای کاملتری نیاز دارد.
یکی از این مدلها، روش نفوذ هدفدار است که برای نفوذ، اهداف مورد نظر را با هم ترکیب کرده و با ترکیب میکند نتایج با اطلاعات محرمانه موجود در مورد سایر موجودیتها، از فرایند دادهکاوی، نتایج دقیقی را به دست میآورد. سپس یک روش برنامهریزیشده طراحی میشود تا در برابر نفوذهایی که بر مبنای نتایج دقیق حاصل از دادهکاوی و ترکیب آن با اطلاعات محرمانه موجود، طرحریزی شده است، مقابله شود.
ایده اصلی این است که پروتکلی برای به اشتراک گذاشتن دادهها ایجاد شود. به نحوی که هیچ نفوذگری نتواند در آن واحد از فرایند دادهکاوی هم به نتایج دقیقی دست پیدا کند و هم به حریم اطلاعات محرمانه سرورهای دیگر دسترسی پیدا کند. با این روش، نفوذگرهایی که بیشتر تمرکز خود را روی دقت نتایج حاصل از دادهکاوی متمرکز کردهاند، نمیتوانند برای ایجاد دقت مورد نظر به اطلاعات محرمانه سایر سرورها، دسترسی پیدا کنند.
زمینههای موجود برای بررسی بیشتر
موضوعات زیادی وجود دارد که برای تضمین دسترسی به حداکثر کارایی از طریق تکنیکهای گفته شده، باید مورد بررسی بیشتر قرار گیرند.
پیادهسازی و یکپارچگی پروتکلها
بدون شک، بسیاری از سیستمها به استفاده از این سه پروتکل نیاز دارند، ولی تحقیقات کمی وجود دارد که نیاز به این سیستمها را آشکار کرده باشد. معماری پیشنهادی و بسط داده شده توسط ما میتواند به عنوان چهارچوب و مبنایی برای مطالعه تعامل و روابط متقابل بین این پروتکلها در نظر گرفته شود. الگوهایی نظیر این مورد میتواند راهگشای روشهای کاراتر و مؤثرتر برای پیادهسازی الگوهای مناسب باشد.
نیازمندیهای یک سیستم ایجاد شده با سطوح دسترسی متفاوت برای رعایت اصول حریم شخصی
روشهای حفظ حریم شخصی در تکنیکهای دادهکاوی، به رعایت اصول درجهبندی حفاظت از حریم شخصی متناسب با نیاز تأمینکنندگان داده بستگی دارد. بیشتر تحقیقات کنونی در مورد حفظ حریم شخصی در سیستمهای شبیه به هم و معمول استوار است، که در آنها همه مالکان داده به یک اندازه به حفاظت از دادههای مرتبط با حریم شخصی نیاز دارند.
همچنین فرض میشود که سطح محافظت در مورد همه دادهها نیز یکسان است. چنین فرضیهای کاملاً غیرواقعی است و در عمل ممکن است به کاهش کارایی سیستمها منجر شود. طراحی و پیادهسازی تکنیکهایی که نیازمندیهای یک سیستم با سطوح مختلف رعایت حریم شخصی را رعایت کند، یکی از زمینههایی است که نتایج بالقوه زیادی برای آن پیشبینی شدهاست.
ارزیابی حریم شخصی
با توجه به افزایش دقت، به قیمت کاهش سطح حفاظت، باید برای حفظ حریم شخصی در سیستمهای دادهکاوی مکانیزمهایی ایجاد شود که بتوانند سطح حفاظت از حریم شخصی را ارزیابی کنند. هرچند کارهای جدید زیادی روی اندازهگیری سطح حفاظت از حریم شخصی متمرکز شده است، هنوز هیچ کسی روشی را ارایه نکرده است که به صورت عمومی بهعنوان یک تکنیک مشترک برای ارزیابی سطح حفاظت از حریم شخصی در سیستمهای دادهکاوی پذیرفته شود. یک سیستم ارزیابی سطح حفاظت از حریم شخصی، باید سه مقوله زیر را در نظر داشته باشد.
1- تنظیمات سیستم را در نظر بگیرد (علاقمندی نفوذگرها به مقدار دادهای مربوط به صفات دادهای متفاوت، در سطوح متفاوتی قرار دارد. مثلاً علاقه زیادی به شناسایی بیمارانی وجود دارد که بیماریهای واگیردار دارند).
2- باید سطوح حفاظتی متعددی که توسط هر تهیه کننده داده در مورد هر یک از عناصر دادهای درخواست میشود، در نظر گرفته شود(برای مثال بعضیها ممکن است که اطلاعات مربوط به سن خود را بهعنوان داده محرمانه در نظر گیرند. در حالیکه دیگران تمایل داشته باشند، این اطلاعات افشا شود).
3- مانند همه موارد قبل باید از قانون «حداقل نیازهای ضروری» تبعیت شود.
یک مطالعه کامل در زمینه ارزیابی حفظ حریم شخصی نشان میدهد که هر سه پروتکل مذکور نقش زیادی در بهبود حفظ حریم شخصی در تکنیکهای دادهکاوی دارند.
شناسایی بینظمیها (anomaly)
یک برنامه ساده دادهکاوی موظف است بینظمیهای مجموعههای دادهای را شناسایی کند؛ همانطور که از دادههای فایلهای log برای شناسایی هر گونه نفوذ در سیستم استفاده میشود. با این حال تحقیقات کمی وجود دارد که به شناسایی نفوذهای انجام شده از طریق بررسی anomalyها، بپردازد.
تحقیق روی آنومالی، یکی از زمینههای مهم در سیستمهای دادهکاوی است و میتواند به ایجاد قوانین متفاوتی در زمینه امنیت، امور مالی و امور پزشکی بیانجامد. بهطور کلی سرمایهگذاری در زمینههایی نظیر طراحی تکنیکهای محافظت از حریم شخصی برای شناسایی anomaly در سیستمهای دادهکاوی، زمینه کاری بسیار مفیدی به حساب میآید.
سطوح محافظتی چندگانه
در بعضی موارد ایجاد چندین لایه امنیتی برای اطلاعات محرمانه، ضروری به نظر میرسد. برآورد نیاز به محافظت در اولین سطح در مورد ارزش دادهها و در دومین سطح در مورد حساسیت دادهها، انجام میشود (یعنی دانستن اینکه یک مدخل دادهای محرمانه است یا نه).
بیشتر تحقیقات کنونی، روی محافظت در اولین سطح متمرکز هستند و فرض میکنند که مقدار فاکتور دوم برای همه مدخلها مشخص است. البته تحقیقاتی نیز انجام شده است تا نحوه محافظت از اطلاعات محرمانه در سطح دوم و حتی سطوح بعد نیز مشخص شود.
جمعبندی
کار ما روی اولین مرحله در تعیین مشکلات اصلی و سیستماتیک در محافظت از حریم شخصی در سیستمهای دادهکاوی متمرکز شده است. تحقیقات بیشتر در این زمینه به بررسی نقاط قوت این معماری و اصول طراحی تعریف شده در این مقاله، میپردازد. تاکنون بیشتر گرایشها به سمت حفاظت حریم شخصی در سیستمهای دادهکاوی بوده است، ولی کاملاً مشخص است که این ایدهها به حجم کار زیادی نیاز دارند تا به سیستمهای عملیاتی واقعی تبدیل شوند.
برای پیادهسازی سیستمهای حفاظت از حریم شخصی روی سیستمهای واقعی، به مطالعات زیادی نیاز است تا بتوان با تکیه بر آن نگرانی مالکان داده در مورد حفظ حریم شخصی را کاملاً برطرف کرد. البته زمینههای کاری حساستر به ایجاد و مدیریت برنامههایی مربوط میشود که در زمینه بهداشت و درمان، تحلیل بازار و امور مالی استفاده خواهند شد. امیدواریم کسانی هم پیدا شوند که به کار و بررسی در مورد این زمینهها بپردازند.