سفارش تبلیغ
صبا ویژن

مقالات آموزشی

داده کاوی و تکنیک های آن

    نظر

به صورت ساده این گونه می توان بیان کرد که داده کاوی به استخراج دانش از حجم انبوهی از داده ها اطلاق می شود. به همین دلیل بسیاری از افراد این واژه را مترادفی برای واژه کشف دانش می دانند. داده کاوی در واقع مرحله ای از فرآیند کشف دانش تلقی می شود. داده کاوی شامل مجموعه ای از تکنیک هایی است که در حوزه های دیگر علمی مانند پایگاه داده ها، آمار، یادگیری ماشین، شبکه های عصبی، بازیابی اطلاعات و تشخیص الگو می توان آن را یافت.

از یک نقطه نظر می توان عملیات داده کاوی را در دو گروه دسته بندی نمود، که دسته اول به توصیف خصوصیت داده ها در پایگاه داده ها می پردازد و عملیات دسته دوم با مدل سازی داده های در دسترس سعی می کند تا یک پیش بینی صحیح از داده های آتی و آزمایشی داشته باشد. مواقعی که کاربر هیچگونه نظری در مورد نوع الگوها ندارد، می تواند از این دو روش استفاده و نتایج را مشاهده و ارزیابی کند.

به طور معمول کلیه الگوهای تولید شده توسط الگوریتم برای کاربر مفید نیستند و تنها کسر کوچکی از این الگوها می توانند برای تحلیلگر و کاربر جالب باشند. در این راستا سه سوال اساسی مطرح می شود:

- چه چیزی باعث می شود که ما یک الگو را جالب بدانیم؟

- آیا یک سیستم داده کاوی قادر به تولید تمام الگوهای جالب هست؟

- آیا یک سیستم داده کاوی می تواند فقط الگوهای مورد نیاز و جالب را تولید کند؟

چه نوع الگوهایی جالب هستند:

- توسط انسان به راحتی قابل فهم باشند.

- درستی آنها با درجه ای از قطعیت برای داده های جدید و آزمایشی تضمین شده باشند.

- مفید و بدیع باشند.

- برای فرضیه های تعریف شده توسط کاربر معتبر باشند.

این موضوع که یک سیستم داده کاوی تمامی الگوهای ممکن را تولید کند، نه کارآمد است و نه واقع بینانه. در مقابل هر کاربر به معرفی محدودیت ها و معیارهایی می پردازد تا الگوریتم به تولید برخی از آنها اکتفا کند. در بسیاری از موارد فضای جستجوی الگوها آنقدر وسیع است که تولید تمامی الگوها چنانچه امکانپذیر هم باشد به صورت قابل توجهی زمانبر خواهد بود. یک سیستم نمی تواند فقط الگوهای مورد توجه کاربر را تولید کند. پس از مرحله داده کاوی و در فرآیند استخراج دانش به معیارهایی نیاز خواهیم داشت تا میان الگوهای استخراج شده یک رتبه بندی مناسب تشکیل دهند و از الگوهای مزاحم صرفنظر کنند.

تکنیک های متنوعی در داده کاوی وجود دارند که الگوهای مختلفی را تولید می کنند. روش های کشف قوانین انجمنی، طبقه بندی داده ها و خوشه بندی از عمده ترین راه کارهایی محسوب می شوند که به تولید الگوهای خاص خود می پردازند.

قوانین انجمنی:

طی سال های گذشته در میان تکنیک ها داده کاوی توجه خاصی به الگوریتم های کشف الگوهای مکرر وجود داشته است. همانطور که از نام این الگوریتم ها مشخص است، به دنبال الگوهایی هستیم که به دفعات در مجموعه داده ها دیده می شوند. در این میان به الگوریتم های کشف مجموعه اقلام مکرر بیشتر پرداخته شده است که در نهایت به تولید قوانین انجمنی منجر می شود.

داده کاوی و تکنیک های آن

در بسیاری از کاربردها روزانه داده های زیادی ذخیره می شوند. به عنوان مثال در یک بانک روزانه تراکنش های متعددی انجام می شود و یا اجناس خریداری شده از فروشگاه های زنجیره ای حجم وسیعی از حافظه کامپیوتر را اشغال می کنند. سبد خرید مجموعه ای از اقلام خریداری شده توسط مشتری در یک تراکنش ساده می باشد. بسیاری از مدیران فروشگاه ها علاقه مند هستند که رفتارهای مشتریان خود را تحلیل کنند. یک تحلیل مرسوم که بر روی پایگاه داده تراکنشی انجام می شود، یافتن مجموعه اقلامی است که همراه با خیلی از تراکنش ها ظاهر می شوند. یک مدیر می تواند با اطلاع از این موضوع و با اعمال تغییراتی برای اقلام مزبور، فروش خود را بهبود بخشد.

در قوانین انجمنی وابستگی های مهم میان اقلام موجود در یک پایگاه داده تراکنشی را مشخص می کنیم، به نحوی که حضور برخی اقلام در تراکنش ها بر حضور برخی اقلام دیگر در همان تراکنش دلالت دارد. برای مثال می خواهیم بدانیم مشتریانی که شیر می خرند، آیا تمایلی برای خرید نان هم از خود نشان می دهند؟ یا چند درصد از مشتریان را می توان یافت که از دو نوع تسهیلات مانند وام مسکن و وام خودرو در بانک استفاده کرده اند.

یک قانون انجمنی با عبارت X→ Y بیان می شود که در آن X و Y مجموعه اقلام غیر تهی هستند که هیچ گونه اشتراکی ندارند (X∩Y=Ø). دو معیار پشتیبان و اطمینان به منظور ارزیابی قوانین انجمنی استفاده می شوند. هر چند معیارها فقط به این دو ختم نمی شوند. مقدار پشتیبان نشان می دهد که در چند درصد از تراکنش های پایگاه داده می توان مجموعه اقلام X و Y را همراه یکدیگر پیدا کرد و مقدار اطمینان در میان تراکنش هایی که مجموعه اقلام X را در خود دارند به دنبال مجموعه اقلام Y می گردد. به این نکته توجه داشته باشید که تراکنش های حاوی X می تواند شامل Y نباشد و بالعکس. الگوریتم های کشف قوانین انجمنی مستعد تولید تعداد بسیار زیادی از قوانین هستند. حتی با تعداد کم اقلام داده ها نیز با حجم وسیعی از قوانین روبرو هستیم. چنانچه فرض کنیم کلیه الگوها مفید هستند، برای کاربر امکانپذیر نیست تا قضاوت مناسبی میان آنها داشته باشد. بدین علت نیاز به الگوریتم های موثر جهت محدود نمودن این فضای وسیع و همچنین معیارهایی جهت ارزیابی قوانین انجمنی به خوبی احساس می شود.

طبقه بندی:

پایگاه داده ها منبع بسیار غنی از اطلاعات پنهان است که می توان به کمک این اطلاعات تصمیمات هوشمندی را اتخاذ نمود. در این میان طبقه بندی و تخمین دو شکل از تحلیل داده ها محسوب می شوند که می توان به کمک آنها مدلی جهت توصیف داده ها استخراج کرد و یا برای داده های بعدی جهتی متصور شد. بدین وسیله داده هایی با حجم بالا نیز بهتر فهمیده می شوند.

روش های نظارت شده ای مانند طبقه بندی و تخمین تلاش می کنند تا رابطه میان صفات خاصه ورودی (که گاه متغیرهای مستقل نامیده می شوند) را با یک یا چندین صفت خاصه هدف (که گاه متغیر وابسته نامیده می شوند) کشف کنند. در نهایت این رابطه با یک ساختار به عنوان مدل نمایش داده می شود. با کمک این مدل و با شرط داشتن صفات خاصه ورودی می توانیم مقدار صفت خاصه هدف را تخمین بزنیم. به عبارت دیگر با کمک مدل قادر هستیم نمونه ها را به یکی از چندین طبقه تعریف شده منتسب و یا مقدار تعیین شده ای را برای صفت خاصه هدف تعیین کنیم.

فرآیند ساخت مدل یک فرآیند دو مرحله ای است که در مرحله اول با کمک مجموعه داده های آموزشی که برچسب کلاس تمام نمونه های آن مشخص است، مدل ساخته می شود. این مرحله به نام مرحله یادگیری شناخته می شود. در مرحله دوم با کمک مجموعه داده های آزمایشی که در آن معمولا برچسب کلاس ها نامعلوم است، مدل به دست آمده اعتبار سنجی می شود. در واقع ارزشیابی مدل با توجه به این که کلاس چه تعداد از نمونه داده های آزمایشی درست تخمین زده شده است، محاسبه می شود.

خوشه بندی:

فرآیند گروه بندی مجموعه ای از داده ها و قرار دادن آنها در طبقاتی از نمونه های مشابه، خوشه بندی نام دارد. یک خوشه مجموعه ای از داده هاست که نسبت به دیگر داده های همان خوشه شبیه بوده ولی متفاوت از نمونه های دیگر خوشه ها می باشد. تحلیل خوشه ها یکی از فعالیت های مهم انسانی است. در واقع انسان در کودکی می آموزد که چگونه بین اشیاء مختلف فرق بگذارد. این امر به دلیل افزایش مستمر طرح های ناخودآگاه دسته بندی اشیاء در ذهن اوست. تحلیل خوشه ها کاربردهای بسیار متنوعی از جمله تشخیص الگو، تحلیل داده ها، پردازش تصاویر و تحلیل های تجاری را دارد. با این شیوه می توان مناطق پر جمعیت و کم جمعیت را مشخص نمود و بدین ترتیب پراکندگی ها و همبستگی های جالب میان خصویات داده ها را کشف نمود.

در مراحل کشف و استخراج دانش، خوشه بندی می تواند برای پیش پردازش داده ها و یا آماده سازی آن به کار برده شود. در ضمن بسته های نرم افزاری بسیاری همچون SPSS و SAS دارای روش های کلاسیکی از خوشه بندی هستند که این موضوع اهمیت مسئله را در تحلیل داده ها بیش از پیش مشخص می سازد. یک الگوریتم خوشه بندی می تواند دارای مشخصات مطلوبی نظیر قابلیت مقیاس پذری، توانایی مواجهه با انواع داده ها،استخراج خوشه هایی به هر شکل دلخواه، توانایی مقابله با داده های نویز، عدم حساسیت به ترتیب ورود داده ها، عدم نیاز به پارامترهای ورودی، پذیرش داده هایی با ابعاد بالا، قابلیت یافتن خوشه هایی مبتنی بر محدودیت و همچنین قابل فهم بودن نتایج نهایی الگوریتم باشد.

موضوع اصلی در تکنیک های خوشه بندی تشابه و عدم تشابه دو نمونه داده است. در هر خوشه نمونه هایی که تشابه بیشتری دارند، قرار می گیرند. به عبارتی دیگر قرار است تا نمونه های مشابه در یک خوشه و نمونه های غیر مشابه در خوشه های متفاوت گروه بندی شوند. بنابر این به منظور ارزیابی تشابه نیاز به یک مقیاس و یا یک معیار ضروری است. از آنجا که هر نمونه می تواند شامل صفات خاصه متعددی باشد و هر یک از این صفات خاصه یک نوع داده تلقی می شود، لذا در محاسبه یا تحلیل تشابه دو نمونه باید معیارهای تشابه برای انواع داده ها تعریف شوند.

منبع: آوا وب