۱۳۸۹ اردیبهشت ۲۴, جمعه

داده کاوی Data mining

مقدمه
در دنیای بشدت رقابتی امروز، اطلاعات بعنوان یکی از فاکتورهای تولیدی مهم
پدیدار شده است. در نتیجه تلاش برای استخراج اطلاعات از داده ها توجه
بسیاری از افراد دخیل در صنعت اطلاعات و حوزه های وابسته را به خود جلب
نموده است.
حجم بالای داده های دائما در حال رشد در همه حوزه ها و نیز تنوع آنها به
شکل داده متنی، اعداد، گرافیکها، نقشه ها، عکسها، تصاویر ماهواره ای و
عکسهای گرفته شده با اشعه ایکس نمایانگر پیچیدگی کار تبدیل داده ها به
اطلاعات است. علاوه بر این، تفاوت وسیع در فرآیندهای تولید داده مثل روش
آنالوگ مبتنی بر کاغذ و روش دیجیتالی مبتنی بر کامپیوتر، مزید بر علت شده
است. استراتژیها و فنون متعددی برای گردآوری، ذخیره، سازماندهی و مدیریت
کارآمد داده های موجود و رسیدن به نتایج معنی دار بکار گرفته شده اند.
بعلاوه، عملکرد مناسب ابرداده که داده ای درباره داده است در عمل عالی
بنظر میرسد.

پیشرفتهای حاصله در علم اطلاع رسانی و تکنولوژی اطلاعات، فنون و ابزارهای
جدیدی برای غلبه بر رشد مستمر و تنوع بانکهای اطلاعاتی تامین می کنند.
این پیشرفتها هم در بعد سخت افزاری و هم نرم افزاری حاصل شده اند.
ریزپردازنده های سریع، ابزارهای ذخیره داده های انبوه پیوسته و غیر
پیوسته، اسکنرها، چاپگرها و دیگر ابزارهای جانبی نمایانگر پیشرفتهای حوزه
سخت افزار هستند. پیشرفتهای حاصل در نظامهای مدیریت بانک اطلاعات در طی
چهار دهه گذشته نمایانگر تلاشهای بخش نرم افزاری است. این تلاشها در بخش
نرم افزار را میتوان بعنوان یک حرکت پیشرونده از ایجاد یک بانک اطلاعات
ساده تا شبکه ها و بانکهای اطلاعاتی رابطه ای و سلسله مراتبی برای
پاسخگویی به نیاز روزافزون سازماندهی و بازیابی اطلاعات ملاحظه نمود.
بدین منظور در هر دوره، نظامهای مدیریت بانک اطلاعاتی مناسب سازگار با
نرم افزار سیستم عامل و سخت افزار رایج گسترش یافته اند. در این رابطه
میتوان از محصولاتی مانند، Dbase-IV, Unify, Sybase, Oracle و غیره نام
برد.

داده کاوی یکی از پیشرفتهای اخیر در راستای فن آوریهای مدیریت داده هاست.
داده کاوی مجموعه ای از فنون است که به شخص امکان میدهد تا ورای داده
پردازی معمولی حرکت کند و به استخراج اطلاعاتی که در انبوه داده ها مخفی
و یا پنهان است کمک می کند. انگیزه برای گسترش داده کاوی بطور عمده از
دنیای تجارت در دهه 1990 پدید آمد. مثلا داده کاوی در حوزه بازاریابی،
بدلیل پیوستگی غیرقابل انتظاری که بین پروفایل یک مشتری و الگوی خرید او
ایجاد میکند اهمیتی خاص دارد.

تحلیل رکوردهای حجیم نگهداری سخت افزارهای صنعتی، داده های هواشناسی و
دیدن کانالهای تلوزیونی از دیگر کاربردهای آن است. در حوزه مدیریت
کتابخانه کاربرد داده کاوی بعنوان فرایند ماخذ کاوی نامگذاری شده است.
این مقاله به کاربردهای داده کاوی در مدیریت کتابخانه ها و موسسات آموزشی
می پردازد. در ابتدا به چند سیستم سازماندهی داده ها که ارتباط نزدیکی به
داده کاوی دارند می پردازد؛ سپس عناصر داده ای توصیف میشوند و درپایان
چگونگی بکارگیری داده کاوی در کتابخانه ها و موسسات آموزشی مورد بحث قرار
گرفته و مسائل عملی مرتبط در نظر گرفته می شوند.
مديريت ذخيره سازی و دستيابی اطلاعات

داده های اطلاعاتی(Data) به عنوان يکی از منابع حياتی سازمان شناخته می
شود و بسياری از سازمان ها با اطلاعات و دانش سازمانی خود مانند ساير
دارايی های ارزشمندشان برخورد می کنند .
نکته: داده اطلاعاتی (Data) به اطلاعات خام سازمان اتلاق می‌شود و
اطلاعات (Information) به داده‌های پردازش شده. همچنين داده های پردازش
شده پس از طبقه بندی و آناليز به دانش سازمان (Knowledge) تبديل می
گردند.

حال تصور نماييد، دسترسی به اطلاعات (Information) در شرايطی که داده‌ها
به روش نامناسبی نگهداری شوند و يا روش ضابطه مندی جهت دستيابی به آنها
وجود نداشته باشد تا چه حد مشکل است . برای رسيدن به يک سيستم اطلاعاتی
مناسب، داده‌ها می بايست به صورتی منطقی طبقه بندی و ذخيره شوند تا
استفاده از آن ها ساده‌تر بوده، با کارايی بيشتری تحليل شوند و سريعتر
مورد استفاده قرار گيرند و در نتيجه مديريت بهتری بر آن ها اعمال شود. در
اين راستا مجموعه خدمات زير در زمينه مديريت بانک های اطلاعاتی توسط اين
شرکت ارايه می‌شود :

ساختار بانک اطلاعاتی سازمان:
داده های سازمان ها در انواع بانک های اطلاعاتی و با ساختارهای متنوعی
ذخيره می‌گردند . طراحی و سازماندهی اين ساختارها، بکارگيری و انتقال به
بانک‌های اطلاعاتی پيشرفته و بهينه سازی آن ها يکی خدماتی است که توسط
درسا رسانه هوشمند ارايه می شود .


داده کاوی (Data Mining):
کاوش‌های ماشینی در داده‌ها یا داده‌کاوی (Data mining) را باید یکی از
سامانه‌های هوشمند (Intelligent systems) دانست. سامانه‌های هوشمند زیر
شاخه‌ایست بزرگ و پر‌کاربرد از یادگیری ماشینی که خود زمینه‌ای‌ست در هوش
مصنوعی. زمینه علمی جدید و پهناور یادگیری ماشینی (که "کاوش‌های ماشینی
در داده‌ها" بخشی ست بزرگ از زیر شاخه سامانه‌های هوشمند آن ست)، به واقع
همان امتداد و استمرار دانش کهن و همه جا گیر آمار است در جهت ماشینی
کردن یادگیری، تعلّم، و سرانجام، دانش.
داده کاوی به عنوان مهمترين کاربرد Data Warehouse یاانباره های داده
شناخته می شود . به وسيله داده کاوی داده های موجود مورد تحليل قرار می
گيرند تا روندهای احتمالی، ارتباط‌هاي غير محسوس و الگو های مخفی داده ها
از بين انبوه داده ها، شناسايی شوند .
در اين فرايند از الگوريتم های پيچيده رياضی و آماری استفاده می شود تا
داده ها تبديل به دانش سازمان شوند.

امروزه با حجم عظيمي از داده ها روبرو هستيم. براي استفاده از آنها به
ابزارهاي كشف دانش نياز داريم. داده كاوي به عنوان يك توانايي پيشرفته در
تحليل داده و كشف دانش مورد استفاده قرار مي گيرد. داده كاوي در علوم
(ستاره شناسي،...)‌در تجارت (تبليغات، مديريت ارتباط با مشتري،...) در وب
(موتورهاي جستجو،...) در مسايل دولتي (فعاليتهاي ضد تروريستي،...) كاربرد
دارد. عبارت داده كاوي شباهت به استخراج زغال سنگ و طلا دارد. داده كاوي
نيز اطلاعات را كه در انبارهاي داده مدفون شده است، استخراج مي كند.
در واقع هـــــدف از داده كاوي ايجاد مدل هايي براي تصميم گيري است. اين
مدلها رفتارهاي آينده را براساس تحليلهاي گذشته پيش بيني مي كنند. به
كاربردن داده كاوي به عنوان اهرمي براي آماده سازي داده ها و تكميل
قابليتهاي انباره داده (DATA WAREHOUSE) ، بهترين موقعيت را براي به دست
آوردن برتريهاي رقابتي ايجاد مي كند.
سيستم هاي بانك داده (DATA BASE) ، نقشي كليدي در سيستم هاي مديريت و
انبار داده، بازي مي كنند. يك سيستم بانك داده، شامل فايل هاي بانك داده
و سيستم هاي مديريت بانك داده است.
اغلب تجارت ها به تصميم گيريهاي استراتژيك و يا اتخاذ خط مشي هاي جديد
براي خدمت رساني بهتر به مشتريان نياز دارند. به عنوان مثال فروشگاهها
آرايش مغازه خود را براي ايجاد ميل بيشتر به خريد مجدداً طراحي مي كنند و
يا خطوط هواپيمايي تسهيلات خاصي را براي مشتريان جهت پروازهاي مكرر آنها
در نظر مي گيرند. اين دو مثال به داده هايي در مورد رفتار مصرفي گذشته
مشتريان براي تعيين الگوهايي به وسيله داده كاوي، نياز دارد. براساس اين
الگوها تصميمـــات لازم اتخاذ مي شود. در واقع ابزار داده كــــاوي، داده
را مي گيرد و يك تصوير از واقعيت به شكل مدل مي سازد، اين مدل روابط
موجود در داده ها را شرح مي دهد.

از نظر فرايندي فعاليتهاي داده كاوي به سه طبقه بندي عمومي تقسيم مي شوند:

اكتشاف : فرايند جستجو در يك بانك داده براي يافتن الگوهاي پنهان، بدون
داشتن يك فرضيه از پيش تعيين شده درباره اينكه اين الگو ممكن است چه
باشد.

مانند تحليلهايي كه برحسب كالاهاي خريداري شده صورت مي گيرد، اينگونه
تحليلهاي سبدي نشانگر موارديست كه مشتري تمايل به خريد آنها دارند. اين
اطلاعات مي تواند به بهبود موجودي، استراتژي طراحي، آرايش فروشگاه و
تبليغات منجر گردد.

مدل پيش بيني : فرايندي كه الگوهاي كشف شــده از بانك داده را مي گيرد و
آنها را براي پيش بيني آينده به كار مي برد.

مانند پيش بيني فروش در خرده فروشي، الگوهاي كشف شده براي فروش به آنها
كمك مي كند تا تصميماتي را در رابطه با موجودي اتخاذ كنند.

تحليلهاي دادگاهي : به فرايند به كارگيري الگوهاي استخراج شده براي يافتن
عوامــل داده اي نامعقول و متناقض مربوط مي شود.
مانند شناسايي و تشخيص كلاهبرداري در موسسات مالي. كلاهبرداري به ميزان
زيادي پرهزينه و زيان آور است، بانكها مي توانند با تحليل دادوستدهاي
جعلي گذشته الگوهايي را براي تشخيص و كشف كلاهبرداري به دست آورند.
از نمایی دیگر، داده كاوي ، بعنوان روشي در استخراج دانش از متون، يكي
از موضوعات مهم در گستره اي از اعمال مديريت اطلاعات است. در اين ميان
آنچه از اهميت فوق العاده اي برخوردار است ارايه راه‌كارهايي براي مواجه
با اين حجم عظيم اطلاعاتي و استفاده بهينه از اطلاعات در جهت خلق دانش،
توليد سينرجي و در نهايت افزايش خرد جمعي است.
در سالهاي اخير اهميت متون به عنوان منابع با پتانسيل اطلاعاتي بسيار
بالا به نحو گسترده‌اي مورد توجه قرار گرفته به طوري كه كشف دانش از متون
به عنوان يكي از مهمترين فعاليتهاي محققين حوزه هوش مصنوعي و فناوري
اطلاعات قرار گرفته است. تحقيقات بسياري صورت گرفته اما محدوده فعاليت
بقدري گسترده است كه نيازمند توجه بيشتري مي‌باشد.
امروزه محققان به اين مسئله معترفند كه با وجود انجام تحقيقات بي وقفه در
زمينه كاري خود، نمي‌توانند همزمان با پيشرفت دانش، معلومات خود را به
روز نگاه دارند. بعنوان مثال بانك اطلاعاتي Medline در حال حاضر حاوي 10
ميليون چكيده مقاله است و هر هفته بين هفت تا هشت هزار چكيده مقاله به
اين بانك اطلاعاتي افزوده مي‌شود. در اين بين شايد همه مقالات مربوط به
يك دانش خاص نباشند، اما تعداد مقالات تخصصي كه در حوزه تحقيق يك دانش
خاص قرار مي‌گيرد به اندازه اي است كه يك نفر نمي‌تواند ادعا كند همه
آنها را مطالعه كرده است بعلاوه نقش مطالعات عميق و گسترده و استخراج
ايده ها و دانش جديد از مطالب مطالعه شده بر كسي پوشيده نيست.
در اين ميان اينترنت بعنوان بزرگترين منبع اطلاعاتي همگاني، تشكيل يافته
از صد ها ميليون صفحه اطلاعات است كه به جهت همگاني بودن آن و نبود
آينده‌نگري كافي در زمان تشكيل و رشد آن ، متحمل نگاهداري اطلاعات
نويسندگان، محققان ، انديشمندان و غيره به همان نحوي كه آنها مي نوشتند
گرديد. نبود يك استاندارد همه جانبه و دقيق در تنظيم متون و قرار گيري
اين مجموعه عظيم بصورتي غير ساختيافته و يا بعضاً نيمه ساختيافته، جامعه
اطلاعاتي را دچار نوعي سردر گمي و مشكل در دستيابي به اطلاعات مورد نياز
كرده بطوري‌كه براي يافتن مطالب مورد نظر خود متحمل هزينه هاي زماني
بسياري مي‌گردند. محققان به ارايه راه كارهايي براي ساخت يافته كردن
اطلاعات نمودند و با ارايه زبانهاي نشانه گذاري استاندارد نظير XML تا حد
زيادي جلوي اين از هم پاشيدگي اطلاعاتي را گرفتند اما آنچه همچنان باقي
است وجود بسياري از متون غير ساخت‌يافته مي‌باشد؛ در همين راستا ارايه
ابزاهايي كه با بررسي متون بتوانند تحليلي روي آنها انجام دهند منجر به
شكل گيري زمينه‌اي جديد در هوش مصنوعي و فناوري اطلاعات گرديده كه به
يادگيري متن معروف است.
اين حوزه تمام فعاليتهايي كه به نوعي به دنبال كسب دانش از متن هستند را
شامل مي‌گردد. آناليز داده هاي متني توسط تكنيكهاي يادگيري ماشين،
بازيابي اطلاعات هوشمند، پردازش زبان طبيعي يا روشهاي مرتبط ديگر همگي در
زمره مقوله يادگيري متن قرار مي‌گيرند. يكي از روشهايي كه ذكر گرديد،
استفاده از تكنيكهاي يادگيري ماشين در زمينه پردازش متن است، مسئله قابل
تامل اين است كه اين تكنيكها در ابتدا در مورد داده هاي ساخت‌يافته به
كار گرفته شدند و علمي به نام داده كاوي را بوجود آوردند. داده هاي
ساخت‌يافته به داده هايي اطلاق مي‌گردد كه بطور كاملاً مستقل از همديگر
ولي يكسان از لحاظ ساختاري در يك محل گردآوري شده اند. انواع بانكهاي
اطلاعاتي را مي‌توان نمونه هايي از اين دسته اطلاعات نام برد. در اينصورت
مسئله داده كاوي عبارت از كسب اطلاعات و دانش از اين مجموعه ساخت يافته.
اما در مورد متون كه عمدتاً غير ساخت يافته يا نيمه ساخت يافته هستند
ابتدا بايد توسط روشهايي ، آنها را ساختارمند نمود و سپس از اين روشها
براي استخراج اطلاعات و دانش از آنها استفاده كرد. به هر حال استفاده از
داده كاوي در مورد متن خود شاخه اي ديگر را در علوم هوش مصنوعي بوجود
آورد به نام متن كاوي . از جمله فعاليتهاي بسيار مهم در اين زمينه، طبقه
بندي (دسته بندي) متن مي‌باشد.
طبقه بندي متن، يعني انتساب اسناد متني بر اساس محتوي به يك يا چند طبقه
از قبل تعيين شده، يكي از مهمترين مسايل در متن كاوي است؛ مرتب كردن
بلادرنگ نامه هاي الكترونيكي يا فايلها در سلسله مراتبي از پوشه ها،
تشخيص موضوع متن، جستجوي ساختيافته و/ يا پيدا كردن اسنادي كه در راستاي
علايق كاربر ميباشد، از جمله كاربردهاي مبحث طبقه بندي (دسته بندي-كلاسه
بندي ) متن است. در بسياري از موارد ، افراد حرفه اي آموزش ديده، براي
طبقه بندي متون جديد به كار گرفته مي‌شوند. اين فرآيند بسيار زمان بر و
پر هزينه است و لذا كاربرد خود را محدود مي‌سازد، به همين منظور علاقه
روزافزوني به توسعه فناوري هايي در دسته بندي خودكار متن ابراز ميشود.
در هر حال در جوامع اطلاعاتي امروزي آنچه از اهميت روزافزوني برخوردار
است، اطلاعات و تبادل آن است و در اين راستا به توسعه فناوري هاي مرتبط
پرداخته مي‌شود، اما يك مرحله كاملاٌ جديد تر و كاملاً مورد توجه جوامع
فرا صنعتي، خلق دانش جديد از اطلاعات قبلي است كه اين جوامع آنرا كليد
موفقيت خود در آينده دانسته و به سختي در اين زمينه فعاليت مي‌نمايند. بر
ما است تا ضمن ارتقاي فناوري اطلاعات در كشور و ايجاد زير ساختهاي لازمه
در اسرع وقت، به اينگونه مسائل جدي‌تر كه در زمره Information High
Technology قرار مي‌گيرند، بپردازيم.

پیشرفت در تکنولوژیهای داده پردازی
سازمانهای بزرگ و چند- مکانه مثل بانکها، دفاتر هواپیمایی و فروشگاههای
زنجیره ای با حجم زیادی از داده ها که ناشی از عملکرد روزانه آنهاست
روبرو هستند. بطور سنتی چنین داده هایی به دو دسته تقسیم شده اند:
1. رکوردهای اصلی
2. رکوردهای عملیاتی
فرض بر این است که رکوردهای اصلی حاوی اطلاعات پایه هستند که معمولا
چندان تغییر نمی کنند در حالیکه رکوردهای عملیاتی با توجه به طبیعت
عملیات تجاری حتی بطور ساعتی تغییر خواهند کرد.
سیستمهای مدیریت پایگاه داده مناسب برای پیوند دادن این دو مجموعه
اطلاعاتی و تهیه گزارشهای استاندارد جهت کنترل فعالیتها گسترش یافتند.
سیستم اطلاعات مدیریت رایج برای پشتیبانی عملیات و سرویس دهی به چند
کاربر در سطوح مختلف سازمان مبتنی بر این نظریه است.
بمنظور کمک به تصمیم گیری راهبردی، نظریه تاسیس بانک اطلاعات رکوردهای
اصلی به نظریه سازماندهی دیتا مارت و انبار داده ها تغییر یافت. استخراج
اطلاعات از رکوردهای عملیاتی یا پایگاههای اطلاعات عملیاتی و سازماندهی
آن برای تحلیل استاندارد یا زمانی فلسفه اولیه و اصولی چنین پیشرفتهایی
است. گرچه، دیتا مارت و انبار داده ها از نظر هدف و ساختار با هم
متفاوتند.

دیتامارت
دیتا مارت اغلب کوچک است و بر یک موضوع یا دپارتمان خاص متمرکز است.
بنابراین پاسخگوی یک نیاز داخلی است. طرح بانک اطلاعات برای یک دیتامارت
حول ساختار اتصال ستاره ای ساخته شده است که بهینه برای نیازهای کاربران
دپارتمان است. دیتامارت معمولا با ابزارهای کامپیوتری که انعطاف پذیری
تحلیل را تامین میکنند اما ممکن است برای سازماندهی حجم بالای داده ها
مناسب نباشند؛ نیرومند میشود. رکوردهای ذخیره شده در دیتامارتها بخوبی
نمایه شده اند.
یک دیتامارت در صورتیکه داده ها را از منابع داده ای بسیار سازماندهی شده
مثل انبار داده ها بگیرد؛ دیتامارت وابسته نامیده میشود. مسلما
دیتامارتهای وابسته از لحاظ ساختاری و معماری منطقی هستند. منبع
دیتامارتهای وابسته تکنولوژِی بانک اطلاعات دپارتمانی است. دیتامارتهای
مستقل ثابت نیستندو از لحاظ معماری بسیار با هم متفاوتند. این مساله
هنگام یکپارچه سازی دیتامارتهای مستقل، مشکل ایجاد میکند. بنابراین با
یکپارچه سازی ساده دیتامارتها یک انبار داده ایجاد نخواهد شد.
دیتامارت اساسا برای اهداف تاکتیکی طراحی شده است و هدفش تامین یک
نیازتجاری فوری است.

انبار داده ها
یک انبار داده کاملا " متفاوت از دیتامارت است. سازماندهی انبارهای داده
بگونه ایست که کلیه موضوعات حول فعالیتهای کاری سازمان را می پوشاند.
انبار داده نمایانگر یک تسهیلات مرکزی است.
برخلاف دیتامارت که در آن داده ها به شکل خلاصه تر و متراکم تر وجود
دارند، یک انبار داده ، داده ها را در یک سطح نامتراکم ذخیره می کند.
ساختار داده ها در یک انبار داده یک ساختار لزوما" هنجار شده است. بدین
معنی که ساختار و محتوای داده ها در انبار داده منعکس کننده ویژگیهای
دپارتمانهای عضو نیست. داده ها در انبار داده از نظر حجم و شکل کاملا"
متفاوت از داده ها در دیتامارت هستند. دیتامارت ممکن است شامل حجم زیادی
از داده های قدیمی و گذشته نگر باشد. داده ها در انبار داده اغلب بصورت
نسبتا" سبک نمایه میشوند. (به بیان دیگر در عمق کمتر).
انبار داده برای اهداف برنامه ریزی بلندمدت و راهبردی طراحی میشوند. در
نتیجه انبار داده برخلاف سیستم عملیات که کاربرمدار است متمرکز بر اقلام
است. ساختار یک انبارداده مشخصات زیر را نشان میدهد:

وابستگی به زمان:
رکوردها بر اساس یک برچسب زمانی نگهداری میشوند. وابستگی زمانی حاصل در
ایجاد صفحات زمانی مفید است که درک ترتیب زمانی وقایع را تسهیل میکند.

غیر فرار بودن:
رکوردهای داده در انبار داده ها هرگز بطور مستقیم روزآمد نمیشوند. برای
هر تغییری در ابتدا داده های عملیاتی روزآمد میشوند و سپس بگونه ای مقتضی
به انبار داده منتقل میشوند. این مساله ثبات داده ها را برای استفاده های
وسیعتر تضمین میکند.

تمرکز موضوعی:
داده ها از بانکهای اطلاعاتی عملیاتی بصورت گزینشی به انبار داده منتقل
میشوند. این استراتژی به ایجاد یک انبار داده بر اساس یک مطلب یا موضوع
خاص کمک میکند و بنابراین کاوش انبار داده ها برای پرس و جوهای موضوعی
با سرعت بیشتری انجام میشود.

یکپارچگی:
داده ها بگونه ای کامل سازماندهی شده اند تا با حذف موارد تکراری و چند
عنوانه یکپارچگی رکوردها حفظ شود ؛ به ایجاد ارجاع های متقابل کارآمد
بین رکوردها کمک نموده و ارجاع دهی را تسهیل نماید.

واضح است که انبار داده اساسا" برای پرس و جوهای پشتیبان تصمیم گیری
ساخته شده است. بر این اساس سازماندهی وعملیات انبار داده چنان طراحی شده
اند تا نیازهای اطلاعاتی روزمره یا معمولی را پاسخگو باشند. بدلیل حجم
بسیار بالای چنین پایگاه اطلاعاتی یک سیستم کامپیوتری پیشرفته برای
عملیات انبارسازی داده ها لازم است. همچنین یک بانک اطلاعات مجزا شامل
ابرداده که مشخصه هایی نظیر نوع، فرمت، مکان و پدیدآورندگان داده های
ذخیره شده در یک انبار داده ها را توصیف میکند نیز برای کمک به کاربران و
مدیران داده ها ساخته میشود. مشخص شد که انبار داده بدلیل اندازه و
تنوعش، اگر مبتکرانه پردازش شود میتواند به تولید اطلاعاتی منجر شود که
در وهله اول آشکار نیستند. با انتخاب متناسب داده ها، بکار گرفتن فنون
مختلف غربال کردن و تفسیر زمینه ای ، داده ذخیره شده میتوانست منجر به
کشف الگوها یا رابطه هایی شود که بینش نویی به تصمیم گیرنده دهد. این
مساله نظریه توسعه عملیات داده کاوی را به موازات معدن کاوی بروز داد.
ذکر این نکته لازم است که داده کاوی در اصل لزوما" نیاز به سازماندهی یک
انبار داده ندارد. حال به داده کاوی می پردازیم.

عناصر داده کاوی
توصیف و کمک به پیش بینی دو کارکرد اصلی داده کاوی هستند. تحلیل داده
مربوط به مشخصه های انتخابی متغیرها؛ از گذاشته و حال، و درک الگو مثالی
از تحلیل توصیفی است. برآورد ارزش آینده یک متغیر و طرح ریزی کردن روند
مثالی از توانایی پیشگویانه داده کاوی است.
برای عملی شدن هریک از دو کارکرد فوق الذکر داده کاوی، چند گام ابتدایی
اما مهم باید اجرا شوند که از این قرارند:
1. انتخاب داده ها
2. پاک سازی داد ها
3. غنی سازی داده ها
4. کد گذاری داده ها
با دارا بودن هدف کلی در مطالعه، انتخاب مجموعه داده های اصلی برای
تحلیل، اولین ضرورت است. رکوردهای لازم میتواند از انبار داده ها و یا
بانک اطلاعاتی عملیاتی استخراج شود. این رکوردهای داده جمع آوری شده؛
اغلب از آنچه آلودگی داده ها نامگذاری شده است رنج می برند و بنابراین
لازم است پاکسازی شوند تا از یکدستی فرمت (شکلی) آنها اطمینان حاصل شود،
موارد تکراری حذف شده و کنترل سازگاری دامنه بعمل آید. ممکن است داده های
گردآوری شده از جنبه های خاصی ناقص یا ناکافی باشند. در این صورت داده
های مشخصی باید گردآوری شوند تا بانک اطلاعات اصلی را تکمیل کنند. منابع
مناسب برای این منظور باید شناسایی شوند. این فرایند مرحله غنی سازی داده
ها را تکمیل میکند. یک سیستم کدگذاری مناسب معمولا" جهت انتقال داده ها
به فرم ساختار-بندی شده جدید؛ متناسب برای عملیات داده کاوی تعبیه میشود
.

فنون داده کاوی
ممکن است متوجه شده باشید که فنون داده کاوی یک گروه نامتجانس را شکل
میدهند چرا که هر تکنیکی که بتواند بینش جدیدی از داده ها را استخراج کند
میتواند داده کاوی به حساب آید. برخی از ابزارهای رایج بکار گرفته شده
تحت عنوان داده کاوی عبارتند از:
ابزارهای پرس و جو: ابزارهای متداول زبان پرس و جوی ساختاربندی شده در
ابتدا برای انجام تحلیلهای اولیه بکار گرفته شدند که می تواند مسیرهایی
برای تفحص بیشتر نشان دهد.
فنون آماری: مشخصات اصلی داده ها لازمست با کاربرد انواع مختلفی از
تحلیلهای آماری شامل جدول بندی ساده و متقاطع داده ها و محاسبه
پارامترهای آماری مهم بدست آید.
مصور سازی: با نمایش داده ها در قالب نمودارها و عکسها مانند نمودار
پراکندگی؛ گروه بندی داده ها در خوشه های متناسب تسهیل میشود. استنباط
عمیق تر ممکن است با بکارگیری تکنیکهای گرافیکی پیشرفته حاصل شود.
پردازش تحلیلی پیوسته: از آنجا که مجموعه داده ها ممکن است روابط چندین
بعدی داشته باشند، روشهای متعددی برای ترکیب کردن آنها وجود دارد.
ابزارهای پردازش تحلیلی پیوسته به ذخیره چنین ترکیباتی کمک میکند و
ابزارهای ابتدا-انتهای پیوسته برای انجام پرس و جو ایجاد میکند. اما این
ابزارها هیچ دانش جدیدی ایجاد نمی کنند.

یادگیری مبتنی بر مورد: این تکنیک مشخصات گروههای داده ها را تحلیل میکند
و به پیش بینی هر نهاد واقع شده در همسایگی شان کمک میکند. الگوریتمهایی
که استراتژی یادگیری تعاملی را برای کاوش در یک فضای چندین بعدی بکار
میگیرند برای این منظور مفیدند.

درختان تصمیم گیری: این تکنیک بخشهای مختلف فهرست پاسخهای موفق داده شده
مربوط به یک پرس و جو را بازیابی می کند و به این ترتیب به ارزیابی صحیح
گزینه های مختلف کمک میکند.

قوانین وابستگی: اغلب مشاهده میشود که یک وابستگی نزدیک (مثبت یا منفی)
بین مجموعه ای از داده های معین وجود دارد. بنابراین قوانین رسمی وابستگی
برای تولید الگوهای جدید ساخته و بکار گرفته میشوند.

شبکه های عصبی : این یک الگوریتم یادگیری ماشینی است که عملکرد خودش را
بر اساس کاربرد و ارزیابی نتایج بهبود می بخشد.

الگوریتم ژنتیکی: این هم تکنیک مفید دیگری برای پیش بینی هدف است. به این
ترتیب که با یک گروه یا خوشه شروع میشود و رشدش در آینده را با حضور در
برخی مراحل فرایند محاسبه احتمال جهش تصادفی؛ همانطور که در تکامل طبیعی
فرض میشود طرح ریزی می نماید. این تکنیک به چند روش میتواند عملی شود. و
ترکیب غیرقابل انتظار یا نادری را از عواملی که در حال وقوع بوده و مسیر
منحنی طراحی داده ها را تغییر میدهند؛ منعکس میکند.

گام نهایی فرایند داده کاوی، گزارش دادن است. گزارش شامل تحلیل نتایج و
کاربردهای پروژه، درصورت بکارگیری آنها، است . و متن مناسب، جداول و
گرافیکها را در خود جای می دهد. بیشتر اوقات گزارش دهی یک فرایند تعاملی
است که تصمیم گیرنده با داده ها در پایانه کامپیوتری بازی میکند و فرم
چاپی برخی نتایج واسطه محتمل را برای عملیات فوری بدست می آورد.
داده کاوی در تولید چهار نوع دانش ذیل مفید است:
- دانش سطحی (کاربردهای (SQL
- دانش چند وجهی (کاربردهای (OALP
- دانش نهان (تشخیص الگو و کاربردهای الگوریتم یادگیری ماشینی)
- دانش عمیق (کاربردهای الگوریتم بهینه سازی داخلی)

نرم افزار
از آنجا که داده کاوی با بانکهای اطلاعاتی بزرگ سروکار دارد، به گونه ای
ایده ال با تکنولوژی خدمت گیر-خدمت گر بکار میرود. کاربردهای عمومی داده
کاوی بیشتر شامل تقسیم کردن داده ها در خوشه های مقتضی، کدگذاریهای
مناسب، کاوش برای الگوها و طراحی کردن با استفاده از فنون آماری و
الگوریتمهای ژنتیکی است. تعداد زیادی از بسته های نرم افزاری واجد این
جنبه های ابزارهای داده کاوی با درجات متفاوتی از جامعیت در دسترس هستند.
برای مثال بسته های نرم افزاری که منحصرا" برای کاربردهای OLAP در دسترس
هستند عبارتند از: Oracle OLAP, DB2 OLAP Server, CleverPath OLAP . نرم
افزارهای آماری عمومی مثل SPSS, SAS, STATISTICA با امکاناتی برای داده
کاوی و بسته های نرم افزاری اختصاصی داده کاوی مثل Weka, Insightful
Miner3, Text Mining Software, Enterprise Data Mining software,
PolyAnalyst 4.6 مفید هستند.
کاربردهای داده کاوی
داده کاوی کاربردهای مختلفی دارد که اهم کاربردهای آن:
۱- كشف تقلب (كلاهبرداري) و آناليز ريسك
كشف تقلب كارتهاي اعتباري
كشف پولشويي
ريسك پرداخت وام

۲- خــرده فروشي (تكفروشي)
فروش و تبليغ
كوپن

3-آناليز بازار استوك
۴- تشخيص جرائم .
۵- پيش بيني سيل.
۶- ارتباطات راه دور
۷- تشخيص طبي و درمان.
۸- آناليز داده DNA و زيست پزشكي(Biomedical).
چه ژنهايي با ژنهاي ديگر همزمان رخ ميدهند.
ترتيب عمليات ژنتيكي در مراحل بيماري چيست.

۹- وب كاوي Web Mining
ارتباط بين صفحات گوناگون چيست.
مشخصات صفحه وب چيست.
توزيع اطلاعات در وب چگونه است.

برای آشنایی بیشتر با داده کاوی چند کاربرد مهم و کاربردی آن را مورد
مطالعه قرار می دهیم:
داده کاوی و کاربرد آن در کسب و کار هوشمند بانک
با رشد فزاینده حجم داده‌ها در سیستمهای متنوع کسب و کار، و همچنین نیاز
روز افزون جهت دستیابی به اطلاعات ارزشمند و معرفت از این داده‌های خام،
داده کاوی به عنوان روشی مهم و پرکاربرد برای استخراج اطلاعات و ارضاء
این نیاز مطرح شده است. در واقع داده کاوی(Data Mining) بخشی از فرایند
استخراج معرفت(Knowledge Discovery) است که در آن الگوهای مفید و ضمنی در
پایگاه داده ها جستجو می‌شوند. در این میان با افزایش کاربرد سیستمهای
اطلاعات جغرافیایی، پایگاه‌های بزرگی از داده‌های متنوع جغرافیایی در
دسترس قرارگرفته‌اند که کمک شایانی به انجام تحلیل‌های کامل‌تر و دقیق‌تر
می‌نمایند.داده کاوی روی داده‌هایی که دارای یک یا چند ویژگی مکانی،
فضایی و یا جغرافیایی باشند، داده کاوی فضایی(Spatial Data Mining)
نامیده می‌شود و خروجی آن اطلاعات و معرفتی است که دارای خصوصیات فضایی و
جغرافیایی، مانند مکان، جهت، فاصله، شکل هندسی و مانند آن می باشد. هدف
از این پروژه بررسی و اجرای یک روش داده کاوی پیشرفته روی داده‌های فضايي
موجود در بانک ملت ایران می‌باشد که با داده‌های مختلف بانکی از قبیل
مکان شعب، شاخصهای بانکی مانند درآمد، سود، هزینه، تعداد کارکنان، میزان
مراجعه و مانند آن تلفیق خواهند شد. بدین معنی که بعد از انجام مراحل
لازم جهت آماده سازی داده‌ها -با ملاحضات لازم به دلیل فضایی بودن آنها-
برای عملیات داده کاوی، شامل پردازش و پاکسازی داده‌ها(Data Processing
and Cleaning) و ساخت انبار داده‌ها(Data warehousing)، و همچنین در نظر
گرفتن روشهای دسترسی به داده‌های فضایی(Spatial Data Access) ، الگوریتمی
برای استخراج قوانین وابستگی(Association Rule Mining) توسعه و پیاده
سازی خواهد شد و از آن برای کشف روابط موجود ما بین مقادیر مختلف فضايي و
جغرافیایی مانند ترکیب جمعیتی، کاربری‌های منطقه، وضعیت سنی، درآمد،
تحصیلات، موقعیت رقبا، شبکه معابر و مانند آن از یک طرف و شاخصهای بانکی
شعب مانند سود، هزینه، درآمد، کارایی و مانند آن از طرفی دیگر استفاده
خواهد شد. دانش استخراج شده از این فرایند، در تصمیم گیریی های مختلف
مدیران در حوزه مدیریت شعب، مانند مکانیابی، توسعه، تلفیق و تنظیم شعب،
کاربرد و اهمیت بالایی خواهد داشت.
داده كاوي درمديريت ارتباط بامشتري
داده كاوي يكي از عناصر مديريت ارتباط با مشتري است و مي تواند به حركت
شركتها به سمت مشتري محوري كمك كند.
داده هاي خام از منابع مختلفي جمع آوري مي شوند و از طريق استخراج، ترجمه
و فرايندهاي فراخواني به انبار داده اين مديريت وارد مي شوند. در بخش
مهيـــاسازي داده، داده ها از انبار خارج شده و به صورت يك فرمت مناسب
براي داده كاوي در مي آيند.
بخش كشف الگو شامل چهار لايه است:
1 - سوالهاي تجاري مانند توصيف مشتري،2 - كاربردها مانند امتيازدهي، پيش
گويي،3 - روشها مانند سري هاي زماني، طبقه بندي،4 - الگوريتم ها.
در اين بخش روشهاي داده كاوي با كاربرد مخصوص خود براي پاسخ به سوالهاي
تجاري كه به ذهن مي رسند، الگوريتم هايي را استخراج مي كنند و از اين
الگوريتم ها براي ساخت الگو استفاده مي شود.
در بخش تجزيه و تحليل الگو، الگوها به يك دانش مفيد و قابل استفاده تبديل
مي شوند و پس از بهبود آنها، الگوهايي كه كارا محسوب مي شوند در يك سيستم
اجرايي به كار گرفته خواهند شد.
رابطه مشتري با زمان تغيير مي كند و چنانچه تجارت و مشتري درباره يكديگر
بيشتر بدانند اين رابطه تكامل و رشد مي يابد. چرخه زندگي مشتري چارچوب
خوبي براي به كارگيري داده كاوي در مديريت ارتباط با مشتري فراهم مي كند.
در بخش ورودي داده كاوي، چرخه زندگي مشتري مي گويد چه اطلاعاتي در دسترس
است و در بخش خروجي آن، چرخه زندگي مي گويد چه چيزي احتمالاً جالب توجه
است و چه تصميماتي بايد گرفته شود. داده كاوي مي تواند سودآوري مشتري هاي
بالقوه را كه مي توانند به مشتريان بالفعل تبديل شوند، پيش بيني كند و
اينكه تا چه مدت به صورت مشتريان وفادار خواهند ماند و چگونه احتمالاً ما
را ترك خواهند كرد.
بعضي از مشتريان مرتباً مراجعاتشان را به شركتها براي كسب مزيتهايي كه طي
رقابت ميان آنها به وجود مي آيد، تغيير مي دهند. در اين صورت شركتها مي
توانند هدفشان را روي مشترياني متمركز كنند كه سودآوري بيشتري دارند.
بنابراين مي توان از طريق داده كاوي ارزش مشتريان را تعيين، رفتار آينده
آنها را پيش بيني و تصميمات آگاهانه اي را در اين رابطه اتخاذ كرد.
کاربردهای داده کاوی در کتابخانه ها و محیط های دانشگاهی
داده کاوی در ابتدا از حوزه تجارت برخاست اما کاربردهای آن در سایر حوزه
هائی که به گردآوری حجم وسیعی از داده هائی می پردازند که دستخوش تغییرات
پویا نیز می گردند؛ مفید شناخته شد. بخشهایی مثل بانکداری، تجارت
الکترونیک، تجارت سهام، بیمارستان و هتل از این نمونه اند.
انتظار میرود که استفاده از داده کاوی در بخش آموزش بطور عام امکانهای
جدید بسیاری ارائه دهد. برخی کاربردهای داده کاوی در کتابخانه ها و قسمت
اداری آموزش در ذیل مورد بحث قرار گرفته اند.
عملیات کتابداری بطور کلی شامل مدیریت مدارک، ارائه خدمات و امور اداره و
نگهداری است. هر کدام از این کارکردها با انواع مختلفی از داده ها سروکار
دارد و بطور جداگانه پردازش میشود. اگرچه، انجام تحلیل ترکیبی براین
مجموعه های داده نیز میتواند افق تازه ای را بگشاید که به طرح خدمات
جدید و تحول رویه ها و عملیات جاری کمک نماید. جدول یک برخی از کاربردهای
ممکن داده کاوی را که میتواند در کتابداری مفید باشد ارائه میکند.

جدول یک- کاربردهای داده کاوی در کتابخانه ها
کاربرد متصور بانک اطلاعاتی
برای تعیین نقاط قوت و ضعف مجموعه گردآوری منابع
برای ایجاد رابطه بین خواننده، منابع کتابخانه و زمان مشخصی از
سال استفاده از مجموعه
برای تحلیل سفارشهای پاسخ داده شده و سفارشهای دریافت شده امانت بین کتابخانه ای
برای پیش بینی روند بازگشت منابع داده های بخش امانت
برای نشان دادن منابع مالی بکار گرفته شده داده های هزینه

داده کاوی میتواند برای پاسخ دادن به یک سوال خاص مربوط به کتابخانه و
نیز برای کشف روندهای عمومی که به تصمیم گیری کمک میکنند، استفاده شود .
برای مثال سوال میتواند چنین باشد: امکان اینکه امانت گیرندگان منابع را
یک هفته بعد از تاریخ عودت برگردانند تا نامه های یادآوری کمتری فرستاده
شود چقدر است؟ یا میزان اشتراک مورد انتظار برای نشریات بین المللی
انتخاب شده برای سال آینده چقدر است؟ درک الگوی استفاده کلی مجلات
الکترونیکی یا تحلیل درخواستهای اعضا برای میکروفیلمها طی 5 سال گذشته
نیز همگی مثالهایی از کشف روندهای عمومی اند. دامنه تحلیل استنادی هم
میتواند با استفاده از داده کاوی گسترش داده شود.
در ارتباط با کتابخانه ها، وب کاوی حوزه دیگری از علاقمندی است. وب کاوی
شامل محتوا کاوی وب، ساختار کاوی وب و استفاده کاوی وب با توجه به یک
موضوع خاص است که در طراحی خدمات جدید مبتنی بر وب کمک خواهد کرد.
مدیریت موسسات دانشگاهی
اداره موسسات دانشگاهی کار پیچیده ای است. در این موسسات دائما" نیاز به
درآمدزایی و خود- کارآمدی و کاهش وابستگی به بودجه دولتی احساس میشود.
این مساله کنترل دائمی جنبه های مختلف هر فعالیت و پروژه را می طلبد.
بانکهای اطلاعاتی برای چنین موسساتی مربوط به دانشجویان، دانشکده،
اساتید و کارمندان، تعداد رشته ها و چند مورد دیگر است . ارزیابی تقاضا و
وضعیت عرضه نقش مهمی بازی میکند. مرور بانکهای اطلاعاتی نمونه در جدول 2
نمایانگر کاربردهای بالقوه داده کاویست.

جدول 2- کاربردهای داده کاوی در موسسات دانشگاهی
کاربرد متصور بانک اطلاعاتی
برای درک رابطه های جمعیت شناختی، اقتصادی و اجتماعی ثبت نام دانشگاهی
برای ایجاد رابطه بین عوامل اقتصادی-اجتماعی و نمرات اخذ شده کارایی دانشگاهی
برای تعیین میزان مفید بودن سیستم با استناد به نمرات امتحان بانک سوالات
برای ارزیابی همکاری دانشکده با توجه به میزان استفاده از کتابخانه همکاری فکری
برای پیدا کردن تأثیر انتشارات در تقاضا برای رشته ها انتشارات
برای تحلیل سوالات دریافت شده در وب سایت دانشگاه و کمک به ایجاد رشته
های جدید دانشگاهی بازدید از وب سایت


کاربرد داده کاوی در دانشگاه ملی سنگاپور قابل ملاحظه است. در این
دانشگاه از ابزارهای داده کاوی برای شناسایی و دسته بندی دانشجویانی که
به کلاسهای پیش نیاز برای واحد درسی ارائه شده نیاز داشتند استفاده شد.
(Kurian and John, 2005)
علاوه بر آن، مسائلی مانند اختصاص بهتر منابع و نیروی انسانی، مدیریت
روابط دانشجو و به تصویر کشیدن رفتار گروههای مختلف میتواند بوسیله
ابزارهای داده کاوی انجام شود.

محدودیت ها
کاربرد داده کاوی با چند عامل محدود شده است. اولین مورد به سخت افزار و
نرم افزار لازم و موقعیت بانک اطلاعاتی مربوط میشود . برای مثال در هند،
داده های غیر مجتمع که برای کاربردهای داده کاوی لازم است ممکن است به
فرم دیجیتالی در دسترس نباشد. در دسترس بودن نیروی انسانی ماهر در داده
کاوی نیز مسأله مهم دیگری است. محرمانه بودن رکوردهای مراجعان ممکن است
در نتیجه پردازش داده های مبتنی بر داده کاوی آسیب پذیر شود. کتابداران و
مؤسسات آموزشی باید این مسأله را در نظر داشته باشند؛ چرا که در غیر
اینصورت ممکن است گرفتار شکایات قانونی گردند.
محدودیت دیگراز ضعف ذاتی نهفته در ابزارهای نظری ناشی میگردد. ابزارهایی
مانند یادگیری ماشینی و الگوریتمهای ژنتیکی بکار گرفته شده در فعالیتهای
داده کاوی به مفاهیم وفنون منطق و آمار بستگی دارد. در این حد نتایج به
روش مکانیکی تولید شده و بنابراین به یک بررسی دقیق نیاز دارند. اعتبار
الگوهای بدست آمده به این طریق؛ باید آزمایش شود. چرا که که در بسیاری
موارد روابط علل و معلول مشتق شده؛ از برخی استدلالات غلط ذیل رنج
میبرند.

داده کاوی آماری و مدیریت بهینه وب سایت ها
هر سایت اینترنتی بر اساس حجم فعالیت خود برای نگهداری به افراد مختلفی
که آشنا به امور فنی و اجرایی باشند نیاز دارد. مدیر سایت به عنوان شخصی
که تنظیم کننده و هماهنگ کننده تمام این افراد است باید برای هر کدام از
بخش‌های سایت از قبیل گرافیک، محتوا، امور فنی، بازاریابی و...
برنامه‌های مختلفی را تهیه و برای اجرا در اختیار همکاران خود قرار دهد.
این برنامه ها می توانند شامل برنامه های روزانه، هفتگی و ماهانه باشند.
تمامی این برنامه ها در راستای یک هدف کلی و نهایی به انجام می رسند و آن
هم بالا رفتن کارایی اقتصادی سایت است.
سایت ها زمانی می توانند خود را در سطح اقتصادی اطمینان بخشی قرار دهند
که از بازدیدکنندگان و کاربران و قابل توجهی برخوردار باشند. برای این
کار مدیر سایت سعی می کند مطالعه و تحقیق گسترده ای بر روی عوامل و
ابزارهای افزایش دهنده تعداد کاربران سایت انجام دهد و از این طریق در
واقع به مطالعه شرایط و موقعیت خود در بازار مجازی اینترنت می پردازد. به
عنوان مثال وی در مورد رنگ های به کار رفته در سایت، لوگو و سایر قطعات
گرافیکی سایت، متن های به کار رفته و بسیاری دیگر از مسائل مرتبط با سایت
به بررسی و مطالعه می پردازد.
یکی از روش ها و راهکارهایی که کمک بسیار زیادی برای بهتر شدن فرآیند
مدیریت وب سایت ها می کند استفاده از گزارش ها و تحلیل های آماری است.
مدیران سایت ها و مدیران بازایابی شرکت ها با استفاده از گزارش های به
دست آمده از فعالیت سایت اینترنتی می‌توانند شناخت خوبی از موقعیت و
تاثیر فعالیت های خود پیدا کنند و از این طریق نقاط ضعف و قوت سایت را به
راحتی شناسایی و برای حل و تقویت آنها تغییرات لازم را در سایت اعمال
نمایند و به برنامه های آینده و حتی استراتژی های سایت جهت ببخشند.
گزیده مطالب
تعـــــريف
۱- كاوش دانش بالقوه مفيد از مقدار معتنابهي داده را داده كاوي گويند.
۲- اصطلاحات ديگر:
كشف دانش موجود در پايگاه هاي داده (Knowledge Discovery in Databases--
KDD )- هر چند كه داده ورزي مرحله اي از KDD است.
استخراج دانش --> Knowledge Extraction
درو اطلاعات (برداشت اطلاعات) --> Information Harvesting
و ...

داده كاوي در مقابل استخراج دانش از پايگاه داده
Data Mining vs. Knowledge Discovery in Databases

1- KDD فرآيند يافتن اطلاعات و الگوهاي مفيد از داده را گويند.
۲- DM بهره گيري از الگوريتمهايي براي يافتن اطلاعات مفيد در فرآيند KDD است.
۳- فرآيند KDD عبارت است از:
پاكسازي و يكپاچه سازي داده (پيش پردازش داده)
ايجاد يك مخزن داده مشترك براي تمام منابع٬ مانند انبار داده (data warehouse).
داده كاوي
بصري سازي (visualization) نتايج توليد شده.
--مرحله پيش پردازش غالباً يكي از مراحل زمان بر و در عين حال بسيار مهم
در كسب نتيجه مطلوب ميباشد. تلاشهاي زيادي صورت گرفته و در حال حاضر نيز
انجام ميگيرد تا كارايي الگوريتمهاي اين قسمت بالا رود.
--از ديگر بخشهايي كه فعاليت زيادي را به خود معطوف ساخته بخش بصري سازي
است تا بتوان نتايج را در قالبهاي گرافيكي مشاهده كرده و مقايسه نمود.

داده کاوی در مقابل پايگاه داده
Data Mining vs database

۱- كاربر پايگاه داده ميداند دنبال چه چيزي است.
۲- اما كاربر داده كاوي ممكن است بداند و ممكن است نداند در جستجوي چيست.
۳- پاسخ پايگاه داده به سوال ۱۰۰٪ دقيق است٬ اگر داده صحيح باشد.
۴- اما تلاش داده كاوي اين است كه تا حد ممكن پاسخ دقيق بدست آورد.

۵- داده پايگاه داده همانطور كه ذخيره ميشود بازيابي نيز ميگردد.
۶- اما داده در داده كاوي٬قبل از توليد نتايج نياز به (تا حدي) تميز
(clean) شدن دارد.
۷- نتايج پايگاه داده زير مجموعه اي از داده است.
۸- نتايج داده كاوي تجزيه و تحليل و آناليز داده است.
۹- معنا دار بودن نتايج آنقدر كه در داده كاوي اهميت داشته و جزء اصلي
ترين مسايل آن مطرح ميگردد٬ در پايگاه داده مورد توجه نيست.
به عبارت ساده پايگاه داده تنها ذخيره و بازيابي داده است اما داده كاوي
آناليزي است كه روي اين داده ها صورت ميپذيرد تا بتواند قوانيني از آن
استخراج نمايد يا پيش بيني صورت دهد

ابزارهای تجاری داده کاوی
DM Commercial Tools
در مورد ابزارهاي موجود براي داده كاوي بايد به اين نكات توجه داشت كه:
مدل/معماري مشتركي بين آنها موجود نمي باشد.
به منابع داده گوناگون و نه لزوماً همه گونه منبعي دسترسي دارند.
از يك يا بيشتر الگوريتم DM پشتيباني مينمايد.
ممكن است از تمام انواع داده پشتيباني كند يا نكند.
قابليتهاي مختلف اما نه تمام آنها را پشتيباني مينمايد.
وابسته به بستر كاري
هر كاربردي ممكن است با يك ابزار كار كند و با ابزار ديگر كار نكند.

ابزارهای تجاری برای داده کاوی
Darwin (Oracle Corp.)
MineSet (Silicon Graphics Inc. - SGI)
Intelligent Miner (IBM Corp)
Enterprise Miner (SAS Institute Inc.)
Clementine (SPSS Inc – Integral Solutions)
DMMiner (DBMiner Technology Inc.)
BrainMaker (California Scientific Software)
CART (Salford Systems)
MARS (Salford Systems)
Scenario (Cognos Inc.)
Web Analyst (Megaputer Intelligence Inc.)
SurfAid Analysis (IBM corp)
Visualizer Workstation (Computer Science Innovations, Inc)


منابع اطلاعاتی مورد استفاده
منابع اطلاعاتی گوناگونی را ميتوان در زمينه داده کاوی بکار برد که عبارتند از:

---> پایگاه داده های رابطه ای
---> انبارهای داده
---> فایلها
---> وب
--->پایگاه های داده شیءگرا
---> چند رسانه ای

انبار داده
--->بسياری از سازمانها داده های خود را از مخازن داده همگن و ناهمگن در
يک مجموعه داده عمومی به نام انبار داده جمع آوری و ذخيره مينمايند.(Data
Warehouse)
--->انبار داده شامل داده های فعلی و قبلی است كه برای برنامه ريزی و پيش
بينی در سيستمهای پشتيبان تصميمگيری (Decision Support System) استفاده
خواهد گرديد.
--->پايگاه های داده سنتی پايگاه هايی عملياتی هستند كه داده های روزانه
را در خود ذخيره مينمايند.
--->star -schema, Snow-Flakes و Galaxy مدلهای رايج در انبارهای داده هستند.
---> برای افزايش كارايی در DW تكنيكهای مختلفی مانند خلاصه كردن و
denormalization استفاده ميگردد.
پای نوشته‌
Data mining را گاهی به "داده کاوی" ترجمه کرده‌اند که از چندین نظر
نامناسب است: (الف) Data کلمه‌ای‌ست جمع (با مفرد Datum) که به واژهء
مفرد "داده" نسبت داده شده (ب) ترکیب "داده کاوی" با روح، و خلق و خوی
عمومی زبان فارسی ناسازگار و بیگانه است، چرا که در فارسی باید مفاهیم را
با آرامی و به نرمی بیان نمود. درست است که "داده کاوی" همان تندی و شتاب
Data mining را با خود دارد، ولی، اینگونه سرعت‌ها و تند‌گوئی‌ها در بیان
مفاهیم، فقط به زبانهای غربی اختصاص دارد.

مراجع و ماخذ
http://www.Wikipedia.con
Barbara Mento and Brendan Rapple, SPEC Kit 274: Data mining and data
warehousing, Association of Research Libraries, Washington, DC (2003,
July)
http://www.infotechera.com/
http://www.ece.ut.ac.ir/dbrg/index.htm
http://www.irandoc.ac.ir/index.htm
http://www.arts.uci.edu/dobrain/gems.980415b.htm

هیچ نظری موجود نیست: