آموزشی مروری بر مفاهیم و الگوریتمهای داده کاوی [بایگانی] - سایت علمی نخبگان جوان

PDA

توجه ! این یک نسخه آرشیو شده میباشد و در این حالت شما عکسی را مشاهده نمیکنید برای مشاهده کامل متن و عکسها بر روی لینک مقابل کلیک کنید : آموزشی مروری بر مفاهیم و الگوریتمهای داده کاوی

آبجی

5th January 2010, 10:24 PM

داده کاوی شامل بهره گيري از ابزارهاي آناليز داده هاي پيچيده براي كشف الگوهاي موجود و روابط ناشناخته‌ي ميان داده ها در حجمي وسيع مي باشد. اين ابزارها شامل مدلهاي آماري، الگوريتمهاي رياضي و متد هاي يادگيري ماشين (الگوريتمهايي كه بازدهي خود را بصورت خودكار از طريق تجربه افزايش مي دهند، مانند شبكه هاي عصبي و درختهاي تصميم گيري) مي باشد. نتيجتاً داده کاوی علاوه بر جمع آوري و مديريت داده‌ها، در بر گيرنده ي آناليز و پيش بيني هايي نيز مي باشد. داده کاوی مي تواند بر روي داده هاي ارئه شده در فرمهاي عددي، متني و يا چند رسانه اي اعمال شود و کشف پولشویی و فساد مالی و بدست آوردن نتایج راهبردی جهت تصمیم گیری های آینده از مهمترین کاربردهای آن می باشد.

آبجی

5th January 2010, 10:24 PM

1- مقدمه:

با گسترش روز افزون استفاده از بانکهای اطلاعاتی رابطه ای و انبارهای داده جهت نگهداری اطلاعات شرکتها و سازمانها، همچنین اهمیت انکارناپذیر استفاده از رخدادها و اطلاعات گذشته جهت تصمیم گیری های آینده، نیاز به استفاده از روشهایی علمی جهت تحلیل اطلاعات موجود و دریافت نتایج مورد نظر بیش از گذشته مورد توجه قرار گرفته است. با توسعه ی کاربردی علم آمار، مفاهیم بنیادی داده کاوی مطرح شده و تحقیقات در این زمینه آغاز شد. نتایج حاصله عبارتند از روشها و الگوریتمهای متفاوت مطرح شده در این زمینه.

آنچه پیش روی شما قرار گرفته، مروری است بر مفاهیم و الگوریتمهای داده کاوی، که در 10 بخش ارائه میشود.
این بخشها عبارتند از: مقدمه، تعریف، زیر بنای داده کاوی، تکنولوژی های مرتبط با داده کاوی، داده كاوي و مفهوم اكتشاف علوم، بررسی اینکه چه نوع داده‌هايي ميتوانند مورد كاوش قرار گيرند، بررسی اطلاعات مناسب برای داده کاوی، نگاهی مختصر به الگوریتمهای داده کاوی و نهایتا با معرفی کاربرد علم آمار و روشهای آماری در داده کاوی و نتیجه گیری کلی مطلب خاتمه می یابد.

آبجی

5th January 2010, 10:25 PM

2- تعریف داده کاوی:

عبارت داده کاوي مترادف با يکي از عبارت هاي استخراج دانش، برداشت اطلاعات، وارسي داده ها و حتي لايروبي کردن داده هاست که در حقيقت کشف دانش در پايگاه داده ها (KDD ) را توصيف مي کند. بنابراين ايده اي که مبناي داده کاوي است يک فرآيند با اهميت از شناخت الگوهاي بالقوه مفيد، تازه و در نهايت قابل درک در داده هاست. واژه کشف دانش در پايگاه داده ها در اوايل دهه 80 در مراجعه به مفهوم کلي، گسترده، سطح بالا و به دنبال جستجوي دانش در اطلاعات شکل گرفته است. داده كاوي كاربرد سطح بالاي فنون و ابزار بكار برده شده براي معرفي و تحليل داده ها ي تصميم گيرندگان است. اصطلاح داده کاوي را آمار شناسان، تحليل گران داده ها و انجمن سيستم هاي اطلاعات مديريت به کار برده اند، در حالي که پژوهشگران يادگيري ماشين و هوش مصنوعي از KDD (اکتشاف علوم) بيشتر استفاده مي کنند. برنامه هاي كاربردي داده کاوی مي توانند ازپارامتر‌هاي متنوعي براي رسيدگي به داده ها استفاده كنند. برخي از اين پارامتر ها براي رسيدگي به داده ها بشرح زير مي باشند:

· تركيبيات: نمونه هايي كه در آنها يك رويداد به رويداد ديگري وابسته است، همچون خريد يك خودكار و خريد كاغذ.

· تحليل ترتيب يا روش: نمونه هايي كه در آنها انجام يك رويداد منجر به رويداد ديگري ميشود، همچون تولد يك نوزاد و خريد مايحتاج مورد نياز او.

· طبقه بندي: شناسايي نمونه هاي جديد، مثل تطابق بين لوله هاي خريداري شده و درپوش هاي پلاستيكي آنها.

· دسته بندي: يافتن و مستند سازي بصري گروههايي از حقايق ناشناخته ي قبلي، مثل موقعيت جغرافيايي و نشان هاي تبليغاتي.

· پيش بيني: كشف و يافتن نمونه هايي كه بتوان از آنها پيش‌بيني هاي منطقي بعمل آورد، مثلا افرادي كه در يك كلوپ ورزشي سرمايه گذاري مي كنند ممكن است در كلاسها و برنامه هاي ورزشي شركت كنند.

برنامه هاي كاربردي داده کاوی در مقايسه با ساير برنامه هاي كاربردي تحليل داده همچون Structured Query كه در اكثر بانكهاي اطلاعاتي تجاري بكار ميرود، يا نسبت به نرم افزارهاي آماري، تفاوتهاي قابل ملاحظه اي دارد. در دسترسي بر پايه ي اثبات، جايي كه كاربر يك فرضيه را بسط ميدهد و سپس داده ها را از جهت پوشش يا عدم پوشش فرضيه مورد آزمون قرار مي دهد، ابزارهاي تحليلي بسيار ساده تري مورد استفاده قرار مي گيرند; مثلا كاربر ممكن است فرض كند مشتري خريدار يك چكش، ممكن است نيازمند يك جعبه ابزار صنعتي نيز باشد. تاثير اين رويكرد ميتواند با خلاقيت كاربر در توسعه ي فرضيات مختلف، محدود شود. در واقع داده کاوی يك رويكرد اكتشافي بكار مي‌برد كه در آن مي توان از الگوريتمها براي بررسي و تجزيه‌‌ي چندين رابطه ي داده اي چند بعدي، بصورت همزمان و با شناسايي موارد منحصر بفرد، استفاده كرد. براي مثال يك فروشگاه قطعات سخت افزاري ممكن است قدرت خريد مشتريان خود را با ابزارهايي از قبيل مالكيت خانه، نوع اتومبيلي كه سوار مي شوند، سن، حرفه، درآمد و يا فاصله ي محل اقامت تا فروشگاه بسنجد. نتيجتا دو مهم در اعمال داده کاوی موفق دخيل هستند:

· فرمولاسيون واضح و مشخص براي حل مساله.

· دسترسي به داده هاي مناسب و درست.

در بازتاب مفهوم سازي عمومي داده کاوی ، برخي مشاهدات انجام شده، داده کاوی را بعنوان تنها يك مرحله از يك پردازش وسيعتر با نام اكتشافات علوم در پايگاه هاي داده اي شناخته شده، مورد توجه قرار مي دهند.

آبجی

5th January 2010, 10:25 PM

3- زيربناي داده كاوي:

تكنيكهاي داده کاوی نتيجه ي تحقيقات گسترده و بلند مدتي است كه در طول سالها براي افزايش بازدهي تجاري موسسات بكار برده مي‌شدند. تحقيقات در اين زمينه از زماني آغاز شد كه براي نخستين بار اطلاعات تجاري هر سازمان، بر روی سيستمهاي ذخيره سازي آن زمان كه از نوع مغناطيسي بودند، ذخيره شدند. اين رشته تحقيقات با توسعه و پيشرفت سيستمهاي اطلاعات كه قابليت ذخيره ي حجم بيشتري از داده ها را فراهم مي‌كردند و همچنين از سرعت بسيار بالاتري در ذخيره سازي و بازيابي اطلاعات برخوردار بودند، اهميت بيشتري يافت. روشهاي دسترسي تصادفي يا رندم به اطلاعات و پيدايش روشهاي حركت يا navigation‌ در ميان داده ها، خصوصا بصورت بلادرنگ، فناوري داده کاوی را متحول ساخت.

روشهاي داده کاوی بر پايه هاي زير استوار هستند:

1- گردآوري حجم عظيمي داده.

2- كامپيوترهاي چند پردازنده ي قدرتمند.

3- الگوريتمهاي داده كاوي.

در سالهاي 1960 صنعت گرداوري اطلاعات و امكان ذخيره ي داده ها در تجهيزاتي نظير نوار و ديسك توسط شركتهايي كه IBM و CDC از پيشگامان آنها بودند، شكل تجاري به خود گرفت. با رواج چنين مكانيسمهايي تبادل استاتيك اطلاعات امكانپذير شده، پرسشهاي تجاري از قبيل آنكه ”سود خالص شركت در پنج سال آخر فعاليت چقدر بوده است؟ ” پاسخ داده ميشود. 20 سال بعد از فناوري فوق، با پيشرفتهاي نرم افزاري و استفاده از بانكهاي اطلاعاتي رابطه اي (RBDMS) و زبان جستجوي ساخت يافته (SQL) توسط شركتهاي موفقي همچون MICROSOFT, IBM, INFORMIX, SYBASE, ORACLE ، ... اطلاعات در همان لحظه ي ثبت شدن قابل تبادل بودند. بعبارت ديگر تبادل اطلاعات بصورت ديناميك امكانپذير شده بود. نمونه اي از سوالات تجاري كه اين سيستم پاسخگوي آن است چنين بود: ”مقدار فروش شعب ]كشور يا شهر مورد نظر[ در ماه مارس گذشته چه ميزان بوده است؟”. در سالهاي دهه ي نود نوبت به تكنولوژي هایي همچون DATAWARE HOUSING و امكانات تصميم گيري نرم افزاري رسيد.

آبجی

5th January 2010, 10:25 PM

4- تكنولوژي ها ي مرتبط با داده کاوی :

1- پردازش تحلیل روی خط - (ONLINE ANALITICAL PROCESS) OLAP

2- بانكهاي اطلاعاتي چند بعدي(MULTIDIMENSIONAL DATABASES)

3- انبار داده ها - DATAWARE HOUSING

پيشگامان ابزارهاي نرم افزاري چنين تكنولوژيهايي شركتهايي نظيرPilot, Comshare, Arbor, Cognos, Microstrategy بودند. البته بلافاصله در همان زمان شركتهايي نظير ORACLE, IBM, MICROSOFT، كه امروزه نام آنها را در همه جا مشاهده مي كنيم نيز كنترل جريان را بدست گرفته و نرم افزارهاي آنها بازار را تسخير كرد. هسته ي فناوري داده كاوي شامل علوم آمار، هوش مصنوعي، آموزش ماشين و علوم نوين ديگري است كه در طول سالهاي گذشته پيشرفت قابل توجهي داشته است.

آبجی

5th January 2010, 10:26 PM

5- داده كاوي و مفهوم اكتشاف علوم (K.D.D):

با حجم عظيم داده هاي ذخيره شده در فايلها، بانكهاي اطلاعاتي و ساير بانكهاي داده اي، توسعه ي ابزارهايي براي تحليل و شايد تفسير چنين داده هايي و براي استخراج علوم شگفت انگيزي كه مي توانند در تصميم گيري مفيد باشند، اگر نگوييم امري واجب، امري بسيار مهم و ضروري است.

داده كاوي با عنوان كشف علوم در پايگاه هاي داده (KDD) شناخته مي‌شود. كشف علومي كه قبلا ناشناخته بوده‌اند و اطلاعاتي كه در بانكهاي اطلاعاتي موجود بوده و ذاتا بالقوه و مفيد هستند. با وجود آنكه داده كاوي و كشف علوم در پايگاه‌هاي داده مترادف همديگر هستند، ولي در اصل، داده كاوي ذاتاً بخشي و تنها قسمتي جزئي از فرآيند كشف علوم است. تصوير زير داده كاوي را بعنوان مرحله اي از فرآيند كشف علوم نشان مي‌دهد. فرآيند كشف علوم در بر گيرنده ي چندين مرحله مي باشد كه از اطلاعات خام، گونه هايي از علوم جديد را بدست مي دهد. اين مراحل به قرار زير است:

· پاكسازي داده ها(data cleaning) : اين مرحله با عنوان پيرايش داده ها نيز شناخته مي شود. در اين فاز داده هاي اضافي و نامربوط از مجموعه ي داده هايمان حذف مي شوند.

· يكپارچگي داده ها(data integration) : در اين مرحله تصميم گيري بر روي داده ها متناسب با تحليل انجام شده و اين داده ها ازمجموعه داده ها بازيابي مي شوند.

· تبديل صورت داده ها(data transformation) : اين مرحله با عنوان تثبيت داده نيز شناخته مي شود كه در اين فاز داده هاي انتخاب شده به صورتي متناسب جهت پروسه ي داده كاوي تبديل مي شوند.

· داده كاوي(data mining) : اين مرحله بسيار مشكل بوده و در آن از تكنيكهاي هوشمند براي استخراج الگوهاي مفيد بالقوه، استفاده مي‌شود.

· ارزشيابي الگوها(pattern evaluation) : در اين مرحله الگوهاي صريح ارائه دهنده ي علوم بر پايه ي مقياس هاي داده شده، شناسايي مي‌شوند.

· ارائه‌ي علوم(knowledge discovery) : در اين مرحله ي نهايي، علوم كشف شده، بصورت بصري به كاربر ارائه مي‌شود. اين مرحله ي مهم از تكنيكهاي تجسمي براي كمك به كاربران در درك و تفسير نتايج داده‌كاوي، استفاده مي‌كند.

تركيب برخي از اين مراحل با هم بسيار رايج است. براي نمونه پاكسازي داده ها و يكپارچگي داده ها با هم مي‌توانند بعنوان يك فاز پيش از پردازش براي توليد انبار داده بكار روند. انتخاب داده ها و تبديل صورت داده‌ها نيز مي توانند با هم تركيب شده و تثبيت داده ها را بعنوان نتيجه ارائه نمايند.

فرآيند اكتشاف علوم(KDD) يك فرآيند تكرار شونده است. زمانيكه علوم كشف شده به كاربران ارائه شد، سنجشهايي جهت ارزشيابي انجام شده و امكان پالوده شدن مجدد داده كاوي با داده هاي جديد و يا تركيبي از منابع داده اي جديد وجود دارد و ارائه ي نتايج بهتري را به ارمغان ميآورد.

آبجی

5th January 2010, 10:26 PM

6- چه نوع داده‌هايي ميتوانند مورد كاوش قرار گيرند؟

در اصل داده كاوي مختص يك رسانه يا داده‌ي خاص نيست و بايد از قابليت اجرا بر روي هر نوع داده اي برخوردار باشد، اگر چه الگوريتم‌ها و تلاشها ممكن است در مواجهه با گونه هاي متفاوت داده، تفاوت داشته باشند. داده‌كاوي براي پايگاههاي داده‌ي شي گرا، انبارهاي داده، پايگاههاي داده‌ي تراكنشي، منابع اطلاعاتي غيرساخت يافته مانند شبكه ي جهاني، پايگاه داده ي پيشرفته همچون پايگاه‌هاي داده اي سه بعدي، پايگاه‌هاي داده اي چند رسانه اي، پايگاه هاي داده‌اي سريالي و متني و يا فايلهاي ساده مناسب است. در اينجا چند مثال آمده است:

6-1-فايلهاي ساده (FLAT FILES): رايج ترين منبع براي الگوريتمهاي داده‌كاوي هستند، خصوصا در مرحله ي تحقيق، فايل هاي ساده، فايل هاي ساده ي متني يا با ساختار دودويي هستند و با ساختاري شناخته شده براي يك الگوريتم مشخص داده كاوي است كه روي آن پياده ميشود. داده هاي درون اين نوع فايلها مي توانند تراكنشها، داده هاي سريالي، اندازه گيري هاي‌ عملي و ... باشند.

6-2-پايگاههاي داده اي رابطه اي(RDBMS): مختصرا، يك پايگاه داده ي رابطه اي متشكل از مجموعه‌اي از جداول است كه در بر گيرنده‌ي مقاديري براي صفات موجوديتها و يا مقاديري از روابط بين موجوديتها مي‌باشد. هر جدول داراي چندين سطر و ستون مي‌باشد كه ستونها ارائه كننده‌ي صفات خاصه و سطرها ارائه كننده‌ي ركوردهاي اطلاعاتي مي‌باشند. يك ركورد اطلاعاتي در بر گيرنده‌ي صفات خاصه‌ي يك شئ يا روايط بين اشيا است كه با يك كليد غير تكراري تعريف مي‌شود. الگوريتمهاي داده‌كاوي براي پايگاه‌هاي داده‌اي رابطه‌اي بسيار فراگيرتر و سريعتر از الگوريتمهاي داده‌كاوي روي فايل‌هاي ساده هستند.

6-3- انبارهاي داده‌اي (DATAWARE HOUSING): يك انبار داده بعنوان يك انبار نگهداري، مجموعه اي از داده‌هاي جمع آوري شده از چندين مرجع يا منبع داده (كه معمولا ناهمگن هستند) ، با هدف آنكه بعنوان يك مجموعه تحت يك طرح و ساختار يكپارچه مورد استفاده قرار گيرد را شامل مي‌شود. انبار داده اين ويژگي را كه داده ‌ها از چندين منبع داده‌اي، تحت يك پوشش يكسان، تحليل و آناليز شوند را در اختيار قرار مي دهد. تصور كنيد كه يك فروشگاه عرضه‌ي محصولات ويدئويي، مركز اطلاعات خود را به كشور كانادا انتقال دهد. بسياري فروشگاه هاي پايين دست اين فروشگاه در كشورهاي مختلف و با ساختارها و بانك‌هاي اطلاعاتي متفاوت مشغول به فعاليت هستند. اگر يكي از مجريان يا مديران بخواهد به داده‌هاي تمامي فروشگاهها‌ي دنيا دسترسي پيدا كند، بسيار مناسبتر خواهد بود اگر اين داده‌ها در يك پايگاه متمركز و با ساختار همگن براي ارائه‌ي امكان تحليل ها و تجزيه‌هاي تعاملي جمع‌آوري شوند. بعبارت ديگر داده‌هاي فروشگاههاي پايين دست، در يك سايت متمركز بارگذاري و پاكسازي مي‌شوند. براي آسانتر شدن تصميم گيري و دريافت ديدهاي چند بعدي از داده ها، انبارهاي داده معمولا با ساختار چند بعدي ايجاد مي شوند.

ساختار هاي داده اي سه بعدي، بواسطه ي ساختارشان، و بواسطه‌ي نگهداري داده‌هاي خلاصه شده ي از پيش محاسبه شده، در دريافت تقاضاهاي سريع تعاملي از بانك اطلاعاتي و در تحليل داده ها در سطوح مفهومي متفاوت (OLAP – OnLine Analitical Process) يا پردازش تحليلي روي خط، بسيار مناسب مي‌باشند.

پردازش تحليلي روي خط، امكان حركت در ميان داده ها و مسيريابي داده‌ها در سطوح مختلف را همچون حركت در عمق داده ها و بخش بندي داده‌ها و ... فراهم ميكند.

آبجی

5th January 2010, 10:26 PM

7- چه نوع اطلاعاتي مناسب داده کاوی است؟

ما مقادير انبوهي از اطلاعات از داده‌هاي عددي ساده و سندهاي متني تا اطلاعات پيچيده اي همچون داده‌هاي چند بعدي، فايهاي چندرسانه‌اي و اسناد ابر متن را جمع‌آوري مي‌كنيم. در زير ليستي از گونه‌هاي مختلف جمع‌آوري شده در قالب فرمهاي ديجيتالي در پايگاههاي داده و فايل‌هاي ساده‌ي متني آمده است.

7-1- مبادلات و تراكنشهاي تجاري: معمولا تمامي مبادلات وتراكنشهاي صنعتي و تجاري بصورت دائمي ذخيره و نگهداري مي‌شوند. چنين مبادلاتي معمولا وابسته به زمان بوده و شامل تعاملات بين‌التجار مثل خريدها، تعويضها، بانكداري، سهام و ... بوده و يا شامل كنش‌هاي متقابل تجاري مانند مديريت كالاها و وسايل خانه مي‌باشد. براي نمونه فروشگاههاي زنجيره‌اي بزرگ به لطف كاربرد فراگير باركد‌ها، روزانه ميليونها تراكنش را در قالب چندين ترابايت داده، ذخيره و نگهداري مي‌كنند. مشكل اصلي، فضاي ذخيره‌سازي اين حجم داده نيست، چرا كه قيمت رسانه‌هاي ذخيره‌سازي روز به روز در حال كاهش است. در واقع بكار‌گيري موثر اين قبيل داده‌هاي جمع‌‌آوري‌شده، آن هم در يك بازه‌ي زماني مناسب، براي تصميم گيري در بازار رقابتي امروز، مهمترين مشكل براي حل مشكلات تصميم گيري و نجات پيدا كردن از اين دنياي رقابتي مي‌باشد.

7-2- داده‌هاي علمي: چه در لابراتوار شمارش ذرات شتاب دهنده‌ي هسته‌اي در سوئيس، چه در مطالعه‌ي اطلاعات راديويي حاصله از قلاده‌هاي خرسهاي گريزلي در كانادا، چه در جمع‌آوري اطلاعات در مورد فعل و انفعالات اقيانوسي از كوههاي شناور در قطب جنوب و چه در روانشناسي روي انسانها در يك دانشگاه امريكايي، جامعه‌ي ما در حال جمع‌آوري مقادير بسيار زيادي اطلاعات علمي است كه نياز به پردازش و تجزيه و تحليل دارند، متاسفانه ميتوان اطلاعات بسيار مفيدي را از داده‌هاي كهنه شده‌اي كه هنوز كاملا جمع‌‌آوري نشده‌اند، استخراج و نگهداري كرد، بسيار سريعتر از آنكه بخواهيم داده‌هاي قديمي و منقضي شده اي را جمع‌آوري و سپس مورد تجزيه و تحليل قرار دهيم.

7-3- داده‌هاي بهداشتي و شخصي: از سرشماريهاي دولتي گرفته تا فايل‌هاي افراد و مشتريان، مجموعه‌هايي از اطلاعات بطور پيوسته در مورد اشخاص و گروهها در حال جمع‌آوري است. دولتها، كمپاني‌ها و سازمانهايي مثل بيمارستانها، مقادير بسيار مهمي از اطلاعات شخصي را براي كمك در مديريت منابع انساني جمع آوري و انبار مي‌كنند، همچنين براي درك بهتر از بازار و كمك و راهنمايي ساده‌تر مشتري، بدون توجه به سياستهاي صادره و گزارش شده، اينگونه داده‌ها اغلب فاش مي‌شوند و در موارد بسياري گسترش مي‌يابند. اينگونه داده‌ها زمانيكه بهمراه اطلاعات مهم ديگري گسترش يابند، ممكن است منجر به تغيير در سليقه و رفتار مشتري شوند که تحلیل آنها اطلاعات بسیار مناسبی را در اختیار قرار میدهد..

7-4- نظارت تصويري و ويدئويي: با افت قيمت شگفت انگيز دوربينهاي تصويربرداري، استفاده از آنها بسيار فراگير شده است. نوارهاي ويدئويي دوربينهاي امنيتي معمولا بازيابي شده و اطلاعات قديمي آنها از بين ميرود،اگر چه امروزه گرايش بيشتر به نگهداري نوارها و حتي ديجيتالي كردن آنهاست.

7-5- دریافتها و مشاهدات ماهواره ای: امروز تعداد غیر قابل شمارشی ماهواره گرداگرد جهان قرار دارد، که برخی از آنها ایستگاههای ناحیه ای بالای سطح زمین هستند و برخی دیگر در مداری گرد زمین می چرخند. به هر صورت تمامی آنها در حال ارسال جریان بدون وقفه ای از اطلاعات به سطح زمین هستند. Nasa که کنترل تعداد زیادی از این ماهواره ها را در اختیار دارد، در هر ثانیه مقادیر زیادی از اطلاعات را، بیش از آنچه که تمامی مهندسین و محققین nasa می توانند جمع آوری کنند، دریافت می دارد. تعداد زیادی از تصاویر ماهواره ای و اطلاعات بمحض دریافت، پخش عمومی شده و در اختیار همگان قرار می گیرد، به امید آنکه سایر محققان بتوانند آنها را تجزیه و تحلیل نمایند.

7-6- بازیهای المپیک: جامعه ی ما مقادیر زیادی اطلاعات و آمارها در مورد بازیهای المپیک، بازیکنان و ورزشکاران جمع آوری می نماید، از امتیازات هاکی و پاسهای بازیهای بسکتبال و تعداد دورهای طی شده در یک مسابقه ی رالی اتومبیلرانی گرفته، تا رکورد های شناگران، ضربات بکسرها و موقعیت مهره ها در بازیهای شطرنج، همه ی اینگونه اطلاعات جمع آوری می شوند.مفسرین و خبرنگاران از این اطلاعات برای گزارش وقایع استفاده می کنند، اما مربیان این اطلاعات را در جهت افزایش توان و نیرو و درک بهتر حریفان و رقیبان بکار می گیرند.

7-7- رسانه ی دیجیتال: گسترش اسکنر های ارزان قیمت، دوربینهای ویدئویی رومیزی و دوربینهای دیجیتال، یکی از دلایل گسترش تولیدات این رسانه هاست. بعلاوه بسیاری از ایستگاههای رادیویی، کانالهای تلویزیونی و استودیوهای فیلمسازی مشغول دیجیتال کردن مجموعه های ویدئویی و صوتی خود برای ارتقا در سطح مدیریت دارائی های چندرسانه ایشان میباشند. شرکتهایی همچون nhl و nba فرآیند تبدیل مجموعه های عظیم بازی هایشان به فرمتهای دیجیتالی را آغاز کرده اند.

7-8- داده های مهندسی نرم افزار و طراحی بکمک کامپیوتر(cad): سیستم های نرم افزاری متنوعی جهت طراحی بکمک کامپیوتر و جهت طراحی ساختمانها یا برای مهندسان جهت درک بهتر اجزای سیستم و مدارات وجود دارد. اینگونه سیستمها مقادیر نامتناهی داده تولید می کنند. علاوه بر این مهندسی نرم افزار، منبع مشابه قابل توجهی از داده در قالب کد، توابع کتابخانه ای، اشیا و ... میباشد که به ابزارهای قوی برای مدیریت و نگهداری نیازمند می باشد.

7-9- دنیاهای مجازی: برنامه های کاربردی زیادی وجود دارند که از فضاهای مجازی سه بعدی استفاده می کنند. این فضاها و اشیایی که دارند با زبانهای ویژه ای همچون vrml تشریح می شوند. در حالت مطلوب این فضاهای مجازی به شیوه ای تشریح می شوند که میتوانند اشیا و فضاها را به اشتراک گذارند. در حال حاضر مقادیر قابل توجهی از اشیائ مجازی و فضاهای ساخته شده موجود می باشد. مدیریت این منابع جمع آوری شده مانند جستجوی بر اساس محتوا و بازیابی از این مجموعه ها در حال گسترش و رشد است.

7-10- گزارشات متنی و نامه های الکترونیکی: اکثر ارتباطات داخلی و بینابین شرکتها یا سازمانهای تحقیقاتی یا حتی اشخاص بر مبنای گزارشات و یادداشتهای در قالب متن بوده و اغلب این تبادلات با پست الکترونیکی انجام میشود. این پیغامها مرتبا در فرمها و قالبهای دیجیتالی برای کاربرد های آینده و همچنینی ایجاد منابع و کتابخانه های عظیم دیجیتالی، نگهداری می شوند.

7-11- منابع و اطلاعات موجود در شبکه ی جهانی وب: از زمان آغاز به کار شبکه ی جهانی وب در سال 1993، اسنادی از گونه ها و غالبهای مختلف، محتویات و جزئیات جمع آوری شده و مرتبط شده از داخل، با ابر پیوند ها آن را تبدیل به بزرگترین منبع داده ای کرده که تاکنون ساخته شده. بر خلاف طبیعت غیر ساخت یافته و دینامیک آن، خصوصیات نامتجانس، افزونگی و تناقضات زیاد موجود در آن، همچنین بدلیل تنوع وسیع آن و موضوعات پوشش داده شده، همچنین سهم بیکران آن از منابع و انتشارات، مهمترین مرجع داده ای است که تاکنون مورد استفاده عموم قرار گرفته. نظریات مختلف بر این اعتقادند که شبکه ی جهانی وب تالیفی از علوم بشر خواهد بود.

آبجی

5th January 2010, 10:28 PM

8- نگاهي مختصر به دو نمونه از الگوريتمهاي داده كاوي:

1- رگرسيون(regression) : از قديمي ترين و معروف ترين تكنيكهايي است كه در داده کاوی بكار مي‌رود. اساسا رگرسيون يك مجموعه اطلاعات و داده را در اختيار گرفته و يك فرمول رياضي متناسب با آن داده‌ها ايجاد مي‌كند و زمانيكه شما بخواهيد از نتايج داده هايتان آينده را پيش بيني كنيد، كافيست داده هاي جديد خود را به فرمول توليد شده توسط رگرسيون داده و نتايج حاصل كه همان پيش بيني هاي مورد نظر شماست را دريافت داريد. محدوديت اصلي اين تكنيك در آن است كه تنها با مقادير داده اي پيوسته همچون وزن سرعت و... بخوبي كار مي كند. در صورتي كه شما با مقادير داده اي گسسته همچون رنگ وجنسيت واسم و... سر و كار داريد، بهتر است تكنيك ديگري را براي اين كار انتخاب كنيد.

2-طبقه بندي (classification): اگر شما با داده هاي طبقه بندي شده و يا تركيبي از داده هاي عددي و دسته‌بندي شده سروكار داريد، تحليل‌هاي طبقه بندي شده، نياز شما را مرتفع مي كند. اين تكنيك توانايي پردازش مجموعه هاي وسيعتري از داده ها را (نسبت به تكنيك رگرسيون) داشته و در حال گسترش عمومي مي‌باشد. همچنين خروجي اي كه شما در اين حالت دريافت مي كنيد از لحاظ پيچيدگي بسيار ساده تر است و راحتتر تفسير مي‌شود. دراين روش شما بجاي دريافت فرمولهاي رياضي پيچيده، يك درخت تصميم گيري كه حاوي تعدادي تصميم مشخص دو حالته (binary) ميباشد را دريافت مي كنيد.

رگرسيون و طبقه بندي دو مورد از پركاربردترين روشهاي طبقه بندي اطلاعات هستند، اما اين دو تنها تكه‌اي از يك مجموعه ي بزرگ هستند

آبجی

5th January 2010, 10:28 PM

9- کاربرد علم آمار و روشهای آماری در داده کاوی:

9-1- مقدمه و مقا یسه

آمار شاخه ای از علم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد. این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه، این عامل نسبت به داده کاوی قدمت بیشتری دارد و جزء روشهای کلاسیک داده کاوی محسوب می شود، وجه اشتراک تکنیکهای آماری و داده کاوی بیشتر درتخمین و پیش بینی است. البته از آزمونهای آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. در کل اگر تخمین و پیش بینی جزء وظایف داده کاوی در نظر گرفته شوند، تحلیل های آماری، داده کاوی را بیش از یک قرن اجرا کرده است. به عقیده بعضی داده کاوی ابتدا ازآمار و تحلیل های آماری شروع شد. می توان تحلیل های آماری از قبیل فاصله اطمینان، رگرسیون و... را مقدمه و پیش زمینه داده کاوی دانست که بتدریج در زمینه های دیگر و متد های دیگر رشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزو روشهای کلاسیک و قدیمی داده کاوی محسوب می شوند. در جایی اینگونه بحث می شود که با تعریف دقیق، آمار یا تکنیکهای آماری جزء داده کاوی نیستند. این روشها خیلی قبل تر از داده کاوی استفاده می شدند. با این وجود، تکنیکهای آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدلهای پیشگویانه مورد استفاده قرار می گیرند.

در جایی پایه و اساس داده کاوی به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند. فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند، بعنوان یک قانون کلی فرضها و تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است. در مقابل روشهای یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کنند و همین مورد باعث تفاوتهایی بین این دو روش می شود. به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده می کنند که این مساله بطور خاص در شبکه عصبی دیده می شود. بطور کلی روشهای آماری روش های قدیمی تری هستند که به حالت های احتمالی مربوط می شوند. داده کاوی جایگاه جدید تری دارد که به هوش مصنوعی، یادگیری ماشین، سیستمهای اطلاعات مدیریت (MIS) و متدلوژی پایگاه داده مربوط می شود. روشهای آماری بیشتر زمانی که تعداد داده ها کمتر است و اطلاعات بیشتری در مورد داده ها می توان بدست آورد استفاده می شوند. به عبارت دیگر این روشها با مجموعه داده ها ی کوچک تر سر و کار دارند همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد. بر خلاف روشهایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. پس به طور کلی این روش در محدوده مشخصی از داده های ورودی بکار می رود. بکار بردن این روشها مجموعه داده های زیاد، احتمال خطا در این روشها را زیاد می کند. چون در داده ها احتمالnoise و خطا بیشتر می شود و نیز روشهای آماری معمولابه حذف noise میپردازند، بنابراین خطای محاسبات در این حالت زیاد می شود. در بعضی از روشهای آماری نیاز داریم که توزیع داده ها را بدانیم. اگر بتوان به آن دسترسی پیدا کرد، با بکار بردن روش آماری می توان به نتایج خوبی رسید. روشهای آماری چون پایه ریاضی دارند نتایج دقیق تری نسبت به دیگر روشهای Data mining ارائه می دهند ولی استفاده از روابط ریاضی نیازمند داشتن اطلا عات بیشتری در مورد داده ها است.

9-2- كاربردهاي روشهاي آماري:

داده کاوی معمولا وظايف يا به عبارت بهتر استراتژیهاي زير را در داده ها بكار مي برد:

· توضيح و تفسير (description)

· تخمين ( estimation )

· پيش بيني ( prediction )

· كلاس بندي ( classification )

· خوشه سازي ( clustering )

· وابسته سازي وايجاد رابطه (association)

البته بايد گفت كه روشهاي داده کاوی تنها به يك استراتژي خاص محدود نمي شوند و نتايج يك همپوشاني بين روشها را نشان مي دهد. براي مثال درخت تصميم ممكن است كه دركلاس بندي تخمين وپيش بيني كاربرد داشته باشد. بنابراين اين جدول را نبايد به عنوان تعريف تقسيم بندي از وظايف در نظرگرفته شود‏‎ بلكه به عنوان يك خروجي از آنچه كه ما به عنوان وظايف داده کاوی آشنايي پيدا كرديم در نظر گرفته مي شود

آبجی

5th January 2010, 10:28 PM

10- نتیجه گیری:

با توجه به روش‌ها و امکان داده کاوی، می‌توان از اطلاعات بانک‌های عامل و بانک مرکزی ، وزارت بازرگانی ، گمرکات کشور ،پايانه‌های حمل ‌و ‌نقل کالا، وزارت صنايع و معادن و ديگر سازمان‌های ذيربط استفاده نموده و موارد مشکوک را مميزی کرد. پيش نياز فوق وجود راه‌ها و اطلاعات زياد و کافی در سازمان های مربوطه است. اگر سامانه‌هايی در سازمان‌های مربوطه وجود داشته‌ باشند که بتواند اطلاعات را بصورت "آن لاين" و فوری در اختيار بگذارند، باتوجه به اعلام بازرگانان در مبادی حمل و نقل، صدور و ورود کالا، می‌توان قبل از اقدام به صادر يا وارد کردن کالا، آن را مميزی و کشف نموده و مانع از پول‌شويی و فساد اقتصادی گرديد. کارهای آماری و اطلاعاتی از اين نوع يک علم تقريبی است، اما با امکانات رايانه‌ايی و روش‌های داده‌کاوی، می‌توان کيفيت و دقت آنرا بيشتر کرد.[5]

با وجود آنکه داده کاوی علمی است که در برخورد اول کاملا نظری ظاهر میشود، کاربردی کاملا عملی در تجارت، صنعت و ... داشته و با عنایت به نتایج حاصل از آن، فراهم آوردن بستر مناسب جهت استفاده از آن در وجوه مختلف تجارت و صنعت ضروری می باشد. این علم ذاتا زاییده ی علم آمار است ولی در کاربرد بصورت مجموعی از علوم آمار، هوش مصنوعی و پایگاه داده ها ظاهر می شود.

استفاده از تمامی مطالب سایت تنها با ذکر منبع آن به نام سایت علمی نخبگان جوان و ذکر آدرس سایت مجاز است

استفاده از نام و برند نخبگان جوان به هر نحو توسط سایر سایت ها ممنوع بوده و پیگرد قانونی دارد