כריית נתונים

מתוך WikiBook

קפיצה אל: ניווט, חיפוש

תוכן עניינים

[עריכה] . מבוא:

כריית מידע (data mining) או כריית נתונים היא הפעלת אלגוריתם או תוכנית מחשב לצורך גילוי ידע הטמון בבסיסי נתונים קיימים, והסקת מסקנות מבסיסי נתונים אלו. המושג כריית מידע נוצר כאלגוריה לכרייה גאולוגית בה כורים באדמה כדי למצוא אוצרות טבע.

גילוי ידע בבסיסי נתונים הוא תהליך הנועד לחקור ולנתח כמות גדולה של מידע באמצעים אוטומטים ככל שניתן לצורך גילוי דפוסים תקפים, חדשים (הדפוסים לא היו ידועים לפני כן והם מחדשים), שימושים (מקבלי ההחלטות יכולים להשתמש בדפוסים שהתגלו כדי לשפר תהליכים קיימים) ובעלי משמעות (מובנים למקבל ההחלטות).  כל זאת על מנת שמקבלי ההחלטות בארגון יוכלו לשפר תהליכים קיימים, לאתר חולשות וחוזקות, ולאפשר החלטה מושכלת ביחס להמשך דרך הפעולה והאסטרטגיה הארגונית. 

כריית המידע מאפשרת גילוי קשרי גומלין שלא היו ידועים מראש בתוך הארגון. לדוגמא: אורך החיים של פריט מלאי, שנרכש מספק מסוים, ונמכר כחלק ממוצר במדינה מסוימת, נוטה להתקלקל מהר יותר מאשר במדינות אחרות. ראוי לציין כי כריית המידע היא רק שלב אחד בתהליך יצירת הידע והבנתו. התוצר הסופי של התהליך כולו מהווה מודיעין עסקי שחשיבותו ראשונה במעלה. תחום כריית הנתונים נמנה כאחד מעשרת הטכנולוגיות בעלות הפוטנציאל הגדול ביותר לשנות את העולם העסקי בעשור הקרוב. המרחק בין הצלחה לכישלון בפרויקטים אלו היינו שברירי סטייה לכאן או לכאן אך מהניסיון שהצטבר בעולם ה- BI ככלל ובעולם חיפוש הידע בפרט עולה כי לתחום כריית הנתונים חשיבות מכרעת על היקף המכירות והצלחת החברה.


[עריכה] 2. כריית הנתונים ובינה עסקית

כריית המידע הינה אחד התחומים החשובים ביותר בעולם הבינה העסקית. בעולם העסקים התחרותי בו אנו חיים הדרך אל ההצלחה אינה מובטחת כחלק מתהליכי ההתייעלות אנו עושים כל שביכולתנו בכדי להגדיל רווחיות ולצמצם סיכונים, וכפועל יוצא מכך אנו מעצימים דיווח למערכות התפעוליות (לקוחות,מכירות,מלאים ועוד). כתוצאה מכך מתווספים מיליוני רשומות למערך "היכלי המידע" הפזורים בארגון. לרוב הנתונים מתפרסים על יותר ממערכת קריטית אחת(ERP,BPM,CRM) אין ספק כי מערכות אלו הן אבן היסוד של ההצלחה העסקית. מכאן נובע הצורך באמת ארגונית אחת אשר תציף תובנות מסוג של מגמות וכללים שהיו חבויים בתוך היישומים הארגוניים ותגיש אותם על "מגש הכסף" למנהלים ולעובדים בארגון לצורך תמיכה בקבלת ההחלטות. מערכת תובנה עסקית היא הערך המוסף לכל ארגון. זוהי תשתית מידע וידע איכותית לקבלת החלטות מושכלות לכל דרגי הניהול והביצוע בארגון, באמצעות כלים מתקדמים לדיווח, ניתוח הצפת חריגים ומדידת ביצועים. כלי BI מספקים נגישות וזמינות למידע למשתמש קצה ללא כל צורך בתווך של אנשי מקצוע להפקת המידע. מערכות BI היא בעצם אוסף של מתודולוגיות וכלים לשליפת מידע וריכוזו במחסן מידע על מחלקתי, הגוזר נתונים מהמערכות התפעוליות בארגון וממקורות חיצוניים ומציג אותם. תוך כדי כך, הוא מסייע למנהלים ולעובדים בקבלת החלטות במהירות וביעילות. מערכות תובנה עסקית יעניקו לארגון את היכולת לפעול בשוק תחרותי ודינמי, לחזות אירועים על סמך ניתוח התנהגות ומגמות, להגיב לצרכים ודרישות משתנות ולזהות כדאיות כלכלית.

אחד הנושאים המתקדמים ביותר בתחום הבינה העסקית הינו כריית המידע.  תהליך הכרייה הינו תחום חדש יחסית שפותח לקראת סוף שנות התשעים והוא תהליך חפירה במידע שנאגר לאיתור תובנות ותשובות שלא התקבלו מהנתונים באופן ישיר ושאינם צפים מעל פני השטח. הרעיון העומד מאחורי כלים אלו הוא הפעלה של שיטות סטטיסטיקה, למידה ואינטליגנציה מלאכותית על מידע שנצבר (במחסן הנתונים) על מנת למצוא קשרים בין הנתונים, תבניות וחוקיות. אין טכניקה אחת בודדה המתאימה לכלים אלו, אלא שילוב של מספר טכניקות והתאמתם לבעיה הנוכחית . תהליך כריית הנתונים הינו תהליך חשיפה וגילוי.  כלומר, תהליך זה מתחיל על ידי כלים מיוחדים שפועלים על הנתונים (ולא על ידי משתמש) על מנת לחשוף קשרים.  טכנולוגיית כריית הנתונים נועדה במיוחד כדי להתמודד עם כמות הנתונים האדירה ועם הקושי הרב ללמוד ולהפיק ממנה מידע.  הטענה הבסיסית היא שאנו חוקרים לרוב את מה שכבר ידוע לנו, בעוד שניתן להפיק מהנתונים מידע חיוני רב שאנו כלל לא מודעים לו.  למרות זמינותם של הנתונים בסביבה העסקית של ימנו, הרי שאיתור המידע הנכון הדרוש לקבל החלטות עסקיות הוא עניין לא פשוט.   

בהתאם לזאת ובעזרת הכלים הנ"ל ניתן להגיע לתוצאות עיסקיות מרחיקות לכת באמצעות תהליך כריית הנתונים: חיזויי מוצרים מובילים, חיזויי נטישת לקוחות, חיזויי נטישת עובדים, חיזויי ואיתור מעילות ,חיזויי הצלחת קמפיינים, איתור לקוחות פוטנציאליים ועוד תוצאות רבות ומגוונות שייתרמו בעשרות מונים להצלחה ולקידום העסקים.


[עריכה] 3. תהליך איסוף הידע

ראוי לציין שישנם מומחים רבים בתחום המשתמשים במונח "גילוי ידע בבסיסי נתונים" ובמונח "כריית נתונים" כמונחים נרדפים. אבל "גילוי ידע בבסיסי נתונים" מתייחס לתהליך בכללותו ואילו כריית נתונים הוא רק שלב אחד בתוך התהליך - השלב בו מפעילים אלגוריתמים במחשב. מלבד שלב כריית הנתונים כולל התהליך שלבים אחרים, חלקם קודמים לכריית הנתונים (כגון הכנת הנתונים) וחלקם עוקבים (כגון הבנת התוצאות). היכן מסתתרים כל הנתונים? היכן שמורות כמויות הנתונים האדירות שמהן אנו מפיקים מידע ועליהם אנו מפעילים את טכניקת כריית הנתונים? אחת השיטות הנפוצות ביותר לאכסון כמות רבה של נתונים היא מסד נתונים או בסיס נתונים (Data Base). אוסף גדול של מסדי נתונים מוגדר כמחסן נתונים (Data Warehouse). מחסן הנתונים מחיל את כל הנתונים שנצברו ממערכות המידע השונות המופקות בארגון. אך איך נחפש ידע זה, ומה נעשה איתו לכשנמצא אותו? תהליך חיפוש הידע במסדי נתונים היינו תהליך של זיהוי תבניות בתוך כמויות גדולות ביותר של נתונים. על מקבלי ההחלטות לאתר תבניות בעלות תוקף, ברורות ובעלות פוטנציאל לעשות בהן שימוש. ליבו של התהליך הוא סידרת הפעולות של כריית הנתונים, שנועדה לזהות תבניות ונתונים ולאמתם. ואולם בפעולות אלה מושקע רק חלק קטן מהמאמץ (כ- 5% עד 25%) המושקע בתהליך כולו. התהליך היינו אינטראקטיבי ואיטרטיבי (כל שלב בתהליך חוזר על עצמו פעמים אחדות: כל חזרה נקראת איטרציה. תהליך המורכב מאיטרציות קרוי תהליך איטרטיבי). התהליך כולל את השלבים הבאים:

1. לימוד תחום היישום, הכרת הנתונים והכרת המשימה- שלב זה חשוב בעיקר כאשר הנתונים נאספו ממקומות שונים וכאשר הניתוח איננו מבוצע ע"י משתמש מתוך הארגון.

2. יצירת מערך נתוני מטרה- בחירת מערך נתונים, או התמקדות בתת מערך של נתונים, אשר ייחקרו ויובאו לתוך הסביבה המתאימה לניתוח.

3. ניקוי הנתונים- הרחקת "רעשים", סילוק רשומות שידוע כי הן כוללות טעויות, החלטה על אסטרטגיה להתמודדות עם שדות נתונים חסרים וכו'.

4. רדוקציה והתמקדות- מציאת מאפיינים יעילים ובעלי משמעות להצגת הנתונים ושימוש ברדוקציה או בשיטות טרנספורמציה בכדי להפחית את מספר הנתונים הנחקרים.

5. פיתוח מודל והיפוטזה- בחירת מודל מתאים (אלגוריתם- דרך שיטתית, כלומר כזו שצעדיה מוגדרים היטב לביצועה של משימה מסוימת במספר סופי של צעדים) לניתוח הנתונים, לפי המטרה הרצוייה. ולבסוף, בחירת פרמטרים לחיפוש אחר תבניות בנתונים ופיתוח היפוטזות ראשוניות שיש לבחון.

6. כריית נתונים- ביצוע פרוצדורות החקירה העיקריות לשם מציאת תבניות חדשות וידע חדש במערך הנתונים, על מנת לאושש או להפריך היפוטזות שפותחו קודם לכן.

7. בחינה ואימות- הערכת הידע שהתגלה, כולל בחינת התבניות באמצעות מודלים של חיזוי.

8. פרשנות- מתן פירוש לתבניות שנמצאו. יש אפשרות לחזור לכל שלב קודם, לביצוע היזון חוזר, במטרה להפיק תוצאות משופרות. בנוסף ניתן להציג את התבניות באופן ויזואלי, לסלק תבניות שאינן רלוונטיות וכן לתרגם את התבניות השימושיות למונחים שמובנים לכל.

9. שימוש בידע שהתגלה- שילוב הידע במערכת יחד עם הידע הקיים בתחום, ביצוע פעולות בהתבסס על הידע או פשוט תיעוד הידע ודיווח לקבוצות באירגון שעשויות למצוא בו עניין.

[עריכה] 4. מטרות, מאפיינים וכלים טכנולוגים

כלים של כריית הנתונים מאפשרים ניבוי של מגמות והתנהגויות עתידיות. הטכנולוגיה מתבססת על אלגוריתמים מתמטיים מסוגים שונים שמנתחים באופן שיטתי כמויות גדולות של נתונים מתוך כוונה לנסות ולמצוא מתאם גבוה בין קבוצה קטנה ככל הניתן של מאפיינים, לבין מאפיין שהוגדר כנבחן- בדרך זו לגלות דפוסי התנהגות ויחסי גומלים בין משתנים שונים הנוגעים ללקוחות, מוצרים, שירותים וכדומה. גילוי קשרים אלו עשוי להוביל לניצולן של הזדמנויות חדשות המבוססות על דפוסי צריכה ורכישה כאלו ואחרים שאותרו על ידי המערכת. השימוש הרווח בכריית נתונים הוא ניצול מאגרי ידע על הרגלי קניות, לצורך "תפירת" הצעות אישיות וממוקדות לצרכן.

4.1. טכנולוגיית כריית הנתונים מתאפיינת בפונקציות הבאות: 1. יכולת סינון אוכלוסיה רחבה לבניית אוכלוסיה מעניינת לתחקור. לדוגמא: יישום של גישת כריית נתונים ייחודית בבנק עשויה לקבוע כי לקוחות עם אוברדראפט ועם הסטורית הפקדות אופיינית הם מעומדים מתאימים במיוחד לחשיפה לפרסומת של הלוואה מיוחדת למשכנתא או רכב. 2. יכולת הפעלת אלגוריתם מטמטי אחד או כמה אלגוריתמים בו זמנית, שכן לעיתים אלגוריתם אחד איננו מתאים לכל סוגי המתאמים שמנסים לבחון. 3. יכולת הצגה גרפית והצגה הסתברותית מפורטת של התוצאות המלאות או החלקיות שהתקבלו.

4.2. מאפייני האלגוריתם: מרבית האלגוריתמים לכריית נתונים מאופיינים כשילוב של מספר טכניקות ועקרונות בסיסיים. שלושת המרכיבים הבאים הם המאפיינים העיקריים של האלגוריתם: 1. מודל- הגורמים הרלוונטים ביחס למודל הם תפקידו (למשל: סיווג לקטגוריות) וצורת ההצגה (כגון: פונקציה לינארית רבת משתנים, פונקציית התפלגות וכו'). 2. קריטריון והעדפה- זהו הבסיס להעדפה של מודל מסויים על פני מודלים אחרים והוא תלוי בנתונים הקיימים. לרוב הקריטריון הוא מעין פונקציה של טיב ההתאמה של המודל לנתונים. 3. אלגוריתם חיפוש- תיאור מדוייק של האלגוריתם למציאת תבניות ופרמטרים בהינתן נתונים, מודל וקריטריון העדפה.

4.3. תפקידי המודל וכלים טכנולוגים: על מנת לספק לארגון מערכות תומכות החלטה, יש להשתמש בכלים מובנים שעיקרם כריית מידע. כלים דוגמת Informatica ו DWH - Data Warehouse , מתמחים בייבוא של מידע רב ממערכות שונות לתוך בסיס נתונים אחד, עליו הם מבצעים חתכים שונים ומחפשים תבניות ודפוסי התנהגות חוצי ארגון. התוצר הסופי של כלים אלו הוא דוחות ושאילתות מסוכמים, המאפשרים חקירת נתונים עד רמת הנתון הגולמי ביותר ממנו מורכב הסיכום. בנוסף, ניתן לדרוש מהמערכת הצגת מגמה על פני תקופות עבור המדד המבוקש, וגם תמונת מצב רגעית ליום נתון (Snapshot). כלים אלו מסוגלים לחפש בסדרות נתונים אקראיות קשרים ותלויות שאדם פשוט לא היה מזהה לעולם. היכולת לנבור ולחפש קורלציות כאלו מונעת ע"י כוח המחשוב העצום הקיים כיום בשוק. חברה אינה יכולה להשיג יתרון משמעותי על מתחריה אם אינה יודעת את מצבה הפנימי. כך למשל, כדי לבדוק כדאיות כניסה לפרויקטים חדשים דרוש מידע על עלויות פיתוח, כשלים אפשריים, מחירי מרכיבים ועוד כדי להציג מחיר תחרותי שגם יהיה רווחי. כריית המידע המצוי בארגון יאפשר ניבוי באחוזי דיוק גבוהים של כדאיות הכניסה לפרויקט חדש או המשך עיסוק בפרויקט קיים בתנאי שהעבודה כמובן התבצעה כהלכה. כריית הנתונים מציעה פתרונות אוטומטיים לניתוח מידע בתחומים שונים ועל פי קריטריונים ופרמטרים הניתנים להגדרה ע"י המשתמש, ומשתמשים בעקרונות סטטיסטיים. מודלים שונים ממלאים פונקציות שונות, זאת הסיבה שיש צורך להתאים את המודל לסוג הנתונים ולבחור במודל שהפונקציות שלו תואמות את המטרות הדרושות. נביא מספר דוגמאות לשימוש בעקרונות אלו על ידי הפונקציות השונות של המודלים לכריית נתונים: 1. סיווג (classification)- מודל זה ממפה את הנתונים ומסווג כל פריט נתון לאחת מכמה קטגוריות שהוגדרו מראש. המודל מסווג רשומות חדשות לקבוצות על פי סיווג של רשומות הקיימות במסד הנתונים. לכל קבוצת רשומות מאפיינים המגדירים אותם כקבוצה. פונק' הסיווג מזהה באופן אוטומטי את המאפיינים הללו וכך כאשר נכנסת רשומה חדשה היא מסווגת אוטומטית לקבוצה. 2. רגרסיה (regression) – גילוי פונקציה רציפה בין מאפייני האוכלוסייה למשתני התנהגות. למשל, עלות תחזוקת רכב בארגון כפונקציה של מרחקי נסיעה צפויים, לעומת ארגון אחר בו העלות העיקרית היא פונקציה של תאונות. הרגרסיה מנבאת יותר ממתאם רגיל. 3. קיבוץ clustering)) - המודל ממפה את פריטי הנתונים לפי קטגוריות שנקבעו מתוך הנתונים (לא כאלו שהוגדרו מראש). הקטגוריות נקבעות על ידי מציאת קבוצות טבעיות של פרטי נתונים (בהתבסס על מודלים הסתברותיים ואחרים), ויצירת אשכולות של אוביקטים בעלי תכונות זהות. 4. מודל תלות- מתאר יחסי תלות משמעותיים בין משתנים. למודלים הללו שתי רמות: רמת המבנה שמציינת אילו הם המשתנים התלויים, והרמה הכמותית שמציינת מהו חוזק התלות. 5. ניתוח קשר (correlation )- המודל מאתר קשרים ויחסים בין השדות במסד הנתונים. המודל מאתר קשרים וקשרים חלקיים (partial) בין משתנים בתוך קבוצות שונות ותת קבוצות. יש לזכור שקשרים אלו יכולים לנבוע מגורם שלישי ולכן אינם מנבאים תמיד. דוגמה נפוצה היא ניתוח סלי קניות של חברי מועדון לקוחות ברשתות שיווק מזון- מציאת קורלציה שבה אדם הקונה חלב תמיד קונה גם פלפל אדום יאפשר סידור מדפים מסוים על פי האסטרטגיה של מנהל הרשת (היכן להציב את החלב ואת הפלפל האדום). במקרים אלו מדובר בניתוח מיליוני רשומות מדי חודש. מתבצעת חזרה על ניתוחים אלו על מנת לבדוק תופעות עונתיות ושינויי מגמות בהתנהגות הצרכן. 6. תבניות סידרתיות (time series) - פונקציה המנתחת אוסף של רשומות לאורך זמן, כדי לנסות לזהות תבניות של התנהגות. המטרה היא לנסות למצוא תבניות של המצבים השונים שיוצרים את הרצף, או לזהות ולדווח על סטיות ועל מגמות לאורך זמן. לדוגמא: ניתוח סט של תביעות ביטוח יכול להוביל לזיהוי של ניסיונות הונאה. 7. רשתות נוירונים (neural nets) – מערכת המתבוננת בהתנהגות מערכת אחרת, ומוצאת את הקשר בין נתוני קלט (גירויים) מסוימים לפלט (התנהגויות) בתהליך של היזון חוזר (FeedBack). התוצאה היא משוואה של הקשר בין עוצמת הפלט לקלטים למיניהם. בחירת המודל וניתוח איכותי של המידע הנצבר תלוי במספר גורמים, יש להתאים את המערכת לאוכלוסית המשתמשים, למשל, אנשי שיווק המעוניינים בבחינת השערות שיווק שוטף שונים מחוקרים באוניברסיטה המעוניינים לאשש השערה חד-פעמית. יש לבחור לכל נושא את המאגרים מהם יורכב, אילו נתונים לגזור, ושיטת הדגימה של הנתונים. יש לבדוק את שלמות, דיוק ואופן הצגת הנתונים. יש להבין את דרישות המשתמש, ליצור תהליך אוטומטי לייבוא הנתונים מהמאגרים השונים, ולנסות לבצע תהליכים סטטיסטיים במערכת הקיימת, או לאפשר גישה לנתונים מתוכנות אחרות בהתאם להעדפת המשתמש.



[עריכה] 5. דוגמאות ומערכות יישומיות:

5.1. ניצול הזדמנויות עסקיות: טכנולוגית כריית הנתונים עשוייה ליצור אין ספור הזדמניות עסקיות חדשות באמצעות היכולות הטמונות בחובה. להלן מספר דוגמאות:

1. חיזוי אוטומטי של מגמות ושל התנהגות - התהליך של מציאת מידע במסדי נתונים גדולים והסקת מסקנות ממנו הופך לאוטומטי, מהיר ואיכותי, בעוד שבעבר ניתוח ידני היה איטי, מורכב ולא מדוייק. לדוגמא, בתחום השיווק הממוקד כריית נתונים יכולה לזהות, באמצעות שירותי הדיוור, קהל מטרה שיגיב בצורה חיובית לדיוור עתידי.

2. חשיפה אוטומטית של תבניות שלא היו ידועות קודם לכן - כלי כריית הנתונים מזהים בצעד אחד תבניות שבלעדיהן היו חבויות לעד. לדוגמא, ניתוח סל קנייה אופיני מנתונים אשר התקבלו מעמדת הקופה מאפשרים לאתר קשרים בין מוצרים שונים הנרכשים בתדירות גבוהה ביחד. לאחר מכן, להצליב נתונים אלו עם נתוני הקונים ולאתר קונים פוטנציאלים, לעצב את היצע המוצרים ולתכנן את מיקומן באורח היעיל ביותר. למשל, מערכת כריית הנתונים מצאה שמי שקונה חיתולים לרוב קונה גם בירה - מנהל החנות יציב את שני המוצרים אחד ליד השני.

3. ניצול ופיענוח מאגרי ידע - חברה המחזיקה במאגרי נתונים גדולים ומגוונים אודות התנהגות לקוחותיה יכולה לעשות שימוש בטכנולוגית כריית הנתונים, שתפתח בפניה הזדמנויות חדשות להתמודדות טובה יותר בתחרות הגדלת פלח השוק. חברות האשראי, שלרשותן עומדים מאגרי המידע הגדולים ביותר הקיימים בשוק על הרגלי הצריכה של הציבור (גיל הלקוח, מקום מגוריו, איכן ומה הוא קונה), בעזרת נתונים אלו יכולות לאתר לקוחות פוטנציאלים לסקטור קניות ספציפי. לדוגמא הם מאתרות לקוח שנוסע הרבה לסין, הם יפרסמו לו (לו בלבד לעיתים) מבצע מיוחד.

4. המסחר האלקטרוני – בתחום זה טמון הפוטנציאל הגדול ביותר של כריית הנתונים על ידי חברות האשראי וחברות נוספות. זאת משום שבעולם הוירטואלי כל העסקאות מתועדות במערכת ממוחשבת, מתבצעות באשראי, וקל יותר לפרסם את המוצר באופן אישי לכתובת לקוח מסויימת.

5. בפן השיווקי – בנוסף לפעולות הבסיסיות של כריית המידע (תרגום, ניקוי וארגון) נעשה ניתוח של הנתונים והצמדת משמעות למידע. דרכי הפעולה שהפעלתן מגלה דפוסי התנהגות שלא היו ברורים מראש הם המסייעים לניצול אפקטיבי של המידע: • גיוס לקוחות חדשים ע"י זיהוי מאפייני קבלת החלטות צרכניות ובחירת ערוצי המדיה הנכונים. • צמצום לקוחות. חלק מהלקוחות אינם תורמים לרווחיות החברה ועלות המכירה ושמירת הקשר איתם עולה על התרומה לרווח. זיהוי מאפייני קבוצות לקוחות זו והפסקת העבודה איתם תפנה מאמצי שיווק לגיוס לקוחות רווחיים יותר. • גיבוש אסטרטגיות קידום מכירות. דרכי פעולה אלו מבוססות על קשרים בין אוכלוסיות מוגדרות והשפעת התקשורת השיווקית עליהם בנקודת המכירה.

5.2. מערכות נפוצות: מערכות רבות מציפות כיום את השוק, אין ספור חברות המתמחות בתחום כריית הנתונים נפתחות בכל חודש ברחבי העולם. הנה כמה מהעיקריות:

1. מערכת סיגמא (SIGMA 4)- המערכת עונה על רוב הדרישות התיאורטיות והעקרונות למחסן נתונים. המערכת נרכשה ע"י בר-אין לצורך כריית נתונים המיועדת לשאלוני מחקר. הפלטפורמה שנבחרה נפרדת ממערכות אחרות. התוכנה והנתונים נמצאים על תחנת עבודה בשם PLUTO (תחת מערכת הפעלה UNIX), שהוקצתה במיוחד לצורך משימה זו. התוכנה כוללת מערכת למשתמשים ומערכת נפרדת לניהול המערכת – ניהול המשתמשים, הנושאים והקבצים. תוכנת SAS עליה מבוססת מערכת "סיגמא" מאפשרת ביצוע כל השיטות הסטטיסטיות הנחוצות לזיהוי תבניות וקשרים.

2. SPSS- תוכנה לניתוח סטטיסטי. בין יישומיה עיקריים: איתור קשרים סטטיסטיים בין משתנים, סטטיסטיקה תיאורית. מערכת כזו פותחה במליוני דולרים עבור ליגת הכדורסל, ,NBAלצורך מציאת מתאמים שונים הגורמים לאחוזי ניצחון גבוהים יותר.

3. CLEMENTINE- תוכנת כריית נתונים ייעודית, הכוללת מספר רחב של מודלים לטיפול וניתוח מידע. כולל מנועים סטטיסטים מתקדמים. משווקת בישראל ע"י חברת ג'ניוס מערכות, לדברי חזי הבר, ממנהלי SPSS בישראל,Clementine מיישמת אלגוריתמים מתחום הבינה המלאכותית לתחקור מאגר הנתונים, ומזהה דפוסים מדויקים של התנהגות נורמלית וחריגה. בשיטה זו ניתן לזהות סימנים מוקדמים של פעילות הונאה, סימנים שלא ניתן לחשוד בהם בשיטות הרגילות. התוכנה נחשבת לאחת מהמובילות בעולם בין כלי כריית הנתונים ונמצאת בשימוש רב בחברות טלקום, בנקים, ביטוח, מסחר וגופים ציבוריים.

5.3. דוגמאות יישומיות:

1. ניתוח גנטי במכון וייצמן למדע – עם פיתוח טכנולוגית השבבים הגנטים, יכולים המדענים לבחון בעת ובעונה אחת את התבטאותם של אלפי גנים בדוגמאות רקמה שמקורן בעשרות נבדקים. כך מקבלים החוקרים נתונים המורכבים מכמיליון מספרים. לשם כך פותח במכון ויצמן אלגוריתם המאפשר למחשב למיין עצמים לקבוצות עפ"י מידת הדמיון והקשר בניהם, גם אם לא "למד" מראש על מאפייניהם. האלגוריתם שפותח "שולף" קבוצות קטנות יחסית של גנים שיש להם משהו במשותף, ומזהה באמצעותם רקמות שיש ביניהן דמיון ביולוגי. זיהוי הקשר או הדמיון בין הרקמות מאפשר לחלק אותן לקבוצות על פי הדמיון בין התהליכים הביולוגיים המתחוללים בהן. למשל: בקבוצה אחת יכללו רקמות שמתחוללים בהן תהליכים המובילים להתפתחות גידול סרטני, ובקבוצה אחרת, הרקמות שנלקחו מגופם של אנשים בריאים. כמו כן מסוגל האלגוריתם החדש לשמש לניתוח מידע הנאגר במערכות MRI בתחום חקר המוח: ניתוח מידע על השורשים הגנטיים של מחלות שונות , סיווג ואיתור מסמכים ופרטי מידע מוגדרים מתוך מאגרי מידע ממוחשבים גדולים מאוד, עיבוד נתונים ועוד.

2. כריית מידע בשוק הפיננסי - על מנת להראות עד כמה קל לבדות "תבניות" בסדרת נתונים, ג'ייסון זווייג (עיתונאי מפורסם במאמר שבורסם ב-1999) בחן נתונים של 10,500 מניות שנפרסו על תקופה בת 20 שנה. הוא "גילה" שמניות שאין בשמן אותיות החוזרות על עצמן ( למשל, Texaco מול Exxon ) נשאו תשואה גבוהה מהממוצע. הוא קרא לאסטרטגיה הזו "המודל הטיפשי מאוד". זווייג שיחק קצת עם הפרמטרים של המודל, עד שהגיע ל"מודל המטומטם ביותר"- על-פי אותו מודל יש להחזיק רק את אותן המניות ללא אותיות כפולות שנמצאות ברבע הנמוך מבחינת שווי שוק. האסטרטגיה הזו השיגה תשואה של 6% לשנה במהלך 20 שנות הבדיקה. דוגמא זו היא דווקא דוגמא שלילית לשימוש בכריית מידע. הבעיה המוצגת בדוגמא מוכרת בשם "הטיית הכורה". חשוב לזכור שבעת בחינת כל ההקשרים האפשריים בין הנתונים הנמדדים, יימצאו מספר קורלציות שיראו משמעותיות, אבל אם לא ניתן להסביר ולבסס את הקורלציות או את המודלים מבחינה הגיונית- האסטרטגיות חסרות תוקף ושגויות. אסטרטגיה תקינה חייבת להתבסס על תיאוריה סבירה או נימוק הגיוני.

כלים אישיים