כימות מידע

מתוך WikiBook

קפיצה אל: ניווט, חיפוש

כימות מידע
משלושת ההגדרות לעיל למדנו שהמידע חשוב מבחינה כלכלית, שניתן לעיתים לכמת אותו ושיש טעם להבחין בהבדלים שבין מידע ונתונים. בסעיף האחרון גם הכרנו את יחידת המידה למידע הקרויה סיבית (Bit). הסיבית היא כמות המידע הקטנה ביותר המאפשרת בחירה בין שתי חלופות.
איך נדע כמה סיביות נחוצות לייצוג מידע נתון? כאמור, החישוב נעשה על בסיס מספר האפשרויות ביניהן בוחר המידע. למשל, המידע הגלום בתוצאות הטלת מטבע אחד מייצג את הבחירה בין שתי אפשרויות, לכן כמות המידע שווה לסיבית אחת. כמה מידע גלום בתוצאות ההטלה של שני מטבעות? הבה נעיין באיור:

איור #3: הטלה של שני מטבעות יכולה להסתיים באחת מארבע תוצאות:


image:twocoin.gif

מאחר שבהטלה של שני מטבעות יתכנו ארבע תוצאות שונות, הרי שהמידע הגלום הוא כזה הבורר בין ארבע אפשרויות שונות. כאן צריך להיזהר ולא לטעות: מספר הסיביות המייצג את המידע איננו ארבע, אלא שתיים. עובדה: אפשר להעביר את המידע על ידי תיאור ראשו של כל אחד משני המטבעות לאחר ההטלה. כלומר, אפשר להעביר שני מסרים שכל אחד מהם מבחין בין שני מצבים, ובכך להעביר את הבחירה בין ארבע אפשרויות. בדוגמה זאת, כל מטבע מייצג סיבית אחת. מצבו של כל מטבע ("טור או יאס", "עץ או פאלי", "מספר או ציור") הוא ערכה של הסיבית. שתי סיביות מספיקות להבחנה בין ארבעה מצבים.
נניח שברצוננו לבנות רמזור שיעדכן אותנו לגבי נתיב נסיעה שבו יש לבחור. נניח שיש 16 נתיבים אפשריים. ונניח שהרמזור עושה שימוש בנורות. כל נורה יכולה להיות רק באחד משני מצבים הבאים: דולקת או כבויה. כמה נורות נחוצות כדי לבטא את הבחירה בין 16 אפשרויות? ראינו כבר (בדוגמת המטבעות) ששתי נורות (סיביות) מספיקות להבחנה בין ארבע אפשרויות. קל לראות שתוספת של נורה אחת (סה"כ שלוש נורות) תכפיל בשניים את מספר האפשרויות ביניהן נוכל להבחין. לכן, ארבע נורות בלבד תספקנה להבחנה בין 16 אפשרויות, שכן שתי נורות מבחינות בין ארבעה מצבים. תוספת נורה מכפילה את מספר המצבים שניתן להבחין ביניהם, ומביאה אותם לשמונה. (תוספת נורה רביעית גם היא מכפילה בשניים ומביאה לששה עשר את מספר המצבים ביניהם אפשר להבחין). כמובן שנוכל להשתמש במספר גדול יותר של נורות (למשל נורה אחת לכל נתיב - סה"כ 16 נורות). הנקודה החשובה להבנה כאן היא שארבע נורות תספקנה (יספיקו ארבעה מסרים, כל אחד בגודל של סיבית). עוד חשוב להבין שאפילו באופן תיאורטי אין כל אפשרות להעביר את המידע הבוחר בין 16 אפשרויות בפחות מאשר ארבעה מסרים מינימאליים.

המסר המינימאלי, המיוצג על ידי סיבית אחת, נקרא גם מסר בינארי (Binary Message). בינארי - משמעו שכל מסר יכול לקבל רק אחד משני ערכים. הנורות בדוגמה שבפסקה האחרונה הן התקנים בינאריים: כל אחת מן הנורות יכולה להיות רק באחד משני מצבים: דולקת או כבויה. מקורו של השם Bit הוא בקיצור המונחBinary Digit - ספרה בינארית. כפי שנראה בהמשך, המחשב הספרתי החשמלי עושה שימוש רב בתכונות הספרה הבינארית. חשוב להבין כי ניתן לבטא סיבית (מסר בינארי) באמצעים שונים. בעצם, כל שיטה המבחינה בבירור בין שתי אפשרויות, יכולה לשמש לביטוי של סיביות. מעיון באיור #3 ניתן לראות כי מטבעות, נורות, גדלים או ספרות, יכולים כולם לשמש לביטוי ערכה של סיבית. ביטוי הסיבית באמצעות הספרות "0" ו "1" נפוץ מאד. מסיבות טכניות, קל יחסית לבטא ערכים בינאריים במכשירים חשמליים: קיומו של זרם או מתח חשמלי מייצג "1", והעדרו של הזרם או המתח ייצג "0".

איור #4: בטוי סיביות בשיטות שונות "מטבע, נורה, דגל, מתג חשמלי, סמיילי,טרנזיסטור, וכו'".

האם ישנה דרך כללית להסיק כמה מידע מעורב בהסרת אי-וודאות בגודל נתון? אם אנו יודעים כמה אפשרויות יש, האם נוכל לחשב את מספר הסיביות המינימאלי הדרוש לבטא את הבחירה בין האפשרויות? הקוראים מוזמנים לנסות לענות על שאלה זאת במחשבה עצמית (לפני קריאת הפתרון בהמשך). כפי שכבר ראינו, היחס בין מספר האפשרויות (או גודל אי-הוודאות) לבין כמות המידע הנמדדת בסיביות, הוא יחס ישר. כל סיבית נוספת מאפשרת להבחין במספר כפול של אפשרויות. כל הכפלה במספר האפשרויות מוסיפה סיבית אחת לכמות המידע הנמדדת ב-Bits. מכאן, שעלינו לשאול כמה פעמים צריך להכפיל שתיים בשתיים כדי לקבל את מספר האפשרויות. התשובה לשאלה זאת תהיה מספר הסיביות המיוצגות על ידי המידע האמור. באופן מתמטי, אפשר לשאול שאלה זאת באופן מקוצר: מהו הלוגאריתם על בסיס שתיים של מספר האפשרויות?

איור #5:
אם N הוא מספר האפשרויות, ו I הוא מספר הסיביות הרי
image:eq1.gif

מספר הסיביות (I) הנחוצות לייצוג מידע מסוים הוא המספר בו צריכים להעלות בחזקה את הבסיס 2 כדי לקבל את מספר האפשרויות (N).

נבדוק את שתי הדוגמאות שפתרנו קודם: במקרה של הטלת שני מטבעות מספר האפשרויות (מספר התוצאות השונות האפשריות) הוא ארבע. כדי לקבל ארבע, צריך להעלות את המספר שתיים בחזקת שתיים. מכאן שגודלו של I הוא 2 (שתי סיביות). ובמקרה הרמזור, הרי שיש להעלות את המספר שתיים בחזקת ארבע כדי לקבל 16, כי 2X2X2X2 =16. מכאן שנחוצות ארבע נורות כדי לסמן את הבחירה בדרך אחת מתוך 16 אפשריות.

לסיכום, מצאנו דרך קלה ונוחה לחישוב מספר סיביות הנחוצות לייצוג כמות מידע, המסיר אי וודאות בגודל ידוע. הלוגאריתם על בסיס 2 של מספר האפשרויות מניב את המספר המינימאלי של ספרות בינאריות הנחוץ לייצוג הבחירה בין מספר אפשרויות.
צריך להוסיף שלוש הסתייגויות לדרך החישוב הנ"ל:
א) בחישובינו כלולה הנחה סמויה, שאין לנו ידע מוקדם על הסתברות או סבירות שונה של אחת האפשרויות. כאשר קיים ידע מוקדם כזה, כמות המידע הגלומה בהפחתת אי הוודאות הוא, כמובן, קטן יותר. נניח, למשל, שברצוננו לבטא, בסיביות, את הבחירה בין סוגי מכוניות. נניח שיש 64 סוגים שונים של מכוניות. על פי הנוסחה שלמדנו לעיל נצטרך לimage:eq2.gif סיביות. אבל אם יש כמה מכוניות מסוג מאד נדיר, וידוע לנו מראש שהסיכוי שנבחר במכונית הנדירה הוא קטן יותר, מספר הסיביות הנדרש מצטמצם. קיימת גם נוסחה כללית יותר, המביאה בחשבון את ההסתברויות המוקדמות. לצורך הדיון כאן נסתפק בנוסחה הפשוטה.
ב) עד עתה, טענו כי הסיבית היא יחידת המידע הקטנה ביותר. מה יקרה אם החישוב של image:eq3.gif יניב מספר לא שלם? מה משמעות השבר או חלק לא שלם של סיבית? אם סיבית היא היחידה הקטנה ביותר האפשרית של מידע, מה המשמעות של "חלק של סיבית"? למשל, כמה סיביות מעורבות בהבחנה בין 10 אפשרויות שונות? בחישוב התשובה נקבל כי image:eq4.gif. מהי המשמעות של 0.321 סיביות? מאחר שהגדרנו את הסיבית כמדד למספר מסרים, ומאחר שחלק (לא שלם) של מסר הוא מושג לא מוגדר, נסכים כי מספר הסיביות I יעוגל תמיד כלפי מעלה. כדי לבטא את הבחירה בין 10 אפשרויות, נשתמש בערך השלם הקרוב ביותר לתשובה, אך גדול ממנה. כלומר, כדי לבטא את הבחירה באחת מתוך עשר אפשרויות, נצטרך לפחות לארבע סיביות (למרות שהחישוב מראה כי מספיקות רק פחות משלוש ושליש).
ג) בחישובינו עד כה, הנחנו כי המידע מכיל תמיד פתרון מלא לאי הוודאות. האם אפשר לחשב את ה"כמות" של מידע חלקי? כן! גם מידע חלקי, למרות שאיננו מסיר את כל אי הוודאות, מסיר חלק ממנה. מידע חלקי יכול להוות הקטנה של אי הוודאות על ידי פסילה מראש של חלק מן האפשרויות. מידע חלקי יכול להיות גם מידע על הסתברויות שונות של כל אחת מן האפשרויות. אם אפשר לכמת את כמות אי הוודאות שמידע חלקי מסיר, אפשר לבטא גם מידע זה באמצעות מדד הסיבית. למשל, נניח שעלינו לבחור בין שלושים ושניים מועמדים למשרה מסוימת. נפח המידע המאפשר לנו לבטל את אי הוודאות הוא 5 סיביות (כי image:eq5.gif ). אם נקבל תוצאות מבחני כישורים של המועמדים על פיהם 28 מן המועמדים אינם מתאימים כלל, הרי נקטין באופן משמעותי את אי הוודאות. עתה עלינו לבחור רק בין ארבעה מועמדים. ההפרש בין המידע הדרוש תחילה, למידע הדרוש עתה הוא 3=5-2 . כמות המידע (החלקי) הגלום בתוצאות מבחני הכישורים הוא שלוש סיביות.


פרקי ספר הלימוד

כלים אישיים