העברת מידע
מתוך WikiBook
כבר בפרק הגדרת מידע נוכחנו כי הביטוי המוחשי למידע הוא במסרים. מעניין שפיתוחה של התורה המתמטית למדידת מידע ("תורת האינפורמציה") התרחש במסגרת מחקרים דווקא בתחום הנדסת תקשורת. המאמר המפורסם ביותר בנושא זה בכל הזמנים, במסגרתו נטבע המושג "סיבית" (Bit) [תכולת מידע המבטאת את הבחירה בין שתי אפשרויות. מדד לתכולת המידע. סיבית היא כמות המידע החיובית הקטנה ביותר האפשרית. אוסף של מספר סיביות יוצר "בית" --ביטוי של אות אחת.], יצא לאור לראשונה בכתב עת של חברת הטלפון האמריקאית (ראה את חיבורם של Shannon and Weaver ברשימת המקורות). רקע היסטורי זה מדגיש את המרכזיות של תהליך העברת המידע מגורם אחד לשני (תהליך התקשורת) להבנת המידע. מקובל לראות את תהליך התקשורת באמצעות המודל המוצג באיור #8.
איור #8:
המידע, שביטויו המוחשי הוא במסרים, מצוי תמיד בתוך תהליך התקשורת המתואר למעלה. מסרים נוצרים או באים ממקור מסוים. בדרכם אל היעד הם עוברים קידוד, כך שאפשר יהיה להעבירם בערוץ (למשל כתיבה, המרה לאותות חשמליים, או ביטוי בקול). המסר המקודד עובר דרך ערוץ (למשל, טלפון, גלי רדיו, נייר מודפס). בזמן המעבר בערוץ, המסר עלול להיפגע מרעשים אקראיים או עיוותים מכוונים. לבסוף, עובר המסר דה-קידוד לפני שהוא מגיע ליעדו. לדוגמא, המידע על העדפות הצרכנים לסוג מסוים של מוצר, הופך למידע בפועל רק כשההעדפות מקבלות ביטוי כמסר. העובדה שצרכנים מעדיפים מכוניות אדומות על מכוניות בצבע ירוק הופכת למידע (שיש לו תרומה כלכלית, והמסיר אי-וודאות) רק כאשר העדפה זאת מקבלת ביטוי. הביטוי יכול להיות בצורה של תשובת צרכנים לראיונות או שאלונים. הוא יכול להיות במכתב מסוכן מכירות אל המנהלות שלו, או במברק מאגף השיווק לאגף הייצור, הדורש שנוי במספרי המכוניות האדומות שייוצרו ברבעון הבא. בכל אחד ממקרים אלה, העובדה מקבלת ייצוג כמסר, העובר בערוץ תקשורת. מאיור זה, ומן הרכיבים של תהליך התקשורת, אפשר ללמוד דברים רבים. נחזור לעיון מעמיק בתהליך התקשורת ומעבר מסרים ביחידה (#) הדנה בתקשוב וקישוריות. לענייננו עתה חשוב רק להבין שתי מסקנות הנובעות מן המודל שבאיור #8:
א) בעוד הכמות התיאורטית של המידע מתייחסת לכמות אי-הוודאות המוסרת על ידו, גודלו הפיזי של המסר המכיל את המידע מוכתב לא פחות על ידי תכונות הערוץ והקידוד. הביטוי הפיזי של המידע (המסר) מכיל בדרך כלל הרבה יותר נתונים מן הכמות התיאורטית של המידע. למשל, המידע לגבי שער החליפין של השקל מסיר כמות מסוימת של אי וודאות. אנשים וארגונים צריכים מידע זה. נניח ששער החליפין הוא 3 שקל לדולר ארה"ב. אפשר לבטא את המידע באמצעות הספרה 3, או באמצעות המילה "שלוש". מסר אחד ידרוש בית (Byte) אחד או אפילו שתי סיביות בלבד, ואילו השני יתפוס לפחות ארבעה בתים. הנפח הפיזי של ההודעה השנייה גדול פי ארבעה מן הנפח הפיזי של ההודעה הראשונה. ההבדל איננו בכמות המידע, אלא בנפחו. מאידך, כמות אי הוודאות המוסרת על ידי כל אחד מן המסרים היא זהה. אין ספק שהעובדה כי נפחו של מידע גדול בדרך כלל מכמותו התיאורטית, גורמת לחוסר יעילות והאטה בתהליך העברת המידע ועיבודו.
ב) תוספת לנפח מידע מבלי לשנות את כמות אי הוודאות שהוא מסיר, איננה בהכרח סרבול מיותר. יש תפקיד חשוב לכפילויות בהעברה של המסר. השימוש בבתים (Bytes-מדד לנפח זיכרון המחשב הדרוש לאחסון אות אחת. יחידת הזיכרון הקטנה ביותר במחשב. רצף של 8 ביטים (Bit) מייצג בייט. זהו אוסף של סיביות במספר המספיק לזיהוי אות (או תו אחר) אחת. במחשבים אישיים מקובל להשתמש בבתים בני 8 סיביות.
) נוספים בעת העברת נתונים שניתן לבטאם בקיצור רב יותר, הוא חלק מניסיון בלתי פוסק להתגבר על רעשים ועיוותים הקיימים בכל ערוץ תקשורת. מאחר שמידע קיים כמעט אך ורק כמסרים המועברים בערוצים, וכיוון שערוצים מכילים, כמעט תמיד, עיוותים מכוונים ורעשים לא צפויים, נצטרך, כמעט תמיד, לכלול במידע תוספות שהן כפילות. תוספות כאלה, כפילויות במידע המיועדות להבטיח את העברתו המדויקת, נקראות יתירות (Redundancy).
אם ברצוננו להעביר רשימת מחירים, נוכל לבחור בין העברת המחירים בביטוי ספרתי: (למשל 3,7,5,9 ), או במלים (תשע, חמש, שבע שלוש). היתירות בשיטה השנייה גדולה, כמובן, הרבה יותר. העלות של העברת המסר בעל יתירות גבוהה יותר, תהיה גדולה יותר. אבל אם נניח בערוץ בו אנו משתמשים יש רעש הגורם לאבדן, למשל של כל בית (Byte-מדד לנפח זיכרון המחשב הדרוש לאחסון אות אחת. יחידת הזיכרון הקטנה ביותר במחשב. רצף של 8 ביטים (Bit) מייצג בייט. זהו אוסף של סיביות במספר המספיק לזיהוי אות (או תו אחר) אחת. במחשבים אישיים מקובל להשתמש בבתים בני 8 סיביות.
) שלישי, נראה שליתירות יש גם יתרונות. בשיטה הראשונה להעברת רשימת המחירים, בה יש פחות יתירות, נאבד לפחות רבע מן המידע. לפחות אחד מארבעת ה"מחירים" לא יגיע כלל ליעד, או -- גרוע מכך -- יגיע מחיר שגוי. מאידך, אפילו אם נמחק כל אות שלישית מן המסר המילולי, עדיין אפשר יהיה לקרוא אותו. הקורא ,מוזמן לעשות ניסוי: אפשר לבקש מאדם אחר לקרוא את הרשימה (ת_ע, ח_ש, ש_ע, של_ש). אפשר לראות שבמחיר היתירות, קבלנו בהירות ואבטחה של העברת המידע.
יתירות מוגדרת כמותית כאחוז הלא מנוצל מתכולת המידע. כדי למדוד את כמות היתירות, נצטרך למדוד את התכולה המיטבית (אופטימאלית) של מסר, ולהשוות אותה לכמות המידע שהועברה בפועל. אם המסר יכול, תיאורטית, להסיר יותר אי וודאות (לבחור בין יותר אפשרויות), הרי שהמסר מכיל יתירות. מתמטית, היתירות מסומנת ב - R. תכולת המידע הנחוצה מסומנת ב In, ואילו תכולת המידע המרבית מסומנת ב Im.
חישוב היתירות נעשה כך:
כלומר, היתירות היא ההפרש בין אחד (השלם) לבין היחס בין התכולה הנחוצה למרבית. כדי להדגים, נחזור לשאלת הנורות ושש עשרה הדרכים ביניהן היה צורך לבחור. אם נשתמש, למשל, בשמונה נורות (במקום במינימום הדרוש של ארבע), היתירות במסר תחושב כך: נחוצות, בעצם, רק ארבע סיביות. זאת מאחר שמספר האפשרויות הן 16, ולכן
8 התכולה המרבית של קוד המכיל 8 סיביות הוא 2 בחזקת 8, כלומר 256. לא יהיה מפתיע לראות כי
היתירות, במקרה של שימוש בשמונה נורות במקום בו נחוצות רק 4, היא של 50%.
.
באופן טבעי, היתירות בשפת אנוש גבוהה מאד. אפשר להבחין בהבדלים בין שפות ברמת היתירות. השפה האנגלית, למשל, היא שפה עתירת-יתירות. עברית, לעומתה, יחסית תמציתית (כלומר היתירות בה נמוכה). הסופר עמוס עוז התלונן פעם שבתרגומי ספריו לאנגלית הולך לאיבוד היופי המקורי, מאחר שבתהליך התרגום מתרחבים המשפטים לכדי פסקאות. כדוגמא, הוא קבל על תרגום סיפורו "ארצות התן", הפותח במשפט הדרמטי אך קצר "תחילה רגשו הכפרים". שום תרגום לאנגלית אינו מצליח להביע אותו מסר בפחות מכפליים האותיות, ההברות, או המלים.
למושג היתירות שימושים רבים בתחום מחשוב מערכות המידע. בכולם העניין הוא בשיקולים כלכליים של נפח מידע (באגירת המידע, או בהעברתו), העומדים כנגד שיקולים של "איכות" ו"דיוק". השימוש הנפוץ ביותר ליתירות במסגרת מערכות מידע הוא ביצירת "סיבית הזיווג" (Parity bit). אפשר להוסיף לכל מסר יתירות מתוכננת, בצורת סיביות המשמשות ביקורת לדיוקו של המסר.
איור #9: שימוש בסיבית זיווג
שיטה נפוצה לעשות כן, מוסיפה סיבית אחת לכל בית (Byte) בן שמונה סיביות. שיטה זאת מתוארת באיור #10. הסיביות המקוריות מיוצגות בצורה של "0" או "1". הסיבית הנוספת, מקבלת ערך של "0" אם סכומן של הסיביות המקוריות הוא זוגי. מאידך, אם סכומן של הסיביות המקוריות אי-זוגי, תהיה סיבית הביקורת "1". כך יכול מי שמקבל מסר, לבדוק כל "תשיעייה" של סיביות. אם סכום ערכי הסיביות של התשיעייה (המייצגת, כזכור, בית) הוא זוגי, אפשר להניח במידה רבה יותר של בטחון כי לא חל שיבוש בהעברת הבית הזה בערוץ, או בזמן הקידוד או הדה-קידוד. במחיר יתירות של 11% "רוכשים ביטוח" כנגד חלק מן העיוותים והרעשים שיכולים לפגוע במסר. ישאל הקורא את עצמו: האם יתירות בסדר גודל של 11% מבטיחה לאתר כל עיוות אפשרי?
איור #10: שיטות זיווג Even and Odd Row and Block
