ביטוי ומדידה של מידע

מתוך WikiBook

קפיצה אל: ניווט, חיפוש

הסיבית [תכולת מידע המבטאת את הבחירה בין שתי אפשרויות. מדד לתכולת המידע. סיבית היא כמות המידע החיובית הקטנה ביותר האפשרית. אוסף של מספר סיביות יוצר "בית" --ביטוי של אות אחת. ] היא כמות קטנה מאוד של מידע. בעצם, זאת הכמות הקטנה ביותר האפשרית לביטוי. איך נמדוד כמויות גדולות יחסית של מידע? שאלה נוספת: עם כל הכבוד לסיבית ולספרה הבינארית, אלה הם מדדים לנפח של מסרים, אך אינם הדרך השגורה בפינו לבניית הודעות. אנחנו, בני האדם, משתמשים בשפה כתובה או מדוברת, ולא בספרות בינאריות. האם נגזר עלינו לעסוק מעתה בדרך התקשרות לא נוחה המבוססת על לוגאריתמים של 2? התשובה, כמובן, היא שלילית. מערכות מידע ממוחשבות נועדו לסייע, לא להקשות. לכן, גם בהן מבוטא המידע בצורה "אנושית", תוך שימוש בסימנים, אותיות ומלים שנוח לנו, בני האדם, להשתמש בהם. הסיביות משמשות כיחידת המידע הקטנה ביותר, אך הן מצטרפות לאותיות ולמלים. כך, למשל, אפשר להשתמש בצרור של סיביות כדי לבטא אות אחת. ואפשר להשתמש בצרורות צרורות של סיביות (אוספים של אותיות) כדי לבטא מלים וכן הלאה.
כיצד מצטרפות הסיביות לביטוי אותיות? אות, בשפה האנושית, היא בסך הכל בחירה בין מספר אפשרויות (בחירה בין כל האותיות באלפאבית של השפה). אם ברצוננו לבחור בין 22 האותיות של השפה העברית, נצטרך לפחות לimage:eq6.gif כלומר 5 סיביות. צרור כזה, של חמש סיביות, יאפשר לבטא אות אחת. עלינו להסכים בינינו מראש על אופן הביטוי של הבחירה בין 22 האפשרויות על ידי חמש ספרות בינאריות. עם יצירת "הסכם" כזה, תהיה לנו "שפה" -- מין קוד המאפשר לבטא כל אות באמצעות תחליף בינארי לאות
"שפה" שכזאת, או קוד המסדיר את הביטוי של אותיות באמצעות סיביות [תכולת מידע המבטאת את הבחירה בין שתי אפשרויות. מדד לתכולת המידע. סיבית היא כמות המידע החיובית הקטנה ביותר האפשרית. אוסף של מספר סיביות יוצר "בית" --ביטוי של אות אחת], נקראת סכימת קידוד (Coding Scheme). יש לזכור שסכימת הקידוד איננה "שפה" של ממש. זאת רק הסכמה להגדרה שרירותית. אין לבלבל בינה לבין "שפת תכנות" או "שפת מכונה"[שפה המובנת ליחידת העיבוד המרכזית. שייכת לדור הראשון של שפות התכנות. שפת המכונה היא שפת סימנים המורכבת מספרות 0 ו-1 והצירופים האפשריים בין הספרות הללו: 01, 001, 101 וכך הלאה. שפה זו נקראת : השפה הדיגיטאלית (ספרתית)].


- שהן מושגים מורכבים הרבה יותר, ונרחיב עליהן את הדיבור בהמשך. ישנן כמה סכימות קידוד נפוצות, נזכיר ביניהן את ASCII (ראשי תיבות של American Standard Code for Information Interchange - קוד אמריקאי סטנדרטי להעברת מידע), את EBCDIC (ראשי תיבות של  Extended Binary Coded Decimal Interchange Code) ואת ה- Unicode, סכימת קידוד חדשה יחסית, ששמה רומז על מטרתה: קוד אחיד. כל סכמות הקידוד עושות, כל אחת בדרכה, את עבודת הקיבוץ של הסיביות לצרורות גדולים מספיק לביטוי אותיות וסימנים אחרים. כל צרור של סיביות, המבטאות ביחד אות, נקרא בית (Byte).



איור #6:
סכמות קידוד
דוגמאות לביטוי האותיות, התווים והספרות
EBCDIC, ASCII, UNICODE

סכימת קידוד המאפשרת קיבוץ של סיביות לבתים איננה מיועדת להיות שפת סתרים. סכימת קידוד היא אופן הביטוי של אותיות באמצעות מספר נתון של סיביות. הזכרנו כבר את הקלות היחסית לבטוי סיביות במחשבים חשמליים. סכימת הקידוד היא פשוט הצורה בה נמיר את ההצגה של תווים בין אופן ביטוי נוח לאנשים, לאופן ביטוי נוח למכונות. איור # מציג את איך מצרפת כל אחת מסכימות הקידוד את הסיביות לבתים (Bytes). קיימות כאמור סכמות קידוד שונות . המשותף לכולן הוא שימוש במספר סיביות לביטוי אותיות. בדרך כלל משתמשים בשמונה סיביות או יותר, כך שאפשר לבטא בכל תו את הבחירה בין מאות אותיות וסימנים. מספר הסיביות שיכיל כל בית מוגדר בצורה שרירותית. אם בית מכיל 8 סיביות, הוא יכול לבטא אחת מתוך 2 בחזקת 8 = 652 תווים. במערכות פרימיטיביות יותר ובעבר, השתמשו בבתים שהיו בני 5 או 6 סיביות. בתים כאלה אפשרו ביטוי של אלפאבתים מוגבלים יחסית, שבהם רק 32 או 64 תווים. הקורא, מוזמן לחשב כמה סיביות צריכות להיות בבית, כדי שנוכל לבטא באמצעות בית אחד, את כל האותיות של האלפאבית העברי, האנגלי ,(כולל אותיות גדולות וקטנות - lowercase & uppercase), כל הספרות, וכל סימני הפיסוק והחשבון.

יצרני מערכות מחשב שונות בוחרים בסכימת קידוד מסוימת כשיטה שתנהג במערכות אותן הם מייצרים. למשל, חברת IBM עשתה שימוש בסכימת הקידוד הקרויה EBCDIC במחשבים הגדולים שהיא מייצרת. לעומת זאת, ברוב המחשבים האישיים, גם באלה המיוצרים על ידי חברת IBM, נהוגה בדרך כלל סכימת הקידוד ASCII. יש מקום לשאול מדוע אין תקן (סטנדרט) קידוד אחיד לכל המחשבים. כפי שנראה בהמשך, ישנן הזדמנויות רבות בהן ההתפתחויות הטכנולוגיות והתחרות בשוק יצרו מצבים של חוסר התאמה. יצירת תקנים המקלים על הפעילות היא תהליך ארוך ומסובך. תקנים כאלה הולכים ונוצרים במשך הזמן. סכימת הקידוד Unicode היא דוגמה לניסיון חקיקה של תקן בינלאומי שכזה. אך קהילות היצרנים של מחשב וצרכניהם מגיעים להסכמה על תקנים אחידים ומשותפים בדרך כלל רק לאחר תקופת זמן ודיונים מייגעים. מנקודת ראותו של המנהל/ת יש צורך במודעות לקיום הבעיה של חוסר אחידות בסכמות קידוד. כאשר נתונים או מידע מבוטאים או אגורים במערכות מידע שונות, עלולה להתעורר הבעיה של המרתם מצורת ייצוג אחת לאחרת. מסקנה נוספת היא חשיבותה של האחידות, והתועלת שיכולה לנבוע מהשקעת מאמץ בהנהגת תקנים. כמובן שאחידות ותקנים הם באחריות של המנהל/ת.

הבתים (Bytes) מצטרפים זה לזה, כמו שהאותיות בעמוד מודפס זה מצטרפות למלים, משפטים ופסקאות. כמויות גדולות של מידע נמדדות במספר הבתים הנחוצים לייצוגם: פשוט סופרים מאות, אלפים, רבבות ומיליונים של בתים. ישנם כמה מדדים מקובלים לכמויות גדולות של מידע: אלה מייצגים, בהתאמה, בערך אלף, מיליון, אלף מיליונים (מיליארד), ומיליון מיליונים. מעיון באיור #, נראה כי המדדים המקובלים למספרים גדולים של בתים הם בעצם חזקות של 2, והם רק קירובים לחזקות של עשר. כך, למשל, "קילובייט" (KiloByte) הוא בעצם 2 בחזקת 10, או 1024 (רק מעט יותר מאלף בתים).

איור #7
מדדי מידע
שם קיצור כמות
10 KB KiloByte
2 1024
MegaByte, GigaByte, TerraByte

ניתן להמיר מידות מקובלות אלה לכמויות מוכרות לנו. למשל, עמוד מודפס במכונת כתיבה בריווח כפול מכיל 25-30 שורות, ובערך 2000 תווים. מכאן שקילובייט (KiloByte) שקול בערך לחצי עמוד מודפס. מגהבייט (MegaByte) מייצג כמות מידע השווה באומד לתוכנו של ספר ממוצע, כ 500 עמודים. גיגהבייט [אלף מליון תווים (בתים). אלף מגהבייט. נפח האחסון של טקסט בן כמה מאות ספרים. נפח האחסון הנדרש להקלטת צליל של כשעתיים. גיגהבייט מספיק להקלטה של מספר דקות ווידאו וצליל]( GigaByte, אלף מליון בתים) זו כמות מידע המקבילה בערך לכל הרשום בכל הספרים שבספריה קטנה. טרהבייט (TerraByte) זו כמות מידע גדולה מאד, שקולה לתוכנם של מליון ספרים. דוגמא אחרת: רשימת כל שמות העובדים, כתובותיהם, ומספרי תעודות הזהות שלהם, בארגון המעסיק אלף עובדים, יתפוס בערך מאה קילובייט- מדד לנפח או תכולה של נתונים. בערך אלף תווים או (בעצם, 2 בחזקת 10, או 1024 בתים)(bytes)בתים. עמוד מודפס אחד של טקסט דורש שניים או שלושה קילובייט, או פחות מעשירית של מגהבייט (MegaByte 0.1). רשימה דומה של נתונים על כל אוכלוסיית העולם תצרוך, בקירוב, גיגהבייט אחד. אם קצב הקריאה של אדם ממוצע מגיע לידי עמוד בדקה, הרי ,שקריאת חומר כתוב בנפח של טרהבייט יכולה לארוך 50 מיליון דקות או (בערך) משך החיים של עשרה אנשים שונים, שיצטרכו לקרוא עשרים וארבע שעות ברציפות, מן העריסה ועד הקבר. מכאן שרשימת המדדים המופיעים באיור # מכסה טווח רחב מאוד של נפחי מידע אפשריים: מן הקטן ביותר לכמעט בלתי נתפס בגודלו. נדגיש גם כי ההמרה של הכמות המיוצגת על ידי קילובייט או מגהבייט לסיביות תלויה בסכימת הקידוד: השאלה היא כמה סיביות נדרשות לייצוג תו (או בית, Byte )בכל סכימת קידוד.

מסגרת #4:
במסגרת הדגמת הדיון כאן, נביא פה טבלה המציגה נפחי נתונים גדולים כמו מרשם האוכלוסין,ספר הבוחרים, וכיו"ב.


פרקי ספר הלימוד