[עושים היסטוריה] 127: שימור מידע דיגיטלי

בשנת 1986 יזמה רשות השידור הבריטית, ה-BBC, פרוייקט שאפתני במיוחד: תיעוד גורף, בעזרת מאות אלפי מאמרים ותמונות, של החיים בבריטניה המודרנית. הפרוייקט הושלם בהצלחה- אך 15 מאוחר יותר עמד בפני מוות משונה ואכזרי במיוחד: הוא נשמר על דיסקים שאיש לא יכל עוד לקרוא…האם נוכל להציל את פרוייקט דומסדיי, ואת אינספור פיסות המידע שאנחנו מייצרים מדי שניה, מתהומות הנשייה?

תודה לדינה בר-מנחם על העריכה הלשונית, ולנועם קופרשטיין המוכשר על האיור המבריק לפרק.


להציל את פרוייקט דומסדיי- על שימור מידע דיגיטלי

כתב: רן לוי

IDC היא חברת מחקר אמריקנית שמתמחה בתחום התקשורת וטכנולוגית מידע. בכל שנה עורכת IDC סקר מקיף ובו היא מנסה להעריך כמה מידע – ספרים, תמונות, קבצי קול, סרטים וכו'- הפיקו כל בני האדם יחד, עד כה. קשה לדעת עד כמה אמינים הנתונים המתקבלים ממחקר כה שאפתני, ו-IDC כבר ספגה ביקורת בעבר על מחקרים לא מדויקים – אבל לכל הפחות, מחקריה של IDC מספקים לנו הערכה גסה לגבי נפח המידע שמייצרת האנושות כל שנה.

למשל, בשנת 2005 העריכה IDC כי נפח סך כל המידע האנושי הוא 130 אקסה-בייט. 'בייט' (Byte) היא יחידת מידע דיגיטלית בסיסית, שוות ערך לאות בודדת. 'אקסה-בייט' הם עשר בחזקת שמונה עשר בתים. כמה גדול הוא אקסה-בייט? אם נניח, לשם הדוגמא, שנפחו של פרק ממוצע של עושים היסטוריה הוא חמישים מגה בייט – אזי אקסה בייט אחד הוא עשרים ושלושה מיליון שנה של האזנה רצופה לתכנית…

ב-2012, שבע שנים מאוחר יותר, היה נפח המידע שברשות האנושות 2800 אקסה-בייט, או במילים אחרות – פי עשרים מנפח המידע ב-2005. המשמעות היא שסך כל נפח המידע האנושי יותר מאשר מכפיל את עצמו בכל שנה. בעידן המצלמות הדיגיטליות, עיבוד התמלילים הממוחשב ובלוג לכל גולש, קל יותר מאי פעם ליצור מידע חדש. ב-2020, מעריכים ב-IDC, נפח המידע יגיע ל-40 זטה-בייט, או 40 אלף אקס-בייט.

הארכיאולוגים של ימינו נאלצים לעבוד קשה בחפירות, שחזורים ואיחוי שברים של כדי חימר כדי לנסות וליצור תמונה אמינה של איך נראו החיים בימי קדם: כמות המידע שזמינה עבורם היא זעומה. על פניו, שפע המידע שאנחנו מייצרים היום אמור להוות ברכה לארכיאולוגים ולהיסטוריונים של העתיד: לא צריכה להיות להם שום בעיה להבין מי היינו ומה חשבנו. אחרי הכל, אנחנו מתעדים את חיינו באינספור דרכים – מסרטים ועד בלוגים.

אבל שום דבר אינו פשוט כמו שהוא נראה. כפי שמייד ניווכח, שפע המידע הדיגיטלי שאנחנו מייצרים מביא עימו בעיות חדשות ומסובכות שיציבו בפני הארכיאולוגים אתגרים חדשים ואולי אף ישנו כליל את פניו של מקצוע הארכיאולוגיה.

ספר דומסדיי

בשנת 1066 ניצח הדוכס וויליאם מנורמנדי את המלך הרולד השני, והוכתר למלכה של אנגליה. להיות מלך, גילה וויליאם, זה לא עניין זול: צריך לשלם לחיילים, לבנות מבצרים ועוד הוצאות מעיקות שכאלה. מקור ההכנסה העיקרי של הממלכה היה, אז כמו היום, המיסים ששילמו האזרחים – אך בבלגן המלחמות והסכסוכים כבר לא היו אנשי האוצר בטוחים מי צריך לשלם כמה.

מכיוון ש'קו הצדק' עדיין לא היה זמין באותה העת, החליט וויליאם ב-1086 לצאת למבצע אדיר וחסר תקדים: באופן מפתיע, זה לא היה מבצע צבאי, אלא מבצע סטטיסטי. הוא שלח את נציגיו לתור את כל אנגליה לאורכה ולרוחבה, ולתעד באופן מדויק ככל האפשר מי בעליה של כל חלקת אדמה, כמה כסף יש לכל אזרח ובמה הוא עוסק למחייתו. כל הנתונים אוגדו לשני כרכים, אשר יחד זכו לכינוי "ספר דומסדיי" (Domesday), שם שלקוח מה- Doomsday הנוצרי (נשמע זהה, אך באיות אחר), הוא 'יום הדין'. ביום הדין, על פי המסורת, יישפט כל אדם על מעשיו הטובים והרעים, משפט שלא ניתן לערער עליו. באותו האופן, המידע שמופע אודותיך בספר דומסדיי קובע כמה כסף אתה חייב למלך, וגם עליו לא ניתן לערער.

ספר דומסדיי שרד עד ימינו. אם יש לכם קשרים בארכיון הלאומי הבריטי וידע מוצק בלטינית מדוברת, אתם יכולים לדפדף בו ולקרוא את תוכנו. עבור ההיסטוריונים, ספר דומסדיי הוא מתנה משמיים: אין מסמך היסטורי שמתאר באופן שלם ושיטתי כל כך רגע בחייה של מדינה שלמה.

פרוייקט דומסדיי

בשנת 1986 החליט שירות השידור הבריטי, ה-BBC, לציין 900 שנים לספר המיוחד הזה, ולצאת במבצע שאפתני משלו. "פרוייקט דומסדיי" של ה-BBC היה המקבילה המודרנית של ספר דומסדיי העתיק: ניסיון ללכוד באופן מקיף רגע בחייה של האומה הבריטית. מיליון איש, ברובם ילדי בית ספר מכל רחבי בריטניה, כתבו על חיי היומיום שלהם, על העיר בה הם חיים והקהילה לה הם שייכים. ב-BBC אספו כמאה וחמישים אלף דפי טקסט, עשרים אלף תמונות ומאות מפות, נתונים סטטיסטיים וסרטונים. את כל המידע הזה התכוונו ב-BBC לשמור באופן דיגיטלי על גבי מחשבים אישיים זולים יחסית, להנאתם והשכלתם של ילדי בית הספר.

אחרי סקירה מקיפה של האפשרויות הקיימות, בחרו ראשי הפרוייקט בטכנולוגיית אחסון חדשנית ומבטיחה בשם 'לייזר דיסק'. הם דחסו את המאמרים, המפות והסרטונים לתוך שני דיסקים: הראשון כונה 'דיסק הקהילה' והכיל בעיקר את המאמרים והתמונות שתרמו האזרחים מרחבי בריטניה, והשני היה 'הדיסק הלאומי' שהכיל מידע מקצועי ו'ממוסד' יותר כגון תמונות מקצועיות, גרפים וטבלאות סטטיסטיות, סרטונים ועוד. אחת ממטרות הפרוייקט הייתה לאפשר למשתמשים גישה נוחה וקלה למידע שעל הדיסקים, ולצורך העניין פותחה תוכנה מיוחדת שבאמצעותה ניתן היה לאתר מאמר או תמונה מסוימת לפי מילות חיפוש, תפריט, מיקום על מפה ועוד. מכיוון שהמחשבים האישיים היו אז רק בחיתוליהם, ב-BBC פיתחו נגן לייזר דיסק ייעודי שהיה מסוגל לקרוא את שני הדיסקים ולהציג את תוכנם על גבי מסך טלוויזיה רגיל.

הפרוייקט השאפתני הסתיים בזמן ועמד במסגרת התקציב שהקוצתה לו, אך לרוע המזל לא זכה לפופולאריות רבה. הערכה שהכילה את נגן הלייזר ושני הדיסקים נמכרה בכ-5000 פאונד, סכום גבוה שמעט מאד בתי ספר וארגונים ציבוריים היו יכולים להרשות אותו לעצמם. כתוצאה מכך, עותקים ספורים בלבד של פרויקט דומסדיי הופצו בקרב הציבור, והמזם לא הצליח להחזיר את ההשקעה בו. אף על פי כן, כל מי שהיה מעורב בו היה גאה לקחת בו חלק: בסופו של דבר מדובר במעין 'קפסולת זמן' איכותית ומושקעת, שללא ספק תהיה חשובה ומועילה להיסטוריונים של העתיד כפי שספר דומסדיי, זה העשוי נייר, מועיל להיסטוריונים של ימינו.

אך כתבה שהתפרסמה בעיתון הבריטי The Observer בשנת 2002 חשפה מציאות שונה ועגומה: חמש עשרה שנים בלבד לאחר שנוצר, המידע האצור בתוך הלייזר-דיסקים היה כעת כמעט בלתי נגיש. שני מיליון וחצי הפאונד שהושקעו בפרוייקט דומסדיי הדיגיטלי ירדו לטימיון: אף תלמיד בית ספר או אזרח סקרן אינו יכול לקרוא את המאמרים או לצפות בתמונות.

הסיבה, כפי שאולי כבר ניחשתם, הייתה שטכנולוגיית הלייזר דיסק לא תפסה אחיזה בקרב הציבור הרחב ולא החזיקה מעמד זמן רב. הקומפקט-דיסק, שנכנס לשימוש כמה שנים בלבד לאחר שנסתיים פרוייקט דומסדיי, דחק את רגלי הלייזר דיסק. היצרנים הפסיקו לייצר את הרכיבים האלקטרוניים המתאימים, וב-2002 היו רק כמה ערכות דומסדיי בודדות שנותרו פעילות, רובן במוזיאונים וארכיונים. ההשוואה המתבקשת לספר דומסדיי, שניתן לעלעל בו גם כמעט אלף שנה לאחר שנכתב, לא הייתה מחמיאה במיוחד- או כפי שהגדיר זאת מומחה מחשבים שהתראיין לכתבה: 'יש לנו מזל ששייקספיר לא כתב את המחזות שלו על PC.."

בעיית השימור הדיגיטלי

סיפורו של פרוייקט דומסדיי הוא דוגמא מייצגת לאתגר שבפניו אנו ניצבים כשאנו מבקשים לשמר מידע דיגיטלי. אקדים ואומר שחלק גדול מהדברים שנדון בהם תקף גם לגבי שימור מידע שאינו דיגיטלי, כמו מוזיקה על גבי תקליטי ויניל או קלטות אודיו.

בחלוקה גסה ניתן להפריד את בעיית השימור לשלושה מרכיבים עיקריים. הראשון הוא שימור המדיה שעליה מאוחסן המידע- למשל, דיסקים, קסטות וכו'. השני הוא שימור המערכות שקוראות את המידע מהמדיה- למשל, נגן DVD ופטיפון. המרכיב השלישי הוא שימור התוכנה שבעזרתה מפוענח המידע הדיגיטלי הגולמי ומומר לתמונות, אותיות, קול וכו'.

נפתח תחילה דווקא ברכיב השני: שימור המערכות שקוראות את המידע הדיגיטלי, האפסים והאחדות, מתוך המדיה עליה הם מאוחסנים.

ספר נייר יכול להכיל רק כמות מועטה של מידע: עשרות עד כמה מאות אלפי מילים, בדרך כלל, ועוד כמה תמונות או תרשימים. דיסקים, שבבים ואמצעי איחסון מודרניים דומים יכולים להכיל נפח אדיר של מידע: אנציקלופדיות שלמות, סרטים, קטעי קול ועוד. אך היכולת לדחוס כמויות גדולות של מידע דיגיטלי לתוך אמצעי איחסון אלה כרוכה תמיד בשימוש במערכת שתתווך בינינו ובין המדיה עליה שמור המידע. כדי לקרוא טקסט שנכתב על דף נייר צריך רק זוג עיניים, אך כדי לקרוא טקסט ששמור על דיסק-און-קי או CD, צריך מחשב שמסוגל לקרוא מהם את המידע הדיגיטלי ותוכנה שתפענח את האפסים והאחדות ותמיר אותם בחזרה לאותיות, מספרים, תמונות שאנו מסוגלים להבין.

ב-BBC נפלו קורבן לבחירה חסרת מזל בטכנולוגיית אחסון שלא החזיקה מעמד הרבה זמן, אבל קשה להאשים אותם. טכנולוגיות רבות נעלמו בשלושים השנים האחרונות: לרבים מאיתנו יש בבית היום תקליטי ויניל ישנים, סרטי פילם, דיסקטים עתיקים, קסטות וידיאו ועוד התקני אחסון שמתיישנים לאיטם במגירות חשוכות- כולם קורבנות של התיישנות טכנולוגית מואצת.

סביר להניח שהעלמותם של כונני ה-DVD, הפטיפונים ודומיהם תקשה על הארכיאולוגים העתידיים לחלץ את המידע מהדיסקים והתקליטים שברשותם- אבל לא יותר מדי. ברגע שמבינים איך בדיוק מיוצגים אפס ואחד על פניו של DVD, למשל, קל יחסית לבנות מכונה שתחליף את כונן ה-DVD ותקרא את תוכן הדיסק. הבעיה המשמעותית יותר היא שבלעדי הכוננים והנגנים, יכול להיות שרק חלק קטן מהמידע הקיים בימינו יצליח לשרוד מאות שנים. מדוע?

הצורך בגיבוי

כל מדיית אחסון מידע פגיעה לבלייה טבעית. דיסקים קשיחים, למשל, רגישים במיוחד לבלאי מכני: דיסק קשיח טיפוסי מחזיק מעמד שלוש עד חמש שנים בממוצע לפני שתקלה במנוע או באלקטרוניקה הרגישה מוציאה אותו מכלל פעולה. קומפקט דיסקים ו-DVD, במיוחד כאלה שנצרבו בבית ולא במפעל, מחזיקים מעמד עשר עד חמש עשרה שנה. אם יש לנו בבית דיסק שמכיל מידע חשוב ויקר ערך במיוחד אפשר, למשל, להגן עליו ולהאריך את חייו באופן משמעותי על ידי אחסון בתנאים אופטימליים של לחות נמוכה וכו'- אבל מי מבטיח לנו שילדנו או נכדינו ישמרו על הדיסק באותם התנאים? מי מבטיח ששריפה או הצפה לא יהרסו אותו? וגם אם הדיסק ישרוד, בטווח הארוך תהליכי בלייה איטיים יותר כמו חמצון או התפוגגות הדרגתית של שדה מגנטי יעשו את פעולתם והמידע יימחק.

זו, כמובן, לא בעיה חדשה: גם הנייר האיכותי ביותר מתפורר, בסופו של דבר. הפתרון מאז ומתמיד היה לגבות את המידע על ידי יצירת עותקים חדשים שלו. למשל, חלק ניכר מהספרים ששרדו מימי קדם אל תקופתנו הם ספרים שהועתקו באופן ידני, מילה במילה, על ידי נזירים מסורים.

אך היכולת שלנו לגבות את המידע הדיגיטלי תלויה במידה רבה בזמינותן של המערכות המתווכות. אם אין לנו בבית נגן וידיאו, למשל, אזי כדי לגבות את הקלטות הישנות צריך ללכת למעבדה מיוחדת ולשלם כסף כדי להמיר אותם ל-DVDים. חלק גדול מהאנשים לא יטרחו לעשות זאת, או שייזכרו בקלטות הישנות שלהם רק אחרי שיהיה זה מאוחר מדי והסרטים המגנטיים נרקבו ונמחקו. במילים אחרות, כדי שהמידע יגיע בשלמותו אל העתיד עלינו לדאוג לגבות אותו כאן ועכשיו- ובלעדי הקוראים, הנגנים ושאר המערכות המתווכות, קשה מאד לדאוג לגיבוי מסודר.

גיבוי בענן

ראוי לציין שגם בתנאים אופימליים, גיבוי כמויות גדולות של מידע הוא אתגר לא פשוט. רבים משתמשים בשירותי גיבוי דרך האינטרנט- מה שמכונה 'גיבוי בענן'- אבל גם הפתרון הזה אינו מושלם.

חברות המציעות שירותי גיבוי בענן, כמו 'גוגל' ו'אמזון' למשל, מבינות שאמינות היא שם המשחק ומשקיעות מיליארדי דולרים בהקמת מרכזי מידע ענקיים בכל רחבי העולם, שמצויידים במערכות מיזוג אוויר מתקדמות, גנרטורים לאספקת חשמל חלופית וכדומה. ובכל זאת, תקלות קורות. למשל, אחד התהליכים הרגישים בתחזוקת מרכז מידע שכזה היא שדרוג תכנה, שכמעט תמיד חייב להתבצע תוך כדי עבודה שגרתית, מבלי להפסיק את השירות ללקוחות. תהליך השדרוג הוא כה עדין ומורכב, עד שאחד ממהנדסיה של 'גוגל' השווה אותו להחלפת הצמיגים במכונית תוך כדי שהיא נוסעת במאה קמ"ש בכביש המהיר.

ואכן, בשנת 2009 ארעו בגוגל שתי תקלות שבמהלכן נמחקו כמה אלפי תיבות דואר אלקטרוני ב-Gmail. הסיבה הייתה עדכון תוכנה שהשתבש. למרבה המזל, ב'גוגל' היו מוכנים לאפשרות הזו: כל המידע של המשתמשים היה מגובה מבעוד מועד על קלטות מגנטיות, ושוחזר בתוך מספר שעות. לכמה מלקוחותיה של 'אמזון' לא היה כזה מזל: ב-2011 הודיעה החברה שבעקבות תקלה טכנית אבדו 0.07 אחוזים מהמידע שאוחסן באחד ממרכזי המידע שלה. 0.07 אחוז לא נשמע כמו מספר גדול, אבל עשוי להיות מתורגם בפועל למאות ואלפי ג'יגהבייט של מידע. במילים אחרות, גיבוי לענן הוא פתרון טוב- אבל הוא אינו פתרון קסם.

אחסון מידע בדנ"א

בכל זאת, קיימת 'טכנולוגיה' עתיקה-חדשה שכנראה תהיה לנו לעזר בעתיד: הדנ"א. המולקולה הלוליינית שנמצאת בתוך כל תא חי היא המדיה המושלמת לאחסון מידע, פטנט שהטבע שכלל עד שלמות במשך מיליארדי שנות אבולוציה. גרם אחד של מולקולות דנ"א מסוגל להכיל 2 טרה-בתים של מידע, או פי שניים מדיסק קשיח, ובתנאים מתאימים לשמור עליו במשך עשרות אלפי שנים. עדות טובה לכך היא המידע הגנטי שאנחנו מחלצים כיום משרידיהן של ממותות שהלכו לעולמן בעידן הקרח. היכולת העקרונית להשתמש בדנ"א כמדיה לאחסון מידע דיגיטלי כבר קיימת: לפני כשנתיים הצליחו קבוצה של מדענים אירופאים לשמור כמה עשרות תמונות, קטעי שמע וסונטות של שייקספיר בתוך מולקולת דנ"א, ולשחזר אותם מאוחר יותר בהצלחה.

העובדה שדנ"א הוא המדיה שעליה שומרים כל בעלי החיים בטבע את המידע הגנטי שלהם משחקת לטובתנו באופן נוסף: דנ"א הוא כל כך אוניברסלי, עד שאין כמעט ספק שכל חברה אנושית עתידית בעלת ידע טכנולוגי סביר תהיה מסוגלת לקרוא אותו. התחום נמצא עדיין בחיתוליו, אבל אין כמעט ספק שבתוך כמה עשרות שנים אחסון מידע בדנ"א יהיה נפוץ ויומיומי.

פרוייקט דומסדיי: מאמצי שימור

בחזרה לדומסדיי. לאחר שהתפרסמה הכתבה ב'אובזרבר' והציבור הרחב התוודע למצבו העגום של הפרוייקט, החלו מספר קבוצות ובודדים במאמצי שימור והצלה של המידע שבשני הדיסקים. המשמרים, שחלקם היו חובבים וחלקם באו מרקע אקדמי או מקצועי, פעלו במקביל וברוב הזמן ללא קשר ישיר אלו עם אלו. כזכור, בנוסף לשני הדיסקים הכילה ערכת דומסדיי גם נגן לייזר-דיסק ייעודי. למרבה המזל, כמה מהנגנים פעלו כשורה ובאמצעותם ניתן היה לקרוא את המידע האצור על הדיסק בקלות יחסית. אך כאן נתקלו כל המשמרים במרכיב השלישי ואולי המורכב ביותר של בעיית השימור הדיגיטלי: בעיית התוכנה.

כפי שציינתי קודם, כדי להקל על המשתמשים את הניווט בסבך המאמרים, התמונות והסרטונים שנשמרו על הדיסקים יצרו מהנדסי דומסדיי מערכת של תפריטים וחלונות שבאמצעותה ניתן היה לאתר את המידע הרצוי ולצפות בו. מערכת זו נכתבה בשפת תכנות בשם BCPL. BCPL הייתה שפה מתקדמת לזמנה, וחלק מתכונותיה שולבו מאוחר יותר בשפת C הפופולרית- אבל גם היא, כמו הלייזר-דיסק, יצאה משימוש ומחשבים מודרניים סטנדרטיים אינם מבינים אותה עוד. מכאן שלמרות שבידי המשמרים היה את המידע הגולמי- האפסים והאחדות שאוחסנו על הדיסקים- לא הייתה בידיהם היכולת לפענח אותו ולהמיר אותו בחזרה לטקסט או תמונות. הדבר דומה לתרגיל חשבון שמחקנו ממנו את כל סימני החיבור, חיסור, שוויון וכולי: המספרים עדיין שם, אבל קשה מאד להבין מה הייתה המשמעות המקורית שלהם.

החייאת הפרוייקט

מתכנת חובב בשם אדריאן פירס (Pearce) הצליח בשנת 2004, אחרי מאמצים רבים, לשחזר חלק מאלגוריתם הפענוח ולחלץ חלק גדול מהטקסים והתמונות שהיו בדיסקים. הוא העלה את המידע לאתר אינטרנט שהקים כדי שיהיה זמין לקהל הרחב, כפי שהתכוונו הוגי הפרוייקט במקור. עם זאת, פירס לא הצליח לשחזר את מערכת התפריטים והחלונות, כך שלמרות כל הכוונות הטובות הגולשים באתר עדיין לא זכו לאותה חוויית משתמש מקורית שחווה מי שהשתמש בנגן הלייזר-דיסק המקורי.

יש מי שיראו בחלק זה של המידע, ממשק המשתמש, שולי ולא-חשוב: אחרי הכל, המאמרים והתמונות הם לב ליבו של הפרוייקט, לא? יש בזה משהו, אבל אסור לזלזל בחשיבותו של ממשק המשתמש. דמיינו לעצמם את הארכיאולוג הדיגיטלי העתידי שלנו, בעוד אלף שנה מהיום, מגלה אייפון מהדגם הראשון- ללא ספק תגלית חשובה ששופכת אור על מהפכת הטלפונים החכמים של דורנו. אבל מה יקרה אם הארכיאולוג יצליח לפענח רק את המידע שעל האייפון- תמונות, סמסים וכו'- אבל לא את ממשק המשתמש? סביר להניח שהוא ישבור את הראש בניסיון להבין מדוע כולם התלהבו כל כך מהאייפון כשיצא לשוק, ומדוע המתפללים בכנסיית המק שמול הבית שלו מעלים זבחים לסטיב הקדוש מזה מאות שנים.

אחת הדרכים העקרוניות להתגבר על בעיית התיישנות התוכנה היא להמיר את המידע באופן תקופתי מפורמט לפורמט כדי שניתן יהיה לפתוח אותו בתוכנות מודרניות. למשל, אם יש ברשותנו תקליט ישן ופטיפון תקין אפשר להעתיק את המוזיקה שעליו למחשב ולשמור אותה כקבצי mp3 שכל תוכנה עכשווית יודעת לנגן. כשפורמט ה-mp3 יוחלף בפורמט אחר, נמיר את הקבצים לפורמט החדש- וכך הלאה וכך הלאה, עד אין קץ. זו נראית כמו אסטרטגיית שימור טובה, אבל גם לה יש חסרונות.

במסגרת שימור פרוייקט דומסדיי, למשל, שני מתכנתים נוספים, אריק פרימן (Freeman) וסיימון גווררו (Guerrero), ניסו לחלץ את התמונות שהיו מאוחסנות על הדיסקים. הטכניקה בה השתמשו כדי להמיר את התמונות לפורמט מודרני פגעה באיכותן, והתמונות המומרות לא היו מוצלחות במיוחד. זו דוגמא לבעייה נפוצה בהמרת פורמטים: אין כל בטחון שבזמן ההמרה חלק מהמידע המקורי לא יילך לאיבוד. כמו תמונה שמשכפלים אותה, ואז משכפלים את השכפול, ואת השכפול של השכפול של השכפול וכולי- יש סכנה שאחרי כמה וכמה המרות, התוצאה הסופית תהיה איבוד חלק משמעותי מהמידע המקורי.

במקרה של אריק וסיימון, היה להם מזל: מהנדס בשם אנדי פיני (Finney), שהיה חלק מצוות הפיתוח של פרוייקט דומסדיי בשנות השמונים, איתר בארכיון נידח סרטים מגנטיים ועליהם העתקים באיכות גבוהה של התמונות. מתוך הסרטים המגנטיים (שגם הם החלו להתבלות באופן מורגש) ניתן היה לשחזר את התמונות בהצלחה רבה יותר. אריק וסיימון שיתפו פעולה עם ה-BBC, וב-2011 העלו אתר אינטרנט בשם Domesday Reloaded, שגם בו יכלו הגולשים לעיין במידע ואף לשפר ולהוסיף לו. לרוע המזל האתר אינו פעיל נכון לעכשיו, אם כי הוא אמור לשוב לפעולה בעתיד הקרוב.

אמולציה

קבוצה שלישית שניסתה להציל את הפרוייקט הייתה קבוצה בשם CAMiLEON: צוות של אנשי אקדמיה מאוניברסיטאות אמריקניות ובריטיות. אנשי CAMiLEON נקטו בגישה שונה לגמרי של שימור: אמולציה.

'אמולציה' היא חיקוי. נניח, לשם ההסבר, שאתם מאד רוצים לנסוע לחופשה בתאילנד- אבל אין לכם זמן או כסף. מה עושים? הנה פתרון. קחו חול ושפכו על רצפת החדר. הפעילו תנור לוהט. השמיעו ברמקולים מוזיקה תאילנדית מרגיעה ורחש גלי ים. בקשו מחבר להטריד אתכם בכל כמה דקות בהצעות לקנות אננס, קוקוס, בננה לוטי או חרגולים מטוגנים. עכשיו שכבו על החול ועיצמו עיניים…ואתם בתאילנד.

זו, על רגל אחת, אמולציה: טכנולוגיה שיוצרת 'מחשב וירטואלי' בתוך המחשב האמיתי, כך שתוכנה שרצה בתוך אותו מחשב וירטואלי לא תדע להרגיש בהבדל. זה בדיוק מה שעשו אנשי קבוצת CAMiLEON: הם יצרו סביבה וירטואלית שחיקתה את החומרה העתיקה שכבר לא הייתה קיימת במציאות, ובאמצעותה הפעילו את התוכנה המקורית של פרוייקט דומסדיי- התוכנה שנכתבה בשפת BCPL המיושנת. באופן זה הצליחו אנשי הקבוצה לשחזר את חוויית השימוש המקורית של ערכת דומסדיי באופן כמעט מושלם, כולל תפריט הניווט, התמונות, הסרטונים וכו'.

אמולציה היא גישה שנחשבת בעיני רבים כבעלת הפוטנציאל הטוב ביותר לשימור ארוך טווח של מידע דיגיטלי. חסרונה הגדול הוא שהקמת הסביבה הוירטואלית היא עניין מורכב הדורש מיומנות גדולה, ולכן דורשת גם השקעה גדולה יחסית של זמן וכסף. מאידך, הניסיון מוכיח שאמולציה עובדת: אם תבקשו לשחק כיום במשחקי מחשב שנכתבו בשנות השמונים למחשבים כמו אטארי, קומודור ו-Zx Spectrum, תוכלו לעשות כן למרות שהמחשבים עצמם כבר מזמן לא נמצאים בסביבה: ניתן להשיג היום באינטרנט אמולטורים שיוצרים 'קומודור' ו'ספקטרום' וירטואליים בתוך המחשב הביתי, ומאפשרים לנו לשקוע בנוסטלגיה.

אתגר משפטי

הבעיה האחרונה שעימה התמודדו משמרי פרוייקט דומסדיי היא בעיה שלמרבה ההפתעה אינה טכנולוגית כלל, כי אם משפטית. כמעט כל מאמצי השימור התמקדו בדיסק אחד בלבד מתוך השניים: דיסק 'הקהילה', הדיסק שהכיל תמונות ומאמרים ששלח הציבור הרחב. הדיסק השני, 'הדיסק הלאומי', הוא אתגר מסוג אחר: הוא מכיל מפות, סטטיסטיקות ותכנים נוספים שהופקו באופן מקצועי. תכנים אלה מוגנים על ידי זכויות יוצרים, ותמיד קיים החשש שמא מישהו מבעלי זכויות היוצרים יטען שאקט שימור המידע הוא למעשה סוג של העתקה ללא רשות, ויתבע את המשמרים! זו, כמובן, בעיה שהארכיאולוגים העתידיים שלנו לא יצטרכו לחשוש ממנה- אחרי הכל, זכויות היוצרים יפוגו בעוד תשעים שנה בערך- אבל מצד שני, אם אי אפשר לשכפל תוכן שמוגן בזכויות יוצרים, הרי שגם אי אפשר לגבות אותו- ומכאן שאולי לא ישרוד כלל…

שימור דיגיטלי, אם כן, הוא עניין לא פשוט, וללא ספק מקצוע הארכיאולוגיה עומד לשנות את פניו מקצה לקצה במאות השנים הבאות. אמולטורים ומחשבים מתוחכמים יחליפו את המברשת והמכושונים, וכנראה שהארכיאולוגים יבלו במעבדה ממוזגת יותר מאשר בחפירות מאובקות…

לסיכום

ומה לגבינו, האנשים הפשוטים? רבים מאיתנו נהנים לדפדף באלבומים הישנים ולראות תמונות של סבא וסבתא כשהיו צעירים ויפים. בהנחה שלנכדינו וניננו לא תהיה גישה לכלי שימור ושחזור מתוחכמים, כנראה שאם חשוב לנו שיראו אותנו מחייכים בחליפת החתונה שלנו- כדאי למצוא חנות צילום טובה שמדפיסה תמונות על נייר איכותי. ויפה שעה אחת קודם.


 מקורות ומידע נוסף:

http://gmailblog.blogspot.co.il/2011/02/gmail-back-soon-for-everyone.html
http://www.datacenterknowledge.com/archives/2013/01/23/google-pours-1-billion-into-data-centers-in-three-months/
http://www.datacenterknowledge.com/archives/2012/12/10/why-does-gmail-go-down/
http://www.datacenterknowledge.com/archives/2011/03/01/google-turns-to-tape-to-rescue-lost-gmail/
http://www.rackspace.com/blog/infographic-data-storage-101/
http://www.serverlift.com/tech-lift/data-center-spotlight/
http://www.nationalarchives.gov.uk/domesday/
http://www.computinghistory.org.uk/domesday
http://www.atsf.co.uk/dottext/domesday.html
http://en.wikipedia.org/wiki/BBC_Domesday_Project
http://www.nytimes.com/1990/03/20/science/lost-on-earth-wealth-of-data-found-in-space.html
http://en.wikipedia.org/wiki/Digital_Dark_Age
http://en.wikipedia.org/wiki/Data_archaeology
http://www.nytimes.com/2002/08/29/technology/what-s-next-a-universal-tool-to-rescue-old-files-from-obsolescence.html
http://domino.research.ibm.com/library/cyberdig.nsf/1e4115aea78b6e7c85256b360066f0d4/10229b6de0d054c585256fa900681995?OpenDocument&Highlight=0,a
http://en.wikipedia.org/wiki/Universal_Virtual_Computer
http://articles.businessinsider.com/2011-04-28/tech/29958976_1_amazon-customer-customers-data-data-loss
http://ge.geglobalresearch.com/blog/getting-the-most-out-of-a-disc/
http://blogs.discovermagazine.com/80beats/2013/01/24/data-storage-in-dna-becomes-a-reality/#.UTJgOTCdv5s
http://www.extremetech.com/extreme/134672-harvard-cracks-dna-storage-crams-700-terabytes-of-data-into-a-single-gram
http://www.the-scientist.com/?articles.view/articleNo/34109/title/DNA-based-Data-Storage-Here-to-Stay/


יצירות אשר הושמעו במסגרת הפרק:

http://soundcloud.com/s-priest/luminiscent-tin

http://soundcloud.com/jonrhunt/for-r-budd-dwyer

http://soundcloud.com/retro-trend/theking-original-mix-1999

http://www.freesound.org/people/lolamadeus/

14 מחשבות על “[עושים היסטוריה] 127: שימור מידע דיגיטלי”

  1. לגבי הפרויקט של ה BBC, לפי מה שנאמר באנגלית הנפח הכולל היה 500MB אם היו מחכים עוד שנה שנתיים היו יכולים להעלות הכל על CD-ROM (התקן מ 1987 היה של 682MB)

    הגב
    • רביב- כן, מהנדסי הפרוייקט שקלו את השימוש ב cdrom, אבל הטכנולוגיה הזו הייתה חדשנית מדי ולא מוכחת בפועל באותם הימים. בדיעבד הם הצטערו על ההחלטה, כמובן… רן

      הגב
  2. לאילו מהקישורים עלי להיכנס כדי לקרוא עוד על שימור מידע דיגיטלי באמצעות דנ"א? הרעיון קסם לי מאד. תודה!

    הגב
    • שוקו, אתם צריך להכנס לאתר שלהם- http://www.vpbx.co.il, ולשלוח אליהם הודעה (דרך המייל או טופס יצירת קשר). כתוב להם שאתה מגיע
      דרך עושים היסטוריה, ומעוניין בהטבה של שנה חינם. הם כבר מכירים את העניין 🙂
      רן

      הגב
  3. שימור הידע הוא בהחלט בעיה. אבל להעתיק ספרים לא בטוח שזה פיתרון.
    בתוכנה אמרת שצריך את המערכת שקוראת את המידע מתוך ההתקן וצריך את התוכנה שמפענחת. בספר זה כנ"ל.
    כלומר, להוציא את המידע מההתקן, פשוט יותר, יש עיניים.
    אבל מה בדבר פיענוח?
    כמה אנשים דוברי לטינית מסתובבים כדי לפענח את רישומי המלך וויליאם?
    בעצם, גם להוציא את המידע יכולה להיות בעיה. כתב יד וויניץ נשמע מוכר? אולי זה ידע שמישהו ניסה לשמור, אולי במוצפן, כדי לא לפגוע בזכויות יוצרים… ועכשיו אנחנו תקועים ולא יכולים להוציא את המידע
    בקיצור הבעיה קיימת בכל צורך רישום דיגיטלית או רגילה

    הגב
    • נעם, זו נקודה נכונה- גם שפות מתיישנות ונעלמות. אבל עדיין, אני חושב שהתיישנות השפה מהווה בעיה קלה יותר
      מאשר התיישנות תוכנה. ביחס לתוכנה, שפה היא "קידוד" פשוט יותר, לדעתי: השפה היא סט של כללים שמתוכם ניתן
      לפענח את התוכן, שבעוד שתוכנה היא אלגוריתם. עובדה היא שאדם יכול ללמוד לטינית בזמן סביר, בזמן שלעבור על קוד
      מקור של תוכנה מורכבת (למשל, 'חלונות') אפילו חיים שלמים לא יספיקו.
      אגב, לגבי הצפנה- לא הזכרתי את זה בפרק, אבל חלק גדול מהתעבורה ברשת היום הוא מוצפן. מה שאומר שגם אם
      המידע נשמר איפה שהוא, הוא עדיין לא יהיה נגיש (לפחות כל עוד לא יפצחו את ההצפנה)…
      רן

      הגב
      • אבל רן, כדאי לזכור שהצורה בה אתה תופס את השפה כקידוד פשוט היא מודרנית והיא פרי עמלם של אנשי מדע ורוח (במקרה של שפות) שהביאו לכך שבימינו אנו השפה יכולה להיות מנותחת באמצעים מתמטיים וטכנולוגיים ולהיות מפוצחת בקלות.
        לא מן הנמנע שבעתיד, פריצות דרך מתמטיות (אלגוריתמים יעילים יותר) או טכנולוגיות (מעבדים מהירים יותר) יביאו לכך שפיצוח קידודים דיגיטליים עכשוויים ייחשב כדבר פשוט כפי ששפה נחשבת כיום.

        (התנצלות קטנה, עדיין לא שמעתי את הפרק, נתקלתי בדיון כשבאתי להוריד אותו, כך שאם הטענה שלי כבר הועלתה קודם בפרק או בדיון אני מתנצל.)

        הגב
        • הי, אבינר,
          אין ספק שיהיה קל יותר בעתיד לפצח צפנים: מחשבים ישתפרו וכו'. עדיין, קשה לי להאמין שפיצוח
          הצפנים יהפוך למשימה טריוויאלית…אבל מי יודע. השאלה מה יקרה אם חלק מהמידע המוצפן
          ילך לאיבוד בגלל בלאי של המדיה: האם גם אז יהיה קל לפענח את הצופן? אני מניח שכן, כי כך צריכה
          לעבוד הצפנה דרך ערוץ תקשורת לא אמין כמו האינטרנט, אבל אולי לא כל הצפנים אותו דבר.
          לדוגמא, קובץ ZIP (לא הצפנה, אבל אותו עיקרון) לא נפתח אם חלק מהמידע לא תקין, לדעתי.
          רן

          הגב

להגיב על ranlevi לבטל