Netwise English
אודות
הפילוסופיה שלנו
חדשות ואירועים
הלקוחות שלנו
ספריית מאמרים
Netwise Experts
ארכיון ניוזלטר
דרושים
צור קשר
הוראות הגעה
 
ספריית מאמרים לספריית מאמרים  לניוזלטר Netwise
רשת האינטרנט הסמויה: מהי, מדוע היא קיימת ואיך ניתן למצוא אותה?
המאמר "Invisible or Deep Web: What it is, why it exists, how to find it, and its inherent ambiguity" נכתב במסגרת ספריית לימוד האינטרנט של ברקלי ותורגם ועובד על ידי שני אבנט, יועצת שימושיות בחברת Netwise. ינואר 2007.

קישור למאמר המקורי: http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html
תקציר המאמר:
כדי למצוא מידע כלשהו ברשת אנחנו נוהגים להשתמש במנועי חיפוש כגון: Yahoo ,Google ואחרים. אך חוץ מהמידע הגלוי שאנחנו מקבלים מתוצאות החיפוש וממרבית האינדקסים המקוונים, ישנו ברשת גם מידע סמוי שלא ניתן לאתר באמצעות חיפוש חופשי ברשת. במאמר זה נענה על השאלה מהי הרשת הסמויה, נסביר מדוע היא קיימת ונדגים כיצד ניתן להתגבר על המכשולים שהיא מציבה בפנינו.
מהי הרשת הסמויה?
רשת האינטרנט מתחלקת לשני חלקים:
"הרשת הגלויה" היא כל מה שאנחנו מקבלים מתוצאות החיפוש של מנועי חיפוש כלליים (כמו Google, Ask.com or Yahoo! Search), וגם מה שנקבל ממרבית האינדקסים המקוונים (כמו Infomine, Librarians' Index, About.com, Academic Info, Google Directory וכו').
"הרשת הסמויה" היא כל מה שלא ניתן לאתר באמצעות מנועי חיפוש או לראות באמצעות לינקים בכלים אלו.
מאז שנת 2000 מנועי חיפוש, Crawlers (הקרויים גם Spiders – תוכנות מחשבים רובוטיות שתפקידם לשוטט ברשת האינטרנט העולמית ולעדכן את מאגרי המידע של מנועי החיפוש) ותוכנות אינדוקס התגברו על מרבית המגבלות הטכנולוגיות, שבעבר לא אפשרו למצוא ולהציג דפי אינטרנט סמויים ברשת.
כיום הרשת הסמויה הצטמצמה וניתן לאתר דפים שבעבר היו סמויים באמצעות מנועי החיפוש:
דפים בפורמט שאינו HTML (PDF, Word, Excel, Corell suite וכו') מתורגמים לפורמט HTML ברוב מנועי החיפוש וניתן "לראותם" בתוצאות חיפוש.
דפים מבוססי סקריפטים, שקישוריהם מכילים "?" או קוד סקריפט אחר, כבר לא גורמים למנועי החיפוש לשלול אותם.
דפים שמיוצרים באופן דינאמי על ידי סוגים אחרים של תוכנות מאגרי מידע (לדוגמא Active Server Pages, Cold Fusion), יכולים לעבור אינדוקס אם קיימת כתובת URL יציבה שספיידרים של מנועי חיפוש יכולים למצוא. בעבר דפים מסוג זה לרוב לא נמצאו באמצעות מנועי החיפוש.
מדוע הרשת הסמויה קיימת?
ישנן עדיין משוכות שספיידרים של מנועי חיפוש לא מצליחים לעבור, ואלה יוצרים כמות דפי אינטרנט ענקית שמנועי חיפוש כלליים לא מוצאים.
1. מנועי חיפוש עדיין לא יכולים להקליד או לחשוב
אם הגישה לדף אינטרנט מחייבת הקלדה, הספיידרים נתקלים במחסום שאינם יכולים לעבור. הם לא מסוגלים לבצע חיפוש בקטלוגים מקוונים ולא יכולים להקליד סיסמא או לוג-אין.
תכנים של מאגרי מידע, שניתן לבצע בהם חיפוש
מרבית הרשת הסמויה בנויה מתכנים של אלפי מאגרי מידע מתמחים שניתנים לחיפוש וזמינים דרך הרשת. כאשר מקלידים נושא לחיפוש באחד ממאגרי המידע הללו, תוצאות החיפוש מועברים אלינו בדפי אינטרנט הנוצרים כמענה לחיפוש שביצענו. לעתים רחוקות דפים אלו נשמרים באיזשהו מקום: יותר קל וחסכוני לייצר דף תשובה באופן דינאמי לכל שאילתה, מאשר לאחסן את כל הדפים האפשריים המכילים את כל התשובות האפשריות לכל השאילתות.
Google Scholar הוא אוסף של ציטוטים עם קישורים למוציאים לאור או למקורות אחרים, שבהם ניתן לנסות לגשת לפרסום המלא. Google Scholar מאפשר לינקים נוחים לפרסומים מקוונים של אותן ספריות אקדמיות (וספריות אחרות), שנרכשו לשימוש בלעדי של חבריהם הרשומים. אם תחפשו ב-Google Scholar תמצאו הרבה אזכורים למאמרים מכתבי-עת. כיום, מה שאתם רואים כשאתם מחפשים ב-Google Scholar הוא חלקיק קטן של כל הפרסומים האקדמיים הקיימים ברשת. ישנו מידע רב נוסף שקיים ברשת הסמויה.
Google Scholar יכול לספק ציטוטים לתכני מאמרים שהספיידרים מצליחים למצוא להם לינקים יציבים, אבל הוא לא יכול לבנות חיפוש או להקליד סיסמא בכדי להיכנס למאמרים מוגנים בהרבה ממאגרי המידע של המוציאים לאור. בכמה ניסויים שבוצעו ב- UC Berkley נמצא כי Google Scholar הצליח לגשת לכ-10% בלבד מכל הפרסומים שהתלמידים וסגל ההוראה מנויים אליהם ברשת.
2. דפים שאינם נכללים בחיפוש
ישנם דפים מסוגים מסוימים שחברות מנועי החיפוש שוללים כמדיניות. לאי הכללת דפים בחיפוש אין סיבה טכנית, אלא החברות בוחרות מה לכלול או לא לכלול במאגרי מידע שגם ללא אותם דפים הם ענקיים, יקרים לתפעול, ופונקצית החיפוש בהם היא מייצרת הכנסה נמוכה.
דפים שמיוצרים באופן דינאמי, ערכם נמוך ומשמשים לצרכים חד-פעמיים: חישבו על ביליוני הדפים האפשריים שיכולים להיווצר כאשר אנשים מחפשים ספרים בקטלוגים המקוונים. כל אחד מהם מייצר דף תוצאות בהתאם לצרכים הספציפיים שלו. מנועי חיפוש לא רוצים את כל הדפים הללו במאגרי המידע שלהם, משום שהם יוצרים ערב רב של מידע שלא יעניין כמעט אף אחד.
מאגרי מידע: ישנם אלפי מאגרי מידע של רישומים ציבוריים, רשמיים ובעלי מטרה ייעודית, המכילים מידע ממשלתי, כלכלי, לוגיסטי ועוד שנועד לענות על שאילתות מאוד ספציפיות המעניינות קבוצה קטנה של אנשים. גם אם קיימים לינקים יציבים לדפים אלו, מנועי החיפוש לא מעוניינים בהם בשל העובדה שזוהי עוד ערבוביה.
איך ניתן למצוא את הרשת הסמויה?
חישבו במונחים של "מאגרי מידע" ופיקחו את העיניים. אתם יכולים למצוא מאגרי מידע שניתנים לחיפוש ומכילים דפי אינטרנט סמויים במהלך חיפוש שגרתי במרבית האינדקסים המקוונים הכלליים. מאגרים אלה שימושיים במיוחד במחקר אקדמי:
Librarians Index
AcademicInfo
Infomine
השתמשו ב-Google ומנועי חיפוש אחרים כדי לאתר מאגרי מידע שניתנים לחיפוש על ידי הזנת נושא החיפוש והמילה "database". אם מאגר המידע משתמש במונח "database" בדפים שלו, Google כנראה יוכל לאתר אותו. המילה "database" שימושית גם בחיפוש נושא ב- Google Directory או ב- Yahoo! directory, כיוון שהם משתמשים במילה זו כדי לתאר מאגרי מידע שניתנים לחיפוש ברשומות שלהם.
דוגמאות לחיפוש ב- Google ו- Yahoo:
plane crash database
languages database
toxic chemicals database
לסיכום, זכרו כי הרשת הסמויה קיימת וכי בנוסף למה שתמצאו בתוצאות מנועי חיפוש (כולל Google Scholar) ומרבית האינדקסים המקוונים, ישנם גם "מכרות זהב" שצריך לחפש באופן ישיר. אלה כוללים מאמרים, מגזינים, מראי מקום, מאמרי חדשות ומקורות מחקר נוספים שנרכשים על ידי ספריות ותעשיות מסוימות עבור מורשים בלבד. התכנים הללו אינם זמינים באופן חופשי.
כחלק מאסטרטגית החיפוש האינטרנטי החכם שלכם, השקיעו קצת זמן בחיפוש אחר מאגרי מידע בשטח שלכם או בתחום המחקר שלכם אולם זכרו כי מרבית המידע המקורי, דהיינו כתבי-עת, מגזינים, חדשות וספרים, אינם זמינים באופן חופשי. מוציאים לאור ומחברים שולטים בהם תחת זכויות יוצרים וחוקי הפצה. לכן יהיה עליכם לשלם או להכניס סיסמא בכדי לראות את הטקסט המלא. עם זאת, יתכן שיש לספריה שאתם רשומים בה (למשל, ספריות אוניברסיטאיות) גישה למה שאתם מחפשים.
 
שלח עמוד לחבר הדפס עמוד לראש הדף