שימוש הוגן והסרה מגוגל: האם בכלל יש מקום לrobots.txt?

רופרט מרדוק, איל תקשורת מסורתית, יצא בחודשים האחרונים למלחמת חורמה נגד אתרי אינטרנט. הסיבה? הירידה בהכנסות המדיה המסורתית שבבעלות מרדוק וחבריו מביאה אותו למסקנה כי אתרי אינטרנט אחרים צריכים לשלם על החדשות שמיוצרות על ידי תאגידו. אולם, השמועה האחרונה כאילו מרדוק עשה יד אחת עם מיקרוסופט וקיבל כסף על מנת להסיר את אתריו ממנוע החיפוש גוגל היא מופרכת ומצחיקה.

בעוד שפרשנים מצביעים שהנזק העיקרי יגרם למרדוק ולא לגוגל אני חושב על כיוון אחר: גם אם נניח שמרדוק יבקש מגוגל את הסרת אתרו, האם גוגל בכלל חייבים? גוגל מחזיקה אינדקס אוטומאטי שמיועד לאגור את כל המידע בעולם ולאפשר לחפש. עצם האינדוקס אינו מהווה הפרת זכויות יוצרים של מרדוק (שכן אין תוכן חלופי) ולא פוגע בערך הכלכלי של מרדוק. בעצם, כל המודל העסקי של מנועי החיפוש מבוסס על השימוש ההוגן, אותו חריג לזכויות יוצריםיש שיאמרו זכות לכשעצמה, בש"א 11646/08 פרמייר ליג נ' פלוני) שמאפשר את התקדמות הטכנולוגיה והחדשנות (וראו את הפסיקה בנושא Perfect 10 v. Google לדוגמא). גם אם מרדוק יורה על חסימת הזחלן של גוגל בקובץ robots.txt, עדיין לגוגל, מבחינת זכויות יוצרים, תהיה הזכות לאנדקס את האתר (ולשאלה של אחריות לפי חוק המחשבים האמריקאי, לפחות, ראו Snow v. DirecTV) ולשמור עותקים לצורך שימוש הוגן; מרדוק, מנגד, ישאר תקוע עם יחס לא ידידותי ויצא כמי שמתנגד לטכנולוגיה.

גוגל לא צריכה את הסכמתו של מרדוק לאנדקס אותה. אם כבר, הוא יצטרך את האינדוקס הזה לעתיד.

19 thoughts on “שימוש הוגן והסרה מגוגל: האם בכלל יש מקום לrobots.txt?

  1. מבחינה טכנולוגית, כל דרדק יודע שקל יחסית לחסום את גוגל גם בלי robots.txt. או בכלל לחסום crawlers באתרים גדולים.

  2. ו?
    נניח אני חוסם את האייג'נט, את הIP ואת כל מה שלא מריץ ג'אווהסקריפט. אז? השאלה האם מה שגוגל תבצע יעבור על החוק או לא.

    אני בספק רב אם מרדוק ישקיע את כל כספו כדי לחסום את גוגל, ואם לגוגל יש אינטרס להמשיך לאנדקס (כמו עמודי פייסבוק שלא מאונדקסים, ויש מיליארדים כאלה). אני פשוט תוהה מה הוא יוכל לעשות נגד זה.

  3. לגוגל אינטרס לשמור על robots.txt. זהו איננו מנגנון של חסימה אלא הודעה לרובוט: "זה לא מעניין". חסימת הרובוטים בצורה קשיחה אינה מסובכת במיוחד.
    חוקי או לא, אם גוגל יעקפו את המחסום, מרדוק יתבע. זאת צורת המחשבה שלו. חוקי או לא ינבע מכמות עורכי הדין, יכולתם ומיקום בית המשפט.
    אני בספק אם גוגל ינסו לבצע שינוי כלשהו במנגנוני החיפוש שלהם, הם ישאירו את הכדור בידיו של מרדוק.

  4. רן בר זיק –
    אני די בטוח שגוגל כבר עכשיו מבצעים סריקות של אתרים תוך שימוש בכתובות IP שלא מזוהות איתם, ועם זיוף הuser-agent בשביל להיראות כמו אדם רגיל. הם צריכים לעשות זאת בשביל לוודא שאתרים לא דוחפים תוכן מיוחד לגוגל ששונה מהתוכן שמוצג למשתמשים רגילים – http://www.google.com/support/webmasters/bin/answer.py?answer=66355
    גם google toolbar יכול לשמש לדברים כאלה, בסופו של דבר אם גוגל רוצים לאנדקס אותך הם יעשו זאת.

  5. ראשית, דומני והבעיה העיקרית היא מול השירותים של גוגל שמעתיקים תכנים שלמים ולאו דווקא כנגד עצם האידוקס. לא כך?
    לגוף העניין, אם קראוולר נכנס לשרת שלי כשהוא יודע שהוא אינו רצוי ומתחיל לצרוך את משאביו, האם אין בעצם הכניסה בעיתיות? ובמילים אחרות, האם ניתן לתבוע מזה שהציץ לחדר השינה שלי את עלויות המעלית?

  6. לגוגל יש אינטרס מאוד גדול בrobots.txt. אם אתה זוכר בתחילת מנועי החיפוש היתה טענה כאילו שהם גונבים רוחב פס. הקובץ הזה מהווה פשרה בין גוגל לבעלי האתרים שבעזרתו בעלי האתר יכולים נתב את גוגל לסרוק רק מידע שהם יכולים טכנולוגית לתת לו לסרוק.
    אם גוגל תתחיל להתעלם מהקובץ הזה, הרבה בעלי אתרים יעיפו אותה כמו שמעיפים כל ספאמר כי לאף אחד אין כח לכתוב ממש קוד באתר בשביל לשלוט לאן גוגל יכול להגיע.

    הענין עם מרדוק יותר מורכב ממה שמציגים. קראתי בטקראנץ שמה שמרדוק רוצה אינו חסימה של מנועי חיפוש אלא מנגנון שיהיה יותר סלקטיבי מהרובוטס ומייקרוסופט מוכנה לבוא לקראתו.
    לפי מה שאני מבין הבעיה של מרדוק ממוקדת בנתונים כלכליים שעבורם מספיקה הכותרת והתמצית שגוגל מציג. אנשים שמסתפקים במידע ברמה הזו בכלל לא נכנסים לאתרים הכלכליים.

    אני בכלל הייתי חושב 300000 פעם לפני שהייתי אומר שמרדוק לא יודע מה הוא עושה. הבן אדם נמצא בתחום המדיה בערך מליון שנה עם כל התהפוכות הטכנולוגיות והתרבותיות שעברו על התחום הזה. במקרה הגרוע הוא מנסה פשוט לעשות הפרד ומשול.

  7. יהונתן,
    דווקא מנועי החיפוש בקטע הזה הם די הוגנים. אני עוקב אחרי הלוגים אצלי ורואים במפורש איזה רובוטים סורקים את האתר, ויש לכל אחד מהם גם לינק לאתר שממנו נשלח הרובוט (גוגל, בינג, יאהו וכו').
    נכון, גוגל יכולים להתחכם, אבל מצד שני, מספיק שאחד או 2 יזהו שגוגל עושה טריקים כדי לסרוק אותם כדי להראות את זה בציבור וגוגל לא תצא מזה טוב. עד היום הם לא עשו זאת ולדעתי האישית אני בספק אם הם יעשו זאת.

    astupidog: תתפלא, אבל הכתובות שמגיעים מהם הרובוטים מגוגל דווקא בהחלט רשומים כרובוטים אצל ה-registrars השונים.

  8. היחידים שמריצים אינדקס רציני על האתר שלי הם גוגל, ובאופן מוזר הם גם 10-15% מהבקשות. נראה שהבלוג שלי מעניין את גוגל יותר מאשר את האנשים…

    מיקרובינג מבקרים מדי פעם, מגיעים אלי משום מה דרך המון חיפושים פיקטיביים שלא קשורים לכלום אבל כמעט אף פעם לא עם חיפושים של אנשים אמיתיים (לפחות לא נראה לי שהם כאלו) ובמילים אחרות, אני לא סופר אותם. אם גוגל מחר מתים ממגיפה מסתורית, אני חוזר לאלטה-ויסטה :)

    לבסוך מילה על מרדוק – העיתונית שלו מוטים כל כך שקשה לי לקרוא להם עיתונות מקצועית. מחבינתי אם אפשר היה לפלטר את גוגל חדשות ולבקש שיתן תוצאות העיתונים שאינם בבעלותו היה יכול להיות פיצ'ר ענק.

  9. עירא,
    כאן גוגל הוא פחות מ1% מהבקשות, אבל הטראפיק שמגיע מגוגל הוא איכותי ביותר וכולל גם אנשים שמחפשים "בנות מתנשקות" אבל גם "הסדרים חוקתיים שמשפיעים על זכויות".

    חץ ומרק,
    למיטב זכרוני, השנה היא 2009 ובעיית הטראפיק לא כבדה כמו בתקופה בה התחילו עם רובוטס.טקסט.

    יוסי,
    גם שם יש שימוש הוגן.

  10. ישמתי httpbl באוגדן בגלל שהharverters הפילו את כל האתר כאשר הם עברו עליו בשתי וערב. זה אולי מקרה קיצוני אבל יש עלויות שקשורות במנועי חיפוש שלא בטוח שאתה רוצה לשלם. דוגמא אחרת – מישהו שמריץ אתר על נsmartphone שלו.
    יש לגוגל לפחות עוד שני כלים שנותנים לבעלי אתרים שליטה על זמני ותדירות החיפוש.

  11. לאסור על הזחלן של גוגל להיכנס לאתר פלוני שקול לבקשה מפלוני שלא ייכנס לאתר שלך.

    אין לזה שום תוקף והצדקה. אם אני יכול להיכנס לאתר ידנית ולתת REVIEW לאתר מסויים, אז גם גוגל עושים אותו דבר, רק בהיקף הרבה יותר גדול ואוטומטי.

  12. דווקא מבחינה משפטית גוגל עשויים להיות בבעיה אם ימשיכו לסרוק את האתרים של מרדוק גם אחרי השינוי ב-robots.txt, והבעיה היא לא מכיוון זכויות יוצרים דווקא*, בכך שהכניסה של הרובוט בלא הסכמה עשויה להצמיח עילה בגין הסגת גבול במטלטלין, וכבר מקרים כאלה בארה"ב, למשל המקרה של *ebay, שם נקבע שבכך שהכניסה של הרובוט לאתר צורך משאבי מחשוב נגרם נזק ונוצרת עוולה.

    http://en.wikipedia.org/wiki/Trespass_to_chattels#Beyond_Spam:_Screen_Scraping_and_Data_Harvesting

  13. יהונתן,
    זו טענה מעניינת, אני לתומי הבנתי ששימוש הוגן הוא בהתבסס על הנחת עבודה כי הבעלים היו מרשים זאת, אם אני לא מרשה לבן אדם לעשות שימוש במעלית שלי הוא יוכל לטעון שזה שימוש הוגן?
    אם אני משאיר מחשב ברחוב (שרת) עם שלט האומר שהמידע בו פתוח לכל דורש (חיבור לרשת) אז שימוש הוגן הוא לבוא ולהציץ בו. אבל אם אני מודיע לאדם ספציפי שהוא אינו רשאי לעשות במחשבי שימוש, למה טענת שימוש הוגן רלוונטית?

  14. יוסי,
    בדיוק ההפך: שימוש הוגן נועד לאפשר לך לעשות פעולות כאשר הסכמת בעלי הזכות היא לא משהו שאתה יכול לעשות, היא לא כלכלית או לא רצויה. לדוגמא: מתיחת ביקורת על יצירה או ציטוטים ממנה כדי להדגים כמה היא לא טובה; בעל היצירה לא היה רוצה ביקורת, אבל, הוא מקבל אותה כך.

  15. Hi Yonatan,

    First allow me apologize for commenting out in english on a hebrew based blog.

    All websites have been deemed under US to be under specific terms of use.
    Those terms of use, in such and such court cases, have been deemed to be equivalent to traditional software EULAs.
    All of which by itself, just means the TOU are equivalent to EULA which are non enforceable.

    However, in the last 2 years US courts and European courts have honoured EULAs as they do any palimentrely law.
    i.e. Recently courts have given software makers the ability to seek legal remedy for agreements they themselves have drawn up.
    A recent example which comes to mind is that of Apple and their EULA to disallow installing Mac OS on non Mac Machines.
    Courts in both the US and Europe have fined in favour of Apple due to their breached EULA.

    So, Couple TOUs being legally equivalent to EULAs with EULAs being legally equivalent to state laws, and you wind up with a pretty scary scenario for google if it were to ignore the TOUs of any website.

    Sincerely,
    — Justin Angel

Comments are closed.