שימוש הוגן והסרה מגוגל: האם בכלל יש מקום לrobots.txt?

Posted on 24 בנובמבר 2009 by יהונתן קלינגר

רופרט מרדוק, איל תקשורת מסורתית, יצא בחודשים האחרונים למלחמת חורמה נגד אתרי אינטרנט. הסיבה? הירידה בהכנסות המדיה המסורתית שבבעלות מרדוק וחבריו מביאה אותו למסקנה כי אתרי אינטרנט אחרים צריכים לשלם על החדשות שמיוצרות על ידי תאגידו. אולם, השמועה האחרונה כאילו מרדוק עשה יד אחת עם מיקרוסופט וקיבל כסף על מנת להסיר את אתריו ממנוע החיפוש גוגל היא מופרכת ומצחיקה.

בעוד שפרשנים מצביעים שהנזק העיקרי יגרם למרדוק ולא לגוגל אני חושב על כיוון אחר: גם אם נניח שמרדוק יבקש מגוגל את הסרת אתרו, האם גוגל בכלל חייבים? גוגל מחזיקה אינדקס אוטומאטי שמיועד לאגור את כל המידע בעולם ולאפשר לחפש. עצם האינדוקס אינו מהווה הפרת זכויות יוצרים של מרדוק (שכן אין תוכן חלופי) ולא פוגע בערך הכלכלי של מרדוק. בעצם, כל המודל העסקי של מנועי החיפוש מבוסס על השימוש ההוגן, אותו חריג לזכויות יוצרים (ויש שיאמרו זכות לכשעצמה, בש"א 11646/08 פרמייר ליג נ' פלוני) שמאפשר את התקדמות הטכנולוגיה והחדשנות (וראו את הפסיקה בנושא Perfect 10 v. Google לדוגמא). גם אם מרדוק יורה על חסימת הזחלן של גוגל בקובץ robots.txt, עדיין לגוגל, מבחינת זכויות יוצרים, תהיה הזכות לאנדקס את האתר (ולשאלה של אחריות לפי חוק המחשבים האמריקאי, לפחות, ראו Snow v. DirecTV) ולשמור עותקים לצורך שימוש הוגן; מרדוק, מנגד, ישאר תקוע עם יחס לא ידידותי ויצא כמי שמתנגד לטכנולוגיה.

גוגל לא צריכה את הסכמתו של מרדוק לאנדקס אותה. אם כבר, הוא יצטרך את האינדוקס הזה לעתיד.

19 thoughts on “שימוש הוגן והסרה מגוגל: האם בכלל יש מקום לrobots.txt?”

רן בר-זיק 24 בנובמבר 2009

מבחינה טכנולוגית, כל דרדק יודע שקל יחסית לחסום את גוגל גם בלי robots.txt. או בכלל לחסום crawlers באתרים גדולים.
יהונתן 24 בנובמבר 2009

ו?
נניח אני חוסם את האייג'נט, את הIP ואת כל מה שלא מריץ ג'אווהסקריפט. אז? השאלה האם מה שגוגל תבצע יעבור על החוק או לא.

אני בספק רב אם מרדוק ישקיע את כל כספו כדי לחסום את גוגל, ואם לגוגל יש אינטרס להמשיך לאנדקס (כמו עמודי פייסבוק שלא מאונדקסים, ויש מיליארדים כאלה). אני פשוט תוהה מה הוא יוכל לעשות נגד זה.
גילפ 24 בנובמבר 2009

לגוגל אינטרס לשמור על robots.txt. זהו איננו מנגנון של חסימה אלא הודעה לרובוט: "זה לא מעניין". חסימת הרובוטים בצורה קשיחה אינה מסובכת במיוחד.
חוקי או לא, אם גוגל יעקפו את המחסום, מרדוק יתבע. זאת צורת המחשבה שלו. חוקי או לא ינבע מכמות עורכי הדין, יכולתם ומיקום בית המשפט.
אני בספק אם גוגל ינסו לבצע שינוי כלשהו במנגנוני החיפוש שלהם, הם ישאירו את הכדור בידיו של מרדוק.
astupidog 24 בנובמבר 2009

רן בר זיק –
אני די בטוח שגוגל כבר עכשיו מבצעים סריקות של אתרים תוך שימוש בכתובות IP שלא מזוהות איתם, ועם זיוף הuser-agent בשביל להיראות כמו אדם רגיל. הם צריכים לעשות זאת בשביל לוודא שאתרים לא דוחפים תוכן מיוחד לגוגל ששונה מהתוכן שמוצג למשתמשים רגילים – http://www.google.com/support/webmasters/bin/answer.py?answer=66355
גם google toolbar יכול לשמש לדברים כאלה, בסופו של דבר אם גוגל רוצים לאנדקס אותך הם יעשו זאת.
יוסי 24 בנובמבר 2009

ראשית, דומני והבעיה העיקרית היא מול השירותים של גוגל שמעתיקים תכנים שלמים ולאו דווקא כנגד עצם האידוקס. לא כך?
לגוף העניין, אם קראוולר נכנס לשרת שלי כשהוא יודע שהוא אינו רצוי ומתחיל לצרוך את משאביו, האם אין בעצם הכניסה בעיתיות? ובמילים אחרות, האם ניתן לתבוע מזה שהציץ לחדר השינה שלי את עלויות המעלית?
מרק ק. 24 בנובמבר 2009

לגוגל יש אינטרס מאוד גדול בrobots.txt. אם אתה זוכר בתחילת מנועי החיפוש היתה טענה כאילו שהם גונבים רוחב פס. הקובץ הזה מהווה פשרה בין גוגל לבעלי האתרים שבעזרתו בעלי האתר יכולים נתב את גוגל לסרוק רק מידע שהם יכולים טכנולוגית לתת לו לסרוק.
אם גוגל תתחיל להתעלם מהקובץ הזה, הרבה בעלי אתרים יעיפו אותה כמו שמעיפים כל ספאמר כי לאף אחד אין כח לכתוב ממש קוד באתר בשביל לשלוט לאן גוגל יכול להגיע.

הענין עם מרדוק יותר מורכב ממה שמציגים. קראתי בטקראנץ שמה שמרדוק רוצה אינו חסימה של מנועי חיפוש אלא מנגנון שיהיה יותר סלקטיבי מהרובוטס ומייקרוסופט מוכנה לבוא לקראתו.
לפי מה שאני מבין הבעיה של מרדוק ממוקדת בנתונים כלכליים שעבורם מספיקה הכותרת והתמצית שגוגל מציג. אנשים שמסתפקים במידע ברמה הזו בכלל לא נכנסים לאתרים הכלכליים.

אני בכלל הייתי חושב 300000 פעם לפני שהייתי אומר שמרדוק לא יודע מה הוא עושה. הבן אדם נמצא בתחום המדיה בערך מליון שנה עם כל התהפוכות הטכנולוגיות והתרבותיות שעברו על התחום הזה. במקרה הגרוע הוא מנסה פשוט לעשות הפרד ומשול.
חץ בן חמו 24 בנובמבר 2009

יהונתן,
דווקא מנועי החיפוש בקטע הזה הם די הוגנים. אני עוקב אחרי הלוגים אצלי ורואים במפורש איזה רובוטים סורקים את האתר, ויש לכל אחד מהם גם לינק לאתר שממנו נשלח הרובוט (גוגל, בינג, יאהו וכו').
נכון, גוגל יכולים להתחכם, אבל מצד שני, מספיק שאחד או 2 יזהו שגוגל עושה טריקים כדי לסרוק אותם כדי להראות את זה בציבור וגוגל לא תצא מזה טוב. עד היום הם לא עשו זאת ולדעתי האישית אני בספק אם הם יעשו זאת.

astupidog: תתפלא, אבל הכתובות שמגיעים מהם הרובוטים מגוגל דווקא בהחלט רשומים כרובוטים אצל ה-registrars השונים.
עירא 24 בנובמבר 2009

היחידים שמריצים אינדקס רציני על האתר שלי הם גוגל, ובאופן מוזר הם גם 10-15% מהבקשות. נראה שהבלוג שלי מעניין את גוגל יותר מאשר את האנשים…

מיקרובינג מבקרים מדי פעם, מגיעים אלי משום מה דרך המון חיפושים פיקטיביים שלא קשורים לכלום אבל כמעט אף פעם לא עם חיפושים של אנשים אמיתיים (לפחות לא נראה לי שהם כאלו) ובמילים אחרות, אני לא סופר אותם. אם גוגל מחר מתים ממגיפה מסתורית, אני חוזר לאלטה-ויסטה :)

לבסוך מילה על מרדוק – העיתונית שלו מוטים כל כך שקשה לי לקרוא להם עיתונות מקצועית. מחבינתי אם אפשר היה לפלטר את גוגל חדשות ולבקש שיתן תוצאות העיתונים שאינם בבעלותו היה יכול להיות פיצ'ר ענק.
יהונתן 24 בנובמבר 2009

עירא,
כאן גוגל הוא פחות מ1% מהבקשות, אבל הטראפיק שמגיע מגוגל הוא איכותי ביותר וכולל גם אנשים שמחפשים "בנות מתנשקות" אבל גם "הסדרים חוקתיים שמשפיעים על זכויות".

חץ ומרק,
למיטב זכרוני, השנה היא 2009 ובעיית הטראפיק לא כבדה כמו בתקופה בה התחילו עם רובוטס.טקסט.

יוסי,
גם שם יש שימוש הוגן.
Pingback: Shorts: Seth Godin and others on Rupert Murdoch « The Comparative Advantage
מרק ק. 25 בנובמבר 2009

ישמתי httpbl באוגדן בגלל שהharverters הפילו את כל האתר כאשר הם עברו עליו בשתי וערב. זה אולי מקרה קיצוני אבל יש עלויות שקשורות במנועי חיפוש שלא בטוח שאתה רוצה לשלם. דוגמא אחרת – מישהו שמריץ אתר על נsmartphone שלו.
יש לגוגל לפחות עוד שני כלים שנותנים לבעלי אתרים שליטה על זמני ותדירות החיפוש.
שמוליק 25 בנובמבר 2009

לאסור על הזחלן של גוגל להיכנס לאתר פלוני שקול לבקשה מפלוני שלא ייכנס לאתר שלך.

אין לזה שום תוקף והצדקה. אם אני יכול להיכנס לאתר ידנית ולתת REVIEW לאתר מסויים, אז גם גוגל עושים אותו דבר, רק בהיקף הרבה יותר גדול ואוטומטי.
שי ש 25 בנובמבר 2009

דווקא מבחינה משפטית גוגל עשויים להיות בבעיה אם ימשיכו לסרוק את האתרים של מרדוק גם אחרי השינוי ב-robots.txt, והבעיה היא לא מכיוון זכויות יוצרים דווקא*, בכך שהכניסה של הרובוט בלא הסכמה עשויה להצמיח עילה בגין הסגת גבול במטלטלין, וכבר מקרים כאלה בארה"ב, למשל המקרה של *ebay, שם נקבע שבכך שהכניסה של הרובוט לאתר צורך משאבי מחשוב נגרם נזק ונוצרת עוולה.

http://en.wikipedia.org/wiki/Trespass_to_chattels#Beyond_Spam:_Screen_Scraping_and_Data_Harvesting
יוסי 25 בנובמבר 2009

יהונתן,
זו טענה מעניינת, אני לתומי הבנתי ששימוש הוגן הוא בהתבסס על הנחת עבודה כי הבעלים היו מרשים זאת, אם אני לא מרשה לבן אדם לעשות שימוש במעלית שלי הוא יוכל לטעון שזה שימוש הוגן?
אם אני משאיר מחשב ברחוב (שרת) עם שלט האומר שהמידע בו פתוח לכל דורש (חיבור לרשת) אז שימוש הוגן הוא לבוא ולהציץ בו. אבל אם אני מודיע לאדם ספציפי שהוא אינו רשאי לעשות במחשבי שימוש, למה טענת שימוש הוגן רלוונטית?
יהונתן 25 בנובמבר 2009

יוסי,
בדיוק ההפך: שימוש הוגן נועד לאפשר לך לעשות פעולות כאשר הסכמת בעלי הזכות היא לא משהו שאתה יכול לעשות, היא לא כלכלית או לא רצויה. לדוגמא: מתיחת ביקורת על יצירה או ציטוטים ממנה כדי להדגים כמה היא לא טובה; בעל היצירה לא היה רוצה ביקורת, אבל, הוא מקבל אותה כך.
Justin Angel 9 בדצמבר 2009

Hi Yonatan,

First allow me apologize for commenting out in english on a hebrew based blog.

All websites have been deemed under US to be under specific terms of use.
Those terms of use, in such and such court cases, have been deemed to be equivalent to traditional software EULAs.
All of which by itself, just means the TOU are equivalent to EULA which are non enforceable.

However, in the last 2 years US courts and European courts have honoured EULAs as they do any palimentrely law.
i.e. Recently courts have given software makers the ability to seek legal remedy for agreements they themselves have drawn up.
A recent example which comes to mind is that of Apple and their EULA to disallow installing Mac OS on non Mac Machines.
Courts in both the US and Europe have fined in favour of Apple due to their breached EULA.

So, Couple TOUs being legally equivalent to EULAs with EULAs being legally equivalent to state laws, and you wind up with a pretty scary scenario for google if it were to ignore the TOUs of any website.

Sincerely,
— Justin Angel
Pingback: זכויות יוצרים באינטרנט | גוגל-ספרה
Pingback: יהונתן קלינגר | זנות כמודל עסקי | מעריב, קובלר רוס ומודל החינם ‏ :: Intellect or Insanity‏
Pingback: יהונתן קלינגר | הנייטרליות של הכסף, או מדוע לסלקום מגיע 50% מההכנסות של רון מיברג ‏ :: Intellect or Insanity‏