2007/10/05

頁庫存檔(cached)的風險

這是一則網路應用常識的小筆記。

各大搜尋引擎每天派出成千上萬的蜘蛛和機器人,無時無刻在茫茫網海裡搜尋資訊,大至藍鯨,小到蜉蝣,無不蒐羅俱盡。這些資訊被蜘蛛和機器人搬回中央主機後,便存成一個一個稱為〝cached〞的檔案,例如 Google 的「頁庫存檔」。這樣,當使用者在搜尋引擎以關鍵字查找資料時,搜尋引擎即可很快的從〝cached〞提取出搜尋結果。

〝cached〞的行為,以法律術語來說,是「搜尋引擎業者利用軟體搜尋機器人,未經他人同意,而將 Internet 上他人之著作,重製到其伺服器中儲存」。不過,到這個階段為止,這種行為還算「合理使用」,並無問題。

然而,若是搜尋引擎業者直接將〝cached〞公開讓使用者下載的話,又如何呢?例如 Google 在每筆搜尋條項下都會放上一個「頁庫存檔」的超連結(Yahoo 稱〝庫存頁面 〞),從這個超連結進去,來到的不是該筆文件的實存位址,而是搜尋引擎業者伺服器〝cached〞的檔案位置。這種行為是否還算「合理使用」就有爭議了。

為了避免侵害著作權的風險,現在搜尋引擎業者都會在〝cached〞的頁面上標示權利宣告,並且不嵌入任何商業廣告。不過,並不意味就完全能免除責任。

例如下面這一個問題。

正如 Yahoo 對〝庫存頁面 〞下的定義:

因為所有的網站及網址並不是永遠存在著,或者內容永遠不變,所以有時好不容易找到所需要的資料,卻發現這個網站無法連結了,或者這個網址已經不存在了。

庫存頁面的功能就是將所有的網頁都儲存下來,因此,若您找到資料,網頁卻無法連結時,就可以點選「庫存頁面」來觀看先前儲存的網頁資料。

看出問題在哪裡了嗎?

若著作人在發表文件後,基於任何理由事後作有意的刪除,或者事後才限制閱讀權限時,如果這筆文件已被〝cached〞了,那麼,〝cached〞可是不會管這麼多的,在其他使用者發現實存位址無效或有權限控管時,仍然可以經由〝cached〞得到他要的資訊。這樣,使用者有意的刪除或限制權限的動作就毫無意義了。進一步而言,若是刪除或限制是基於個人隱私、商業利益,甚至國家安全的話,那〝cached〞可能造成的風險恐怕就不容輕忽了。

搜尋引擎業者伺服器的〝cached〞文件並不會永久儲存,但存在期間多久?沒有人知道。但是,〝cached〞的存在,大家最好要知道。

沒有留言:

張貼留言