Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124

你或許已經注意到,現在許多網站的內容,特別是新聞文章或部落格,都可能在搜尋引擎的「人工智慧總覽」或一些新興的「人工智慧助理」中被摘要呈現。這聽起來很方便,但你是否曾想過,這些人工智慧是如何取得這些內容的?而內容的創作者又該如何確保自己的權益?最近,這場關於網路內容抓取權限的戰火,就在人工智慧公司 Perplexity 和全球知名的網路基礎設施服務商 Cloudflare 之間激烈開打。
這場爭議不只關乎兩家公司的商業利益,更深刻觸及了人工智慧時代下,網路內容的版權歸屬、數位經濟模式的未來,以及網路世界的行為規範。本文將帶你深入了解這場「數位內容保衛戰」的來龍去脈,解析雙方的論點,並探討它對你我日常使用的網路、內容產業乃至未來立法的深遠影響。

首先,我們來看看人工智慧公司 Perplexity 是怎麼說的。Perplexity 聲稱,他們的「人工智慧助理」與你我熟知的傳統網路爬蟲,也就是那些會預先大量掃描並索引網頁內容的程式,有著本質上的不同。Perplexity 表示,他們的系統採用的模式是 「按需獲取」 (On-Demand Fetching)。

什麼是「按需獲取」呢?簡單來說,就是只有當使用者提出特定問題時,Perplexity 的人工智慧助理才會即時地去擷取相關內容,並將其摘要給使用者。他們認為,這種「用時才抓」的方式,更像是你我在瀏覽器中直接點擊連結閱讀內容,而不是像傳統爬蟲那樣「地毯式」地預先抓取整個網路。因此,Perplexity 執行長 阿拉文德·斯里尼瓦斯 認為,他們不應該受到與傳統爬蟲相同的限制,甚至指控 Cloudflare 在區分合法與惡意流量上有所失誤,導致他們的服務被過度封鎖,影響了正常的使用者體驗。
除了上述辯解,Perplexity 還提出以下幾點:
面對 Perplexity 的說法,網路基礎設施巨頭 Cloudflare 可不這麼認為。他們公開指控 Perplexity 涉嫌進行 「隱蔽抓取」 (Covert Scraping)。 Cloudflare 的執行長 馬修·普林斯 表示,他們的客戶不斷投訴 Perplexity 規避網站防禦機制,並且透過自身的技術測試,證實了 Perplexity 的行為模式。
Cloudflare 觀察到,Perplexity 的爬蟲程式在被網站偵測並封鎖後,會採取一系列規避手段,試圖掩蓋其真實身份並繼續抓取內容,這些手段包括:
Cloudflare 強調,這些行為明顯是為了規避網站設定的 robots.txt 檔案(這是一個網站用來指示爬蟲哪些內容可以抓取、哪些不行的標準檔案)以及其 網站應用程式防火牆 (Web Application Firewall, 簡稱 WAF) 的防禦規則。由於 Perplexity 過去也曾多次被指控規避付費牆、忽略 robots.txt 規則、內容剽竊及錯誤引述,Cloudflare 已將 Perplexity 從其「已驗證爬蟲」名單中移除,並採取更積極的技術措施來阻擋這類隱蔽抓取行為。
| Perplexity的辯解 | Cloudflare的指控 |
|---|---|
| 按需獲取模式,提升用戶體驗 | 進行隱蔽抓取,規避網站防禦 |
| 減少不必要的數據存取,降低伺服器負擔 | 偽裝使用者代理,變更網路位址 |
| 遵守更多隱私保護規範,確保用戶數據安全 | 變更自治系統網路編號,增加追蹤難度 |
這場爭議的背後,是內容出版商在人工智慧大規模內容抓取下所面臨的嚴峻挑戰。你想想看,如果人工智慧搜尋或人工智慧助理可以直接提供你答案,甚至摘要文章內容,那誰還會點擊進入原始網站呢?這無疑會導致網站的流量大幅流失,進而嚴重衝擊出版商賴以生存的廣告收益或訂閱模式。

Cloudflare 執行長 馬修·普林斯 直言,人工智慧對出版商構成了 「生存威脅」。為了幫助這些受影響的網站,Cloudflare 不再只是被動防禦,而是積極地試圖主導產業規範。他們推出了新的技術與服務,目的在於讓網站擁有者能夠更有效地管理人工智慧流量。這些措施包括:
此外,Cloudflare 還提出以下應對策略:
| Cloudflare的應對措施 | 影響與預期效果 |
|---|---|
| 預設封鎖人工智慧爬蟲 | 減少未授權數據抓取,保護網站內容和流量 |
| 建立「付費抓取」市場 | 創造新的收入來源,促進合法數據使用 |
| 提供管理工具與合作 | 增強網站擁有者對AI流量的控制,保障內容創作者權益 |
當我們談到人工智慧對網路商業模式的衝擊時,不能不提 Google。Google 自己也推出了「人工智慧總覽」這類功能,直接在搜尋結果頁面提供答案框,顯示由人工智慧生成的摘要內容。儘管 Google 強調這些摘要會註明來源,但許多內容出版商仍然擔心,這會進一步瓜分他們原本的網站流量與廣告收益。畢竟,如果你已經在搜尋結果頁面上獲得了所需的資訊,你還有多大機率會點擊原始網站呢?
同時,Google 也在積極開發與發布更多AI相關產品,這些產品可能進一步改變用戶的瀏覽和資訊獲取方式。
Cloudflare 執行長 馬修·普林斯 對此表達了深切的憂慮,他公開呼籲 Google 應該提供一個獨立的選項,讓網站可以選擇是否允許其內容被用於 Google 的「人工智慧總覽」。他甚至暗示,如果 Google 不願配合,不排除會訴諸立法途徑來解決這個問題。這顯示了科技巨頭之間的競爭與合作,未來將越來越受到政府監管與政策制定的影響。這場科技公司之間的技術與倫理交鋒,最終可能會上升到國家層面的法律規範。
| Google的AI產品 | 潛在影響 |
|---|---|
| 人工智慧總覽 | 提供即時摘要內容,影響網站流量 |
| 智能搜索算法 | 提升搜索準確性,改變用戶行為 |
| AI整合產品線 | 擴大市場影響力,增強企業競爭力 |
Perplexity 與 Cloudflare 的爭議並非孤例。事實上,Perplexity 此前已有多次被媒體,例如 BBC、Wired 等,指控規避付費牆、忽略 robots.txt 規則、內容剽竊及錯誤引述的紀錄。這突顯了人工智慧公司在獲取大量網路數據以訓練模型時,與內容創作者保護其內容權益之間持續存在的拉鋸戰。
展望未來,這場爭議將加速各方對於人工智慧數據使用倫理規範、技術標準以及法律框架的探討。我們可以看到幾個可能的趨勢:
| 未來趨勢 | 描述 |
|---|---|
| 技術進步與防禦升級 | 推出更先進的技術來識別和管理人工智慧流量,保護網站內容。 |
| 產業協商與新協議 | 建立新的產業標準或協議,平衡人工智慧發展與內容創作者權益。 |
| 立法與政策介入 | 制定相關法律規範,明確人工智慧公司獲取和使用網路內容的界線。 |
總之,Perplexity 與 Cloudflare 之間的這場「人工智慧內容抓取」爭議,不只關乎技術層面的攻防,更是人工智慧浪潮下網路內容權益與商業模式重塑的縮影。這場由技術主導的衝突,正迫使所有網路參與者重新審視內容價值、數據所有權與網路行為規範。未來,無論是透過技術創新、產業協商還是法規介入,建立一套能平衡人工智慧發展與內容創作者權益的新秩序,將是數位經濟持續繁榮的關鍵挑戰。
【免責聲明】本文僅為教育與知識性說明,內容不構成任何投資建議,亦不鼓勵或建議任何形式的投資行為。所有資訊均基於公開資料整理,讀者應自行判斷並承擔風險。
Q:什麼是人工智慧助理的「按需獲取」模式?
A:「按需獲取」模式指的是只有當使用者提出具體問題時,AI助理才會即時擷取相關內容,並提供摘要,避免預先大量抓取數據。
Q:Cloudflare為什麼要封鎖Perplexity的爬蟲?
A:Cloudflare指控Perplexity的爬蟲進行「隱蔽抓取」,規避網站防禦機制,並採取不同手段隱藏其真實身份,影響正常的使用者體驗。
Q:未來人工智慧與內容創作者之間的關係會如何發展?
A:未來可能通過技術創新、產業協商與立法等方式,建立平衡人工智慧發展與內容創作者權益的新秩序,以促進數位經濟的持續繁榮。