IAB Tech Lab提案協助出版商掌控LLM數據爬取問題
隨著人工智能技術的高歌猛進,尤其是大型語言模型(LLM)的應用愈加廣泛,傳統出版業的盈利模式面臨挑戰。這些模型通常會自動爬取大量網絡內容,以訓練其生成能力。然而,這樣的爬取在未經允許的情況下,對於內容創作者和出版商而言是巨大威脅,因為他們無法對其內容的使用進行有效的控制,也無法從中獲得經濟利益。
IAB Tech Lab的解決方案
針對這一問題,IAB Tech Lab提出了一項新的技術提案——建立一個「LLM內容接收API框架」,以幫助出版商更好地控制其內容的被爬情況。這一倡議旨在與多家出版商和邊緣計算公司共同合作,創建相關技術標準,從而促使AI公司為使用這些內容進行合理的補償。
目前,已有約十多家出版商加入了這個工作組,第一次會議將於7月23日在紐約市召開。此外,雲端邊緣計算公司Cloudflare和Fastly也計劃參與這次提案的討論。IAB Tech Lab的CEO安東尼·卡茨爾(Anthony Katsur)表示,他們正在審核一份初期草案,計劃秋季將此框架引入市場。這一框架涉及如何協調出版商、技術供應商和平台之間對相同標準的構建。
挑戰與機遇
雖然此提案讓出版商對未來抱有期待,但如何吸引AI公司參與其中仍是一大挑戰。不少出版業經理擔心AI公司不會願意建立合理的補償或歸屬模型。
卡茨爾強調,要實現LLM內容API的有效運作,所有利益相關者必須共同參與。他認為,出版商與邊緣計算公司的聯合將能夠減少LLM爬蟲的基礎設施成本,這或許會吸引AI公司參與其中。他表示,IAB Tech Lab將積極推動這一技術框架,試圖解決目前的困擾。
技術細節
根據提案,出版商需要與LLM供應商簽訂合同,明確何種類型的內容可被存取,然後才能設置爬蟲條款。出版商可以將內容分層,例如日常文章、檔案內容及屬於高階層的調查性報道或專訪等。
藉由IAB Tech Lab的模型,會有多種付款方式選擇,包括每次爬取付費、無限制訪問以及每次查詢付費,後者是IAB Tech Lab推薦的模式。同時,還包含日誌和報告組件,確保出版商能正確地向LLM供應商開票。
此外,IAB Tech Lab也提出了一種「請求處理」過程,即將內容進行標記,以確保其來源資訊的準確性,並明確顯示需支付補償的對象。
對品牌的影響
對於涉及品牌的內容,原始來源的標記尤其重要,這將有助於提高品牌在AI生成回應中的準確度,避免誤導消費者。此外,若AI回答引擎從多家出版單位抽取內容,則內容標記可以幫助分辨各部分的貢獻,使付款更為合理公正。
挑戰:如何執行
然而,出版商對於API的防爬效果仍保持懷疑。在許多出版商看來,API的有效執行將需要更多的比現有的robots.txt更具強制力。卡茨爾強調,當前有些不肖爬蟲會更改其識別ID以避開robots.txt的限制。為讓標準有效,出版商們需立場堅定地要求所有爬取行為受到約束。
卡茨爾認為,這場爭取控制權的鬥爭需要出版商的團結。邊緣計算平台如Cloudflare和Fastly處於最佳的位置以阻止那些不守規則的爬蟲,出版商聯合這些技術供應商也至關重要。
法律方面的進展或許也會促成AI公司與出版商達成共識,特別是在一些正在進行的起訴案件(如《紐約時報》和Ziff Davis領導的訴訟)得到有利的結果後。此外,卡茨爾建議監管機構應設立基本的AI法規,如公開宣告爬蟲ID,並處罰違反robots.txt條款的行為,以不損害AI創新為前提,進一步保護出版商的權益。
最後,他表示這是一場緊迫的挑戰。美國的流量下降了30%到60%,這對產業而言不可持續。他呼籲整個產業同心協力,積極應對這一趨勢。