摘要:對手們加筑越來越高的內(nèi)容壁壘,字節(jié)跳動對內(nèi)容的焦慮似乎更強烈。

當看到字節(jié)跳動要做全網(wǎng)搜索的新聞時,王東一點都不感到驚訝。因為早在頭條搜索正式上線半個多月前,王東所在公司的網(wǎng)站就飽受一個名為“bytespider”爬蟲的侵擾。
王東在一家第三方信息評估平臺做SEO(搜索引擎優(yōu)化),今年7月份,他突然發(fā)現(xiàn)公司的網(wǎng)站經(jīng)常性打不開,網(wǎng)頁加載極其緩慢,有時甚至直接癱瘓。經(jīng)過一系列排查后,王東在服務(wù)器日志上發(fā)現(xiàn)了bytespider爬蟲的痕跡。
王東發(fā)現(xiàn)該爬蟲抓取的頻率每天達幾百萬次,高則上千萬次,服務(wù)器帶寬負載飆至100%,而且該爬蟲在抓取時完全不遵守網(wǎng)站的robots協(xié)議。順著該爬蟲的IP地址查詢,王東和團隊證實,該爬蟲就是字節(jié)跳動的搜索爬蟲。
苦主并非只有王東,他在CSDN、V2EX等技術(shù)論壇了解到,遭受該爬蟲暴力抓取的還有很多人,很多用戶直接表示“太頻繁”“不殺不行”“直接封殺”。魏立超在一家互聯(lián)網(wǎng)社區(qū)平臺工作,同樣遭受bytespider的暴力抓取,他也曾嘗試過在網(wǎng)絡(luò)上求助。10月24日,類似的事情經(jīng)過微博大V的曝光,一時引起互聯(lián)網(wǎng)技術(shù)圈子的熱議。
但令魏立超感到心寒的是,網(wǎng)上卻流傳著一種“弱者活該”的說法——“能被頭條搜索引擎抓取應(yīng)該覺得榮幸才是,說明你們內(nèi)容有價值”,“今日頭條是在免費給你們做性能測試,如果你們網(wǎng)站隨便被搜索引擎抓死,那技術(shù)可以下崗了”。
因為不堪其擾,給公司帶來重大損失,無奈之下,像王東、魏立超這樣的網(wǎng)站主們都只好封禁了該爬蟲IP所有頻段。
對此,字節(jié)跳動回應(yīng)稱,“網(wǎng)絡(luò)報道不實,目前頭條搜索設(shè)有反饋機制,網(wǎng)站因為爬蟲受到影響,可以直接通過郵件反饋處理。”
從字節(jié)跳動開始做搜索之后,網(wǎng)絡(luò)上就一直有網(wǎng)站主們抱怨其爬蟲抓取過于暴力的聲音,到今年10月末,小網(wǎng)站主的抱怨達到高峰,至今余波未平。
野蠻爬蟲
爬蟲是網(wǎng)絡(luò)爬蟲的一種簡稱,它是一種按照一定規(guī)則自動地抓取萬維網(wǎng)信息的程序或腳本,定時并按照一定的頻率把互聯(lián)網(wǎng)上的內(nèi)容爬下來,匯總存儲到自己的服務(wù)器上,以方便用戶搜索。
通常來講,在互聯(lián)網(wǎng)技術(shù)圈,數(shù)據(jù)抓取是一件很正常的事情。通過爬蟲抓取網(wǎng)站內(nèi)容是搜索引擎進行數(shù)據(jù)積累的必要前提。此外,一些數(shù)據(jù)分析、數(shù)據(jù)采集的功能也依賴爬蟲技術(shù)實現(xiàn)。
但爬蟲抓取也有一些江湖規(guī)則或君子協(xié)定,比如robots協(xié)議。robots協(xié)議由網(wǎng)站主自行設(shè)置,網(wǎng)站會規(guī)定爬蟲引擎哪些內(nèi)容數(shù)據(jù)可以抓取,哪些禁止抓取,尤其是涉及到用戶數(shù)據(jù)等隱私信息的。
但是王東發(fā)現(xiàn)bytespider的特征是不遵守robots協(xié)議,且抓取頻次太高。從技術(shù)社區(qū)了解到,爬蟲就是對服務(wù)器的內(nèi)容進行訪問的過程,任何訪問都會占用服務(wù)器的響應(yīng)資源,一旦瞬間訪問壓力超過程度,就會對網(wǎng)站的穩(wěn)定性造成影響。為了維護整個互聯(lián)網(wǎng)生態(tài),爬蟲的所有者會通過一定的策略來控制爬蟲訪問的速度和總量。
所以,有技術(shù)人員認為,“應(yīng)該是字節(jié)跳動本身在控制爬蟲抓取的頻次上出了問題?!?/p>

其實,對于像王東這樣做SEO的人來說,其主要工作目標就是希望自己家網(wǎng)站能在主流搜索引擎的搜索結(jié)果中排在前面的位置?!皩τ谙癜俣取⑺压贰?60等搜索引擎的規(guī)范抓取和收錄我是非常歡迎的,但是bytespider卻直接讓網(wǎng)站癱瘓了,這也導(dǎo)致網(wǎng)站流量在那段時間也掉了不少?!?/p>
令王東們頭疼的是,字節(jié)跳動的搜索引擎既沒給他們帶來多少新流量,反倒還給公司帶來很多損失,并且影響了正常的用戶訪問。
王東們想知道,為什么字節(jié)跳動沒能控制好爬蟲的抓取頻次?
行業(yè)資深人士分析認為大致有兩種可能。一種可能是字節(jié)跳動為了短期快速擴充自身搜索規(guī)模而主觀進行的惡意抓取;另一種可能是目前字節(jié)跳動的搜索爬蟲策略不夠完善,客觀結(jié)果上導(dǎo)致的抓取過量。
“考慮到在今日頭條剛開始發(fā)展的時候,他們抓取內(nèi)容的時候完全無視版權(quán)和內(nèi)容方的抗議,也不排除是主觀行為,但我覺得字節(jié)跳動現(xiàn)在已經(jīng)是很大的企業(yè),應(yīng)該不至于主觀這么干?!鄙鲜鲂袠I(yè)資深人士如此推斷。
也有另一位互聯(lián)網(wǎng)行業(yè)資深人士認為,“這事兒沒那么復(fù)雜,就是具體干活兒的團隊太糙,項目著急上線,根本來不及做動態(tài)調(diào)整的邏輯算法,主觀作惡的可能性較小?!?/p>
但不管主觀出發(fā)點如何,字節(jié)跳動為了快速發(fā)展搜索而派出爬蟲四處暴力抓取,并不遵守既定規(guī)則,已經(jīng)給中小網(wǎng)站主們造成了客觀的損失和困擾。
對于網(wǎng)絡(luò)上流傳的“弱者活該”的說法。技術(shù)人員顯然不認同。
他認為,“把問題推給小網(wǎng)站自身抗風險能力不強太偏頗了,這種規(guī)模的爬蟲抓取頻次不在小網(wǎng)站正常的考量范圍內(nèi),大的站點對于搜索引擎爬蟲的過激抓取肯定會有很好的應(yīng)對策略,畢竟有那么多做技術(shù)的,但很多小的站點很可能沒有專門的技術(shù)人員,只是租用了服務(wù)器,采用了一些開源的建站方案,不具備應(yīng)對能力也很正常?!?/p>
而有小網(wǎng)站主抱怨字節(jié)跳動的爬蟲“一上午對網(wǎng)站發(fā)出46萬次請求”,上述技術(shù)人員認為:“以個人的經(jīng)驗來說,這個請求頻次肯定是過高了,至于是不是惡意的不能確定。網(wǎng)站都癱瘓了,肯定是不幸了。”
內(nèi)容戰(zhàn)爭
今年8月10日,字節(jié)跳動正式上線了網(wǎng)頁版通用搜索,爬蟲抓取是搜索引擎效果實現(xiàn)中的重要一環(huán)。
對于每進入一個新領(lǐng)域,字節(jié)跳動都有一套慣用的打法,要么直接花錢收購該領(lǐng)域的公司,要么把該領(lǐng)域的專業(yè)人才挖過來。比如在2017年11月收購中國企業(yè)打造的海外音樂短視頻平臺musical.ly,增強自己的短視頻業(yè)務(wù);在2019年5月,收購教育培訓(xùn)平臺清北網(wǎng)校,增強自己的在線教育業(yè)務(wù),等等。
事實上,字節(jié)跳動早就布局搜索領(lǐng)域。早在2014年,在百度負責搜索框架的百度網(wǎng)頁搜索部技術(shù)副總監(jiān)楊震原就被張一鳴挖入今日頭條,在頭條曾主導(dǎo)廣告和推薦兩大核心系統(tǒng)升級。
此外,原百度搜索部主任架構(gòu)師朱文佳、原百度美國深度學(xué)習(xí)實驗室少帥科學(xué)家李磊等百度重要人才均被張一鳴挖入今日頭條。今年3月,字節(jié)跳動挖來了前360搜索產(chǎn)品負責人,開啟搜索商業(yè)化。
此外,為了拓展搜索內(nèi)容,字節(jié)跳動也在通過收購來完善自己的內(nèi)容庫,比如全資收購互動百科。截止到8月27日,互動百科已經(jīng)在董事、經(jīng)理、監(jiān)事;投資人;法定代表人三個方面進行了全面變更,原來的創(chuàng)始團隊全部退出,目前已經(jīng)被字節(jié)跳動全資控股。
雖然在人才和技術(shù)上早有準備,但是對于搜索業(yè)務(wù)而言,搜索引擎這個生態(tài)的建立不是一朝一夕可以完成的,百度、搜狗已經(jīng)經(jīng)歷了多年的發(fā)展積累。而搜索的內(nèi)容庫是搜索技術(shù)施展拳腳的前提,否則搜索引擎就是無源之水。為了獲取盡可能多的內(nèi)容,可能是字節(jié)跳動采取暴力抓取的原因之一。
甚至,為了抓取到更多內(nèi)容,往往就“越界”,字節(jié)跳動還因此惹上了官司。今年4月,百度就曾因搜索一紙訴狀將字節(jié)跳動告至北京市海淀區(qū)人民法院。
百度方面稱,今日頭條大量竊取百度“TOP1”搜索產(chǎn)品結(jié)果,百度要求字節(jié)跳動立即停止侵權(quán),賠償相關(guān)經(jīng)濟損失及合理支出共計人民幣9000萬元,并連續(xù)30天在其APP及網(wǎng)站首頁道歉。除民事起訴外,百度也同時向法院提交了行為禁止保全申請書。
百度為媒體提供的公開案例中顯示,在字節(jié)跳動旗下今日頭條APP中搜索“1立方厘米水等于多少升”問題時,其首條展示的搜索結(jié)果中被嵌入了“抄自百度”的字眼,而該字眼則是百度為防止TOP1搜索結(jié)果被抄襲預(yù)先打下的防偽標記。
有趣的是,同一天字節(jié)跳動方面也發(fā)表聲明表示,百度未經(jīng)抖音授權(quán),在其開發(fā)運營的“簡單搜索”APP的熱榜板塊設(shè)置了抖音專欄,從抖音竊取視頻,百度又通過技術(shù)手段將抖音的水印抹去。抖音要求百度立即停止侵權(quán),賠償9000萬元,并在百度首頁連續(xù)道歉30天。
因為字節(jié)跳動與百度在商業(yè)模式和業(yè)務(wù)邏輯的相近,雙方均是通過流量換取廣告商業(yè)營收,在過去的數(shù)年中,百度被視為最有可能被字節(jié)跳動顛覆的公司。
雙方的戰(zhàn)爭一觸即發(fā)。為了迎戰(zhàn),百度方面,馬東敏親自負責的百度戰(zhàn)略投資部在今年開始頻繁出擊,先后投資了有贊、凱叔講故事、七貓小說、知乎、果殼等眾多內(nèi)容服務(wù)類項目,背后的戰(zhàn)略意圖便在于豐富內(nèi)容信息流。
以知乎為例,知乎全站問答將以智能小程序的形式接入百度APP中。以搜索起家的百度宣布將著力打造“搜索+信息流”兩大流量引擎和“百家號+智能小程序”兩大生態(tài),構(gòu)筑起壁壘。
一位互聯(lián)網(wǎng)TMT領(lǐng)域投資人表示,“百度的清醒和出擊讓字節(jié)跳動在內(nèi)容獲取上變得越來越困難。
此外,字節(jié)跳動的四處出擊,也引起了其他互聯(lián)網(wǎng)巨頭的重視,騰訊就要求抖音禁播王者榮耀等騰訊系游戲的視頻。行業(yè)里的一些內(nèi)容社區(qū)等等都把字節(jié)跳動視作競爭對手,并不會輕易為其開放內(nèi)容。”
面對對手們加筑的越來越高的內(nèi)容壁壘,字節(jié)跳動對內(nèi)容的焦慮似乎更強烈,直接反映在了搜索爬蟲凌厲的抓取上。
其實,從某種程度上,如今像王東等網(wǎng)站主們的遭遇,也正如2015年左右今日頭條APP興起之時,各大內(nèi)容版權(quán)方們的遭遇。
當時,今日頭條為了獲取內(nèi)容,拓展信息分發(fā)市場,甚至沒有先獲取內(nèi)容版權(quán)方轉(zhuǎn)載和分發(fā)的許可,就大量抓取內(nèi)容版權(quán)方的內(nèi)容,因此,多次因版權(quán)問題被告至法庭,引發(fā)了無數(shù)的版權(quán)糾紛。
當字節(jié)跳動切入全網(wǎng)搜索時,在內(nèi)容抓取上,歷史似乎重演。
不能停止的增長
在如今的互聯(lián)網(wǎng)江湖,不僅百度,其他任何巨頭都不敢小覷字節(jié)跳動和張一鳴。
從2012年成立至今的7年間,張一鳴率領(lǐng)今日頭條在移動端圖文信息市場立足后,又成功推出抖音短視頻應(yīng)用,截至2019年7月,抖音的DAU(日活躍用戶)已經(jīng)達到3.2億。
依托今日頭條、抖音兩個流量池,字節(jié)跳動不斷把觸角延伸至社交、游戲、電商、教育等各個領(lǐng)域,旗下所有產(chǎn)品在全球范圍內(nèi)的DAU已達到7億,月活超過15億。字節(jié)跳動正在各個領(lǐng)域沖擊著原有的互聯(lián)網(wǎng)巨頭的城池。
7年間,字節(jié)跳動的員工數(shù)也已經(jīng)突破5萬。在過往的媒體報道中,字節(jié)跳動被形容為一個APP工廠,通過技術(shù)、獲客、商業(yè)化變現(xiàn)這三大核心部門構(gòu)成的流水線,不斷將成功的產(chǎn)品經(jīng)驗在各個領(lǐng)域復(fù)制,再進行AB測試,快速迭代。
在字節(jié)跳動快速擴張的過程中,因為手段頗為凌厲,讓外界一度議論紛紛。
在給外界壓力的同時,激進的打法也在內(nèi)部產(chǎn)生了影響,“字節(jié)跳動內(nèi)部快速迭代,高速增長目標的企業(yè)文化也難免會給員工帶來高壓力,而高壓力則可能導(dǎo)致操之過急或者動作變形,即便張一鳴并不想這么做。”一位接近字節(jié)跳動的人士說。
該人士繼續(xù)解釋,“2019年字節(jié)跳動的營收目標是至少1000億,壓力非常大。今日頭條主APP的增長基本停滯了,今日頭條正在艱難度過1.2億DAU的增長瓶頸期,抖音及其海外版Tik Tok成為重要的增長引擎。但海外市場并不像中國一樣,多語言,多文化背景,監(jiān)管政策多樣復(fù)雜,充滿不確定性。”
11月4日消息,路透社援引不具名知情人士報道稱,美國政府已經(jīng)就字節(jié)跳動對該國社交媒體應(yīng)用musical.ly的收購啟動了國家安全調(diào)查。美國外國投資委員會(CFIUS)已經(jīng)開始審查此次收購,該委員會負責審查外國收購的交易是否構(gòu)成潛在的國家安全風險。與此同時,F(xiàn)acebook正對其加大警惕,并將之列為競爭對手。
此外,據(jù)《晚點LatePost》報道,在字節(jié)跳動內(nèi)部舉行的6~7月CEO面對面會上,張一鳴說,“如果沒有搜索場景的拓展和優(yōu)質(zhì)內(nèi)容,今日頭條的增長空間可能只剩下4000萬DAU。”
為了維持字節(jié)跳動的增長勢頭,搜索引擎作為一種被驗證過的、成熟健康的商業(yè)模式,成為今日頭條拓展商業(yè)增長的重要業(yè)務(wù)之一。
國內(nèi)的搜索市場上主要有百度、360搜索、搜狗搜索三大玩家,其中根據(jù)StatCounter Global Stats的統(tǒng)計數(shù)據(jù),截止到2019年7月份,百度占據(jù)了中國搜索引擎全平臺市場的76.42%份額。字節(jié)跳動打造的全網(wǎng)搜索,會在多大程度上影響搜索市場的份額變化,還是個未知數(shù)。
搜索和智能推薦都是獲取信息的方式,對用戶來說,搜索的成本高,但內(nèi)容精度也高;推薦的成本低,內(nèi)容精度也相對不高。為了滿足用戶準確獲取信息以及廣告主精準投放的需求,獲取更多用戶和商業(yè)變現(xiàn)機會,兩種模式正在加速融合。
“搜索+信息流兩者結(jié)合是目前看來比較好的方式,目前百度和字節(jié)跳動都從不同的起點出發(fā)趕往這個終點。但從搜索到信息流,和從信息流到搜索,這兩者的難度不太一樣,后者更難一些,搜索太復(fù)雜了?!币晃恍袠I(yè)資深人士表示。
雖然搜索引擎成敗的影響因素眾多,但很顯然,現(xiàn)在字節(jié)跳動搜索爬蟲的頻繁爬取和不遵守行業(yè)規(guī)則,已經(jīng)給很多網(wǎng)站主們都造成了不太好的印象。
目前,字節(jié)跳動的搜索爬蟲bytespider還躺在魏立超的黑名單中,短期內(nèi)并不會解封。他希望字節(jié)跳動能夠遵循市場規(guī)律和準則做事,一起保護好網(wǎng)站內(nèi)容的生態(tài)。
但面對字節(jié)跳動可能帶來的潛在流量誘惑,也并非人人都立場堅定。王東表示,“封字節(jié)跳動的IP是萬不得已,什么時候解封,只能看搜索引擎市場份額變化。”
請登錄以參與評論
現(xiàn)在登錄