「對話 CTO」是極客公園的一檔最新專欄,以技術(shù)人的視角聊聊研發(fā)管理者的發(fā)展和成長。
我們特別邀請到了企業(yè)級研發(fā)管理工具 ONES 的創(chuàng)始人 & CEO 王穎奇作為特邀訪談者。王穎奇曾參與金山軟件 WPS、金山毒霸等大型軟件的核心開發(fā)工作;2011 年創(chuàng)立了正點科技,旗下產(chǎn)品正點鬧鐘、正點日歷在全球用戶過億;2014 年,王穎奇在知名美元基金晨興資本任 EIR,并以個人身份參與十余家公司的管理咨詢工作;2015 年,王穎奇創(chuàng)立 ONES,致力于提供企業(yè)級研發(fā)管理工具及解決方案。
五年之后,知乎會變成什么?——「超大規(guī)模的知識內(nèi)容社區(qū)」是知乎 CTO 李大海給出的回答。
截止 2019 年 1 月,知乎用戶數(shù)已經(jīng)突破 2.2 億,問題數(shù) 3000 萬,回答數(shù) 1.3 億。用李大海的話說,知乎不僅要成為全領(lǐng)域覆蓋所有用戶的知識內(nèi)容平臺,還要持續(xù)產(chǎn)生優(yōu)質(zhì)內(nèi)容,因為優(yōu)質(zhì)內(nèi)容有很強的時間復利,也許三年以后仍在持續(xù)幫助更多的人。
李大海坦言,很多用戶將知乎當做一種搜索引擎來用,這體現(xiàn)了知乎高質(zhì)量內(nèi)容的價值,但其背后是更縱深、更人文、更多元,也更鮮活的第一手素材和討論。
隨著用戶規(guī)模變大,類似的偏差感出現(xiàn)在許多層面,傳統(tǒng)單一的內(nèi)容生產(chǎn)機制,分發(fā)機制以及社區(qū)治理機制逐步地失效?!钢悄苌鐓^(qū)」是知乎希望駛向的方向,用機器學習、人工智能算法在社區(qū)治理、內(nèi)容生產(chǎn)和消費等等方面進行權(quán)衡?!高@個事情必須要用技術(shù)才能辦得到,光靠產(chǎn)品和運營的手段是不夠的。」李大海說道。
AI 助力的智能社區(qū)
穎奇:非常感謝知乎 CTO 李大海接受我們的采訪。能否請您先介紹一下知乎的研發(fā)團隊現(xiàn)狀,以及重點的研發(fā)方向。
李大海:目前知乎的研發(fā)人員接近 500 人,并在不斷擴充中。我們目前重點投入的技術(shù)領(lǐng)域主要在移動端體驗優(yōu)化、基礎(chǔ)架構(gòu)、安全、大數(shù)據(jù)、機器學習等等。機器學習是我們很重要的一個方向,現(xiàn)在大概有 70 多人的機器學習工程師團隊。在機器學習這個領(lǐng)域,我們也做了很細致的圍繞知乎的應用場景展開的工作。
穎奇:您提到的機器學習領(lǐng)域,我看到我們有很多資料有提到通過 AI 的方式來控制社區(qū)內(nèi)容質(zhì)量,那么具體來看機器學習在知乎的社區(qū)管理上做了哪些工作呢?
李大海:截止 2019 年 1 月,知乎用戶數(shù)已經(jīng)突破 2.2 億,問題數(shù) 3000 萬,回答數(shù) 1.3 億,每天都有大量的用戶在知乎分享自己的知識、經(jīng)驗和見解。這么龐大的內(nèi)容和用戶體量,單依靠人力肯定是不現(xiàn)實的,AI 的應用是一個必然的趨勢。到目前為止,知乎 AI 算法應用已貫穿了從內(nèi)容生產(chǎn)、消費和社區(qū)治理等多個場景。
在內(nèi)容治理場景中,我們綜合使用情感模型、用戶親密度模型和文本識別模型,不斷優(yōu)化算法機器人「瓦力」,識別并實時處理不友善、答非所問、陰陽怪氣等內(nèi)容,部分場景識別準確率達到 99.13%。
這里面的技術(shù)挑戰(zhàn)有很多,我在這里不說細節(jié)。單從邏輯上來說,由于自然語言的開放性和歧義性,任何機器學習算法在實際場景中,都不可能達到 100% 的召回率和準確率。因此,在社區(qū)治理領(lǐng)域,我們采用的是「人機結(jié)合」的方式來進行系統(tǒng)優(yōu)化:我們會保留一個人數(shù)較大的人工團隊,他們非常了解知乎的社區(qū)規(guī)則,他們會處理、糾正算法不能識別和識別不準的情況,然后算法再把這些糾正的案例當成增量的學習材料,升級模型的表達能力。這是一個持續(xù)積累的過程,在這個過程中,算法的能力會變得越來越強大。
當然,除了對文字類型內(nèi)容的識別之外,我們也在做很多工作去覆蓋更多類型的內(nèi)容,包括圖片和視頻、音頻等等。
穎奇:所以技術(shù)在社區(qū)治理方面已經(jīng)是起到了非常大的促進作用的。
李大海:在這件事情上我們其實是深度和廣度兩方面都在前進。所謂廣度就是我們會去不斷的拓展能力,在越來越多的場景能夠去識別和處理。深度就是它的準確率,要慢慢處理的越來越準。所以深度和廣度同時作用,我們的用戶就不需要主動去舉報低質(zhì)內(nèi)容,而是靠機器算法,人機結(jié)合的方式降低了「用戶舉報」,也就是我們內(nèi)部常提到的「主動覆蓋率」的比例降低了下去。
穎奇:所以如果早期沒有 AI 技術(shù)的情況下,可能需要一個非常龐大的內(nèi)容審核團隊和用戶舉報的覆蓋才能保證內(nèi)容和質(zhì)量。
李大海:如果沒有 AI 算法的話,我們的審核團隊應該跟內(nèi)容的增長成正比,但現(xiàn)在其實不是。我們的審核團隊總數(shù)幾乎沒有怎么變過,從 2017 年開始就維持在一個相對穩(wěn)定的人數(shù)上,它的增量很小,但是我們內(nèi)容的增量是很大的。
穎奇:還有哪些例子能看到 AI 等技術(shù)給知乎帶來作用呢?
李大海:我們在 AI 的應用方面做了很多嘗試,這些應用幫助知乎社區(qū)的用戶、內(nèi)容之間有更高效、精準的匹配和連接,讓我們的社區(qū)維護和治理工作變得更簡單、有序。比如在信息的分發(fā)上,我們在首頁信息流推薦系統(tǒng)中引入了 AI 算法,經(jīng)過多輪優(yōu)化和升級,知乎的信息流推薦系統(tǒng)已經(jīng)在知乎整體業(yè)務中占了非常大的體量,用戶滲透率(即有多少用戶會有效來到首頁看內(nèi)容)達到 88%,使用時長占比(包括使用知乎的時長以及在知乎中消費內(nèi)容的時長等)達到 76%。
再比如,在內(nèi)容的匹配上,我們推出問題路由功能,采用人工審核、算法和運營策略相配合的方式,精準邀請相關(guān)領(lǐng)域的用戶回答問題,盡可能地提高問題的回答率。問題路由功能上線以來,由系統(tǒng)推薦帶來的應邀回答數(shù)比過去提升了 400%。
還有上面所講到的社區(qū)治理方面,通過瓦力實現(xiàn)了違規(guī)內(nèi)容的精確識別和處理,讓社區(qū)氛圍和用戶體驗變得更好。
穎奇:知乎作為全領(lǐng)域內(nèi)容社區(qū),大量內(nèi)容推薦是否可能會使用戶聚焦在某些領(lǐng)域,導致用戶對知識的獲取相對閉塞。知乎是通過怎樣的技術(shù)手段去平衡用戶的知識外延和知識聚焦呢?
李大海:知乎早年有一個 Slogan 叫「發(fā)現(xiàn)更大的世界」,所以我們很在意用戶來知乎,是不是能夠拓展自己的眼界。從技術(shù)層面來說,我們除了采用精確的預估模型去匹配用戶的興趣領(lǐng)域之外,也會采用興趣探測模型,去了解用戶是否對一個新的話題或領(lǐng)域感興趣。
假如這個世界上所有的知識領(lǐng)域是固定的,那么它就相當于一張知識地圖。每個人在這張知識地圖上的地形是不一樣的。很喜歡的領(lǐng)域可能是很高的正值,是波峰;不喜歡的領(lǐng)域就是負值,是波谷。往往一個新用戶來了以后,知乎對他的知識地圖畫像是很模糊的,但之后會越來越清晰。清晰化以后,我們就能夠給他推薦相對全面的東西。
穎奇:所以知乎本質(zhì)還是要幫助用戶去發(fā)現(xiàn)新的知識。
李大海:我們是希望能夠盡可能點亮用戶的地圖,而不是一旦發(fā)現(xiàn)用戶地圖上有個波峰,就一直在這個波峰上去推薦內(nèi)容。除了技術(shù)層面的改進,我們也有產(chǎn)品層面的想法來提升用戶的體驗,包括關(guān)注 Tab 和熱榜等等。
穎奇:我們看到知乎的內(nèi)容推薦很多元,有流量的娛樂內(nèi)容,也有我們自己關(guān)心的專業(yè)問題。您怎么看待知乎作為知識社區(qū)里的各類內(nèi)容的出現(xiàn)和知識社區(qū)所承擔的社會責任呢。
李大海:知乎是一個社區(qū),但這個社區(qū)能夠持續(xù)產(chǎn)生很多高質(zhì)量的內(nèi)容和討論。知乎里面會有很多不同領(lǐng)域的討論,但是這些討論我們更偏向于去多角度、全面的、多元化的去看這個問題,同時從這個問題上還能夠擴展出一些相關(guān)領(lǐng)域的討論,這其實是知乎做的最好、最擅長的。比如新中國成立 70 周年,在知乎上會涌現(xiàn)出很多相關(guān)討論,比如如何去評價新中國成立 70 周年以來展現(xiàn)的民生發(fā)展、科技進步、文化成就等等有意義的正能量話題。用戶會覺得我們在看到一個熱點的時候,圍繞熱點產(chǎn)生的一些知識領(lǐng)域的討論,這個是知乎上做的特別好和特別擅長的事,用戶特別喜歡在知乎去相對更嚴肅的討論這些問題。
用算法優(yōu)化搜索體驗
穎奇:有一些知乎用戶偶爾會把知乎作為高質(zhì)量內(nèi)容的搜索引擎來使用,您如何看待知乎和搜索引擎在知識有效性方面的對比?
李大海:其實知乎 8 年以來,已經(jīng)成為一個龐大的內(nèi)容網(wǎng)絡。我們的品牌 Slogan 是「有問題上知乎」,就直接體現(xiàn)了知乎的工具化價值。事實上,很多人已經(jīng)把知乎當做一種搜索引擎來用。
但知乎的搜索結(jié)果又跟傳統(tǒng)搜索引擎不一樣。搜索引擎有搜索引擎的使用場景,知乎也有自己的使用場景。知乎的搜索更多的不是詞條和新聞,是按照內(nèi)容層次去進行結(jié)構(gòu)化展示的,這就大大提升了大家的信息獲取效率。而在搜索的背后,是知乎上有特色的討論,更縱深、更人文、更多元,也更鮮活,這些都是非常有價值的第一手素材和觀點。
另外,由于知乎有很強的投票機制,有贊同、反對還有評論,我們的內(nèi)容其實相當于是被人 Review 過的,所以可信度、價值會遠遠高于其它的網(wǎng)站。知乎有一個指標叫 Topic Rank,指的是一個用戶在某個領(lǐng)域的權(quán)威度,權(quán)威度是根據(jù)比較復雜的算法算出來的。這個指標非常有用,比如說在 IT 領(lǐng)域 Topic Rank 很高的人,他看到一個 IT 領(lǐng)域的回答然后點了反對,我們就知道這個回答的可信度可能是較低的,這也是知乎內(nèi)容在自己的搜索引擎里面可信度很高的一個主要原因。
穎奇:那么在內(nèi)容搜索方面,知乎都做了哪些工作?
李大海:在算法維度上,搜索是知乎在壯大過程中逐步優(yōu)化的一個功能。目前,我們采用深度學習與傳統(tǒng)模型相結(jié)合的方式來解決召回和排序上的用戶滿意度問題。我們的文本相關(guān)性算法最早只有 BM25。到今天,已經(jīng)發(fā)展成為一個融合模型。深度語義特征上線之后,我們在頭部、腰部、長尾的搜索點擊比普遍提升了約 2% - 3% 不等。我們還需要積累和挖掘更多高質(zhì)的訓練數(shù)據(jù),不斷迭代優(yōu)化我們的搜索體驗。
在架構(gòu)維度上,我們也投入了不少人力和精力。知乎早年采用 ES 作為我們的索引引擎,隨著數(shù)據(jù)量的增加,我們遇到了 ES 集群的服務穩(wěn)定性問題,以及 ES 對我們的排序算法支持不友好等問題。所以在 17 年,團隊自己開發(fā)了一套在索引格式上完全兼容 ES 的引擎,逐步替換了在線上服務的 ES 集群。目前知乎全部的搜索請求都由新的索引服務支撐,在可用性達到了 5 個 9 的同時性能上也不輸于 C++ 編寫的類似系統(tǒng)所能達到的水平。
除此之外,我們還在強化產(chǎn)品側(cè)對結(jié)構(gòu)化數(shù)據(jù)的建設和引入。通過內(nèi)部數(shù)據(jù)建設或外部數(shù)據(jù)引入,在搜索結(jié)果使用特性卡片展現(xiàn)話題索引、知乎評分、賽事比分、電影資訊等結(jié)構(gòu)化數(shù)據(jù),讓用戶可以更高效便捷地獲取信息。
穎奇:您認為知乎在未來的 3-5 年會發(fā)展成怎樣的狀態(tài)?技術(shù)會起到怎樣的推動作用?這個可能是稍微大一些的問題,技術(shù)會在未來的知乎發(fā)展中,成為什么樣的推動因子?
李大海:知乎去年就說我們在做智能社區(qū),因為我們需要用到機器學習、人工智能的算法去解決社區(qū)規(guī)模大了以后面臨的很多問題,包括內(nèi)容生產(chǎn)、內(nèi)容消費、內(nèi)容跟人的關(guān)系、社區(qū)治理等等問題。用戶規(guī)模變大,復雜度變高,受到這些綜合因素影響以后,現(xiàn)在單一的內(nèi)容生產(chǎn)機制、分發(fā)機制以及社區(qū)治理機制,都會逐步的失效,這就是為什么我們要很重地使用 AI。現(xiàn)在知乎規(guī)模已經(jīng)非常大了,我們希望知乎能夠服務更多的用戶,我們預測,五年以后知乎會變成一個超大規(guī)模的知識社區(qū)。
穎奇:作為用戶,我們在知乎上可以得到各類問題的答案。那么知乎的問題及討論覆蓋的范圍是怎樣的?
李大海:現(xiàn)在知乎的討論范圍已經(jīng)覆蓋到了全行業(yè),我們在前年的時候與中國就業(yè)辦公室做過一個合作,去看他們公布的所有大學生畢業(yè)以后的就業(yè)領(lǐng)域,我們的討論內(nèi)容覆蓋其中的 95% 以上。所以知乎本身是一個全領(lǐng)域覆蓋所有用戶的知識討論平臺,我們后續(xù)的目標也是要服務好更多的用戶,產(chǎn)生更多優(yōu)質(zhì)的內(nèi)容。優(yōu)質(zhì)內(nèi)容本身是有很強的時間復利在里面的,我們典型的創(chuàng)作者會有很直觀的感受,他們寫的一個回答,在三年以后還有人在點贊,這個內(nèi)容在持續(xù)的幫助更多的人。
質(zhì)疑能力帶來技術(shù)進化
穎奇:在選擇團隊成員時,您有哪些比較特別的標準?
李大海:首先是要和公司的價值觀一致。知乎有「三要三不要」:要為用戶創(chuàng)造價值,要保持開放,要說到做到;不要弄虛作假,不要個人私心和地盤主義,不要失去昂揚之氣。
其次是要有很好的學習能力,我們不期望工程師精通計算機技術(shù)中所有領(lǐng)域的知識和技能,但希望他能夠快速學習,掌握下一個項目所需要的知識點和技能。當然,基礎(chǔ)知識的扎實也是很重要的,特別地,要成長為一個好的算法工程師,一定要具備一定的數(shù)學基礎(chǔ)和代碼能力,并牢固掌握基礎(chǔ)算法和數(shù)據(jù)結(jié)構(gòu)。在這些知識的基礎(chǔ)上,在日常工作中根據(jù)自身的條件和情況,不斷擴展自己的能力邊界。
還要有質(zhì)疑能力。技術(shù)進化是不斷的調(diào)整糾錯,甚至推翻重來的過程,技術(shù)人員要有質(zhì)疑自己現(xiàn)有成果的勇氣和能力,才能不被困在狹小的技術(shù)領(lǐng)域里面。
穎奇:能否給大家介紹一下您的個人履歷。
李大海:我本科與研究生念的都是數(shù)學專業(yè),本科是在北京化工大學學習的應用數(shù)學,覺得數(shù)學非常有意思,研究生階段又轉(zhuǎn)向北大的基礎(chǔ)數(shù)學專業(yè)繼續(xù)學習。畢業(yè)以后第一份工作是在 Google,當時 Google 北京辦公室剛剛成立,我是第一批應屆畢業(yè)生。2010 年從 Google 離開以后就一直在創(chuàng)業(yè)。先后在云壤、豌豆莢承擔了網(wǎng)頁搜索和移動搜索的系統(tǒng)設計和技術(shù)管理工作,2015 年加入知乎后,以機器學習為切入點,不斷提升技術(shù)在業(yè)務中的支撐作用。
穎奇:最后有沒有一些您覺得比較好的書籍能推薦給大家?
李大海:知乎上有介紹很多很好的技術(shù)書籍,這里著重介紹兩本沒那么技術(shù)的。一本叫《黑客與畫家》。這本書主要介紹了黑客,也就是優(yōu)秀程序員的愛好和動機,討論黑客成長、黑客對世界的貢獻以及工作方法等等,不但有助于了解計算機編程的本質(zhì)、互聯(lián)網(wǎng)行業(yè)的規(guī)則,還會幫助讀者了解我們這個時代,使讀者獨立思考,是一本認識互聯(lián)網(wǎng)世界的啟蒙之書。
另一本是《原則》,介紹了橋水公司創(chuàng)始人達里奧的人生經(jīng)驗和處事原則。這本書,不應該把它當成工具書和指導手冊來讀,應該去體會和理解作者在日常工作和生活中不斷構(gòu)建自己的方法論的過程。每個人的經(jīng)歷是不同的,不同經(jīng)歷帶來不同的價值,你不能拿著別人的經(jīng)驗生搬硬套,那是不能內(nèi)化為自己的東西的,必須要結(jié)合自己的知識體系,轉(zhuǎn)化成自己的理解和方法論,并能夠在實踐中不斷升級。
穎奇:我也非常喜歡《原則》這本書。今天有很多收獲,非常感謝您的分享。