深度學(xué)習(xí)中的數(shù)學(xué):優(yōu)化和極值

信息化觀察網(wǎng)
編譯
科技術(shù)語中一個最有趣的變化是機器學(xué)習(xí)(ML)的含義。早在1980年代,機器學(xué)習(xí)指的僅僅是知識專家系統(tǒng)和深度學(xué)習(xí)(DL)中的AI工具。如今,由于計算機性能的大幅提升,我們可以從用于商業(yè)智能的算法中發(fā)現(xiàn)更多有關(guān)...

科技術(shù)語中一個最有趣的變化是機器學(xué)習(xí)(ML)的含義。早在1980年代,機器學(xué)習(xí)指的僅僅是知識專家系統(tǒng)和深度學(xué)習(xí)(DL)中的AI工具。如今,由于計算機性能的大幅提升,我們可以從用于商業(yè)智能的算法中發(fā)現(xiàn)更多有關(guān)數(shù)據(jù)的信息,并且隨著機器學(xué)習(xí)含義的擴展,這些算法能夠和以前的技術(shù)相結(jié)合。了解在具體的情況下訓(xùn)練和部署深度學(xué)習(xí)系統(tǒng)為什么要增加復(fù)雜性是很有用的,本文描述了優(yōu)化的基本概念以及解釋深度學(xué)習(xí)為商業(yè)理解(business understanding)所增加的內(nèi)容。

從數(shù)學(xué)的角度來說,優(yōu)化就是在一些函數(shù)中尋找最大或者最小值。例如,商業(yè)中討論最多的一個概念就是利潤最大化。我們可以創(chuàng)建出包含所有的成本、材料、生產(chǎn)、分配、管理費用等,還有價格的數(shù)學(xué)公式。有了成本和價格,那么就能夠用這一公式計算出最大利潤。

這些固定公式就帶來了極大值和極小值的問題。當人們選定了一個數(shù)據(jù)集或者范圍,他們可以使用基于經(jīng)驗的偏差來人為地限制問題的潛在條件。當討論在有限數(shù)據(jù)集中發(fā)現(xiàn)的最大值時,數(shù)學(xué)家將其定義為局部極大值。下圖中顯示的局部極小值也是如此:下圖中的紅點顯示的是局部極小值,而更多的數(shù)據(jù)集顯示它在這些數(shù)據(jù)集中并不是最小的。

當考慮一些新信息模型復(fù)雜性的時候,還會存在更多的問題。由于從理論上來說,更大的數(shù)據(jù)集是局部的,當應(yīng)用到優(yōu)化問題的時候,深度學(xué)習(xí)也會出現(xiàn)一些問題。訓(xùn)練深度學(xué)習(xí)系統(tǒng)的一個主要方法被稱為隨機梯度下降(如果你對數(shù)學(xué)不感興趣,那你就不需要了解),或者SGD。每一個模型訓(xùn)練運行的結(jié)果決定了在下一次運行中如何調(diào)整算法的參數(shù)。這個問題在于SGD會受到局部極小值和極大值的影響。

因此人們認為深度學(xué)習(xí)系統(tǒng)不適合更加復(fù)雜和廣義的優(yōu)化問題,但是可以使用其它的方法和算法,并且它們的復(fù)雜性讓這些方法和算法出現(xiàn)在機器學(xué)習(xí)的現(xiàn)代定義中。

不是所有的優(yōu)化都是局部的,但是能夠一些解決問題

本文的第一部分描述了為什么深度學(xué)習(xí)系統(tǒng)在應(yīng)用到更加廣義的優(yōu)化中會出現(xiàn)問題,其次是為什么很多的深度學(xué)習(xí)系統(tǒng)仍然要管理優(yōu)化問題?答案很簡單:通常局部極小或者極大不僅足夠好,而且要好于全局極小值或者極大值。

這一原理最明顯的例子是不斷增加的全局推薦引擎。幾乎每個電商網(wǎng)站都會在用戶瀏覽一個單獨的商品時,例舉出他們可能感興趣的產(chǎn)品。這些推薦就是一個優(yōu)化問題,因為網(wǎng)站擁有者希望向用戶推薦他們最可能購買的商品。

臨近吃飯時間,那么就舉一個關(guān)于食物的例子。想象一下,用戶想要瀏覽網(wǎng)上百貨商店網(wǎng)頁,并瀏覽可以購買不同種類的面包圈頁面。全局優(yōu)化或許會注意到很多購買面包圈的用戶也會購買熏鮭魚,因此,當用戶將面包圈加入購物車時,熏鮭魚也會出現(xiàn)在同一頁面上。

但是問題在于用戶之間的差異性。這個百貨商店網(wǎng)站注意到瀏覽網(wǎng)頁的用戶IP在紐約,然后這一模型就顯示面包圈和熏鮭魚之間的關(guān)聯(lián)性更高。

不過問題在于這個用戶或許以前登陸過這個網(wǎng)站。以往的購買歷史顯示這位用戶并未購買熏鮭魚,而是購買了豆腐,以及在之前購買了素食品牌的乳制品替代奶油乳酪。

全局極大值表明我們應(yīng)該為每一位瀏覽面包圈的用戶推薦熏鮭魚,但是局部極大值認為另外可能還有用戶更想要購買的素食產(chǎn)品。在這一情境下,即購買產(chǎn)品的可能性方面,局部極大值比全局極大值更加重要。

使用大型數(shù)據(jù)集訓(xùn)練的深度學(xué)習(xí)系統(tǒng)的強大之處并非在于它能夠處理全局優(yōu)化,而事實正好相反,即深度學(xué)習(xí)系統(tǒng)能夠?qū)植繕O小值和極大值進行微調(diào)。從整體普遍性到具體個人喜好,深度學(xué)習(xí)系統(tǒng)能夠提供定制化的產(chǎn)品。

在很多的優(yōu)化問題中,局部優(yōu)化也會存在風險。深度學(xué)習(xí)系統(tǒng)尚不適合解決這些問題。在商業(yè)中,讓數(shù)據(jù)科學(xué)家更加感到欣慰的是,在更加有限的局部極大值或者極小值中能夠進行更多的優(yōu)化。這也是如今的人們對深度學(xué)習(xí)系統(tǒng)如此感興趣的原因。

原文作者:David A. Teich

THEEND