在新冠肺炎流行期間,很多數(shù)據(jù)科學(xué)家和商業(yè)分析從業(yè)者們都被拉進了流行病學(xué)的領(lǐng)域——當(dāng)然,他們大都很樂意這樣做。擁有數(shù)據(jù)科學(xué)團隊的大企業(yè),希望盡可能地了解這種流行疾病在他們開展業(yè)務(wù)的地區(qū)可能出現(xiàn)的感染情況。有一些組織內(nèi)部原本就擁有一些流行病學(xué)家或者醫(yī)務(wù)人員,但是他們不見得擁有足夠多的分析人才對病毒的流行和病例增長方面的數(shù)據(jù)進行量化分析。
這些數(shù)據(jù)科學(xué)家們努力的主要方向是報告或者預(yù)測新冠肺炎引起的病例和/或死亡。盡管有很多網(wǎng)站都提供了關(guān)于這種疾病流行情況的基本描述性分析,但是絕大多數(shù)的網(wǎng)站都沒有提供對未來感染病例和死亡數(shù)量的預(yù)測,這些網(wǎng)站提供的數(shù)據(jù)的精細度也不足以供企業(yè)使用。很多公司由于自身所處的行業(yè)特點及商業(yè)模式,都有充足的理由要進行這項工作,弄清楚這場疫情對他們的業(yè)務(wù)、客戶以及員工的影響。
因為數(shù)據(jù)科學(xué)的每一個特定的用例都取決于環(huán)境,所以我會在介紹每個用例的時候也介紹應(yīng)用這個用例的公司的情況。一些公司和他們的代表希望保持匿名,但是他們確認了項目的詳細情況。
一家人壽保險公司預(yù)測死亡人數(shù)
一家大型人壽保險公司的分析和數(shù)據(jù)科學(xué)團隊于2020年3月份啟動了一個項目,該項目的目標(biāo)是預(yù)測新冠肺炎疫情造成的死亡情況。人壽保險公司需要了解任何導(dǎo)致意外死亡人數(shù)大量增加的大流行病,并對其可能的發(fā)展?fàn)顩r進行預(yù)測。當(dāng)然,該公司對于其代理機構(gòu)和辦公室的員工何時能夠安全返回辦公室上班,以及能有多少人能夠返回崗位這個問題也非常感興趣。
他們的模型表明,新冠肺炎疫情造成的死亡人數(shù)將比大多數(shù)人估計的數(shù)量更高,這部分取決于控制病毒傳播的措施。這些模型不僅依賴于已報告的死亡病例進行外推,還對“超額死亡”進行了分析,所謂的“超額死亡”指的是那些由于新冠肺炎造成但卻不會被官方統(tǒng)計計入疫情死亡人數(shù)的死亡病例。這些數(shù)據(jù)科學(xué)家們多次調(diào)整過他們的模型,以覆蓋美國全境范圍內(nèi)的新數(shù)據(jù)和新的防疫政策。該模型匯總了州一級的預(yù)測數(shù)據(jù),并且考慮了每個州計數(shù)缺漏以及政策收緊和開放水平的影響。然后,該公司將所有的州分成四個標(biāo)準(zhǔn)化的開放階段。標(biāo)準(zhǔn)化階段的分類包含諸如學(xué)校是否開學(xué)/停課、非必要商業(yè)以及其他設(shè)施和機構(gòu)是否開放等標(biāo)準(zhǔn)。
為了評估疫情對分支機構(gòu)以及其辦公室的影響,數(shù)據(jù)科學(xué)家們還依據(jù)縣級的數(shù)據(jù)進行了更為精細的預(yù)測。分析團隊沒有預(yù)測新冠肺炎感染病例的數(shù)量——部分原因是因為感染病例數(shù)對該公司的業(yè)務(wù)影響較小,更主要的原因是因為能夠獲得的關(guān)于美國病例數(shù)量的數(shù)據(jù)可靠性較差。該公司內(nèi)部所有的高管和部門對于該團隊的分析結(jié)果都非常感興趣。
一家物流公司預(yù)測疫情對人員配備的影響
一家物流公司的健康與安全負責(zé)人正在思考如何用數(shù)據(jù)幫助這家公司更好地適應(yīng)疫情。由于他的工作職責(zé)包含了病假計劃,他對于預(yù)測員工因為感染新冠肺炎請病假的情況以及這些情況會對該公司運營造成何種影響非常感興趣。他要求他的分析團隊創(chuàng)建了一個新冠疫情對公司影響的面板。其中一個關(guān)鍵的項目就是預(yù)測因為感染新冠肺炎造成的病假情況。
這位健康與安全負責(zé)人表示,該面板非常受歡迎,公司各個部門的請求紛至沓來。但總的來說,他指出,相比于對于未來可能發(fā)生狀況的預(yù)測,管理人員們還是對于已經(jīng)發(fā)生情況的描述性數(shù)據(jù)更加感興趣。
一家動物保健公司預(yù)測對肉類加工廠的影響
First Analytics是一家分析和數(shù)據(jù)科學(xué)服務(wù)公司(我是這家公司的聯(lián)合創(chuàng)始人兼非執(zhí)行董事長),它為大型公司提供分析服務(wù)。新冠肺炎疫情流行期間,負責(zé)領(lǐng)導(dǎo)公司的Mike Thompson和Rob Stevens認為他們的某些客戶可能會對美國新冠肺炎疫情流行情況的預(yù)測分析感興趣,他們知道,有一些來源可以提供美國縣級的病例和死亡數(shù)據(jù),但是這些數(shù)據(jù)沒有一個是可預(yù)測的——至少在當(dāng)時是這樣。所以First Analytics的團隊創(chuàng)建了一個預(yù)測模型,該模型采用了《紐約時報》匯總的縣級數(shù)據(jù),并據(jù)此預(yù)測幾周后可能發(fā)生的病例和死亡率。該模型考慮了州或者縣的封鎖狀態(tài)以及該地區(qū)陽性測試結(jié)果的百分比。當(dāng)然,該模型會受到監(jiān)獄或者療養(yǎng)院等疫情局部爆發(fā)的困擾。
First Analytics之前曾經(jīng)為一家領(lǐng)先的動物保健公司Elanco提供過分析咨詢服務(wù),因此他們就與這家公司聯(lián)系,詢問對方是否有興趣使用對新冠肺炎疫情發(fā)展?fàn)顩r的預(yù)測服務(wù)。該公司分析和其他基于知識的解決方案負責(zé)人Michael Genho表示,他有興趣聊聊這個想法。不過他的興趣主要并不是在Elanco公司內(nèi)部使用,而是針對該公司那些擁有大量牲畜的客戶。新冠肺炎疫情對于肉類加工廠的影響特別巨大,全美的肉類加工廠里已經(jīng)出現(xiàn)了40,000例新冠肺炎病例,造成這種情況的部分原因是因為在這些地方社交距離非常小。如果一家加工廠關(guān)閉或者降低其生產(chǎn)能力,需要屠宰牲畜的畜牧主們就會無處可去。在正常情況下,他們會仔細計劃,將體重處于最合適區(qū)間的牲畜送進加工廠進行屠宰。
Elanco公司自己確實擁有流行病學(xué)家,但是這些流行病學(xué)家都是專注于動物的。該分析小組通常同商業(yè)領(lǐng)袖們合作,用數(shù)據(jù)和分析幫助他們做出商業(yè)決策。該預(yù)測模型可以準(zhǔn)確預(yù)測出即將因為新冠肺炎疫情爆發(fā)面臨挑戰(zhàn)的肉類加工廠。它將這些加工廠分為綠色、黃色和紅色三個類別。最好的預(yù)測能夠提前一兩個星期預(yù)測到工廠關(guān)閉或減產(chǎn)。
這些客戶原本只能憑借直覺做出決定,現(xiàn)在他們對預(yù)測非常重視,并且要求在每周預(yù)測更新之后同Elanco聯(lián)系。Genho的分析小組還會在預(yù)測結(jié)果中補充肉類加工廠每周的生產(chǎn)數(shù)據(jù)以及新出現(xiàn)的工廠關(guān)閉、減產(chǎn)以及工廠內(nèi)出現(xiàn)的新冠肺炎疫情狀況??蛻艨梢赃x擇將牲畜轉(zhuǎn)移到其他的設(shè)施或者改變牲畜上市的時間窗口。這些客戶沒有以交互的方式使用面板,但是他們很高興能夠通過Elanco獲得預(yù)測的結(jié)果。
一家消費品公司預(yù)測現(xiàn)場銷售安全性
一家通過雜貨店零售商進行銷售的消費品公司擔(dān)心其在新冠肺炎疫情肆虐地區(qū)的商店中的現(xiàn)場銷售人員的健康和安全。他們已經(jīng)于三月份的時候從商店里撤出了自己的人手,但是該公司想要弄清楚他們何時才能安全地返回現(xiàn)場。該公司的分析團隊從First Analytics的Rob Stevens那里聽說了縣級預(yù)測模型,并將其用于分析各個商店的情況。分析團隊的一位成員將新冠肺炎追蹤器——一個基于地點的、針對新冠肺炎病例的內(nèi)部追蹤器安置在公司的工廠和辦公室。另一個版本的跟蹤器則負責(zé)評估商店的安全性;根據(jù)每個縣新冠肺炎病例的數(shù)量,每位現(xiàn)場銷售代表負責(zé)的商店都會被賦予一個“紅色/黃色/綠色”的標(biāo)簽。
該分析小組為該公司的健康、安全和法律團隊提供分析結(jié)果,后者對結(jié)果進行討論后,決定將哪些信息發(fā)送給員工。他們發(fā)現(xiàn)預(yù)測模型很有趣也很有用,但是他們并不想將預(yù)測結(jié)果直接發(fā)送給員工,因為他們認為這樣做可能會很難解釋。而且,他們也擔(dān)心給店鋪“綠色”的評分可能會讓銷售人員放松警惕,在去那些店鋪的時候不采取任何防護措施。
數(shù)據(jù)科學(xué)與流行病學(xué)的平衡
數(shù)據(jù)科學(xué)和分析團隊通過處理新冠肺炎疫情數(shù)據(jù),扮演了業(yè)余的流行病學(xué)專家的角色。在這個過程中,我也學(xué)到了一些教訓(xùn)。首先,企業(yè)中缺乏足夠的流行病學(xué)專家可用,因此數(shù)據(jù)科學(xué)家和業(yè)務(wù)分析專家們可以為決策者們提供有用的信息。他們可能沒有接受過流行病學(xué)方面的培訓(xùn),但是數(shù)據(jù)科學(xué)和分析方面的原理可以很容易地應(yīng)用于這個領(lǐng)域。
但是,考慮到將這些分析結(jié)果應(yīng)用于日常運營所面臨的各種挑戰(zhàn),企業(yè)可能更愿意為客戶——而不是他們內(nèi)部的員工提供見解。而且,在很多情況下,由于缺乏關(guān)于這種流行病的歷史數(shù)據(jù),在這個不確定的時期,對于決策者們來說,預(yù)測性分析不如描述性分析可靠。而且,盡管他們的技能可以應(yīng)用于流行病學(xué),但是等到新冠肺炎的疫情不再糾纏我們的時候,數(shù)據(jù)科學(xué)和分析人員們都更愿意回到更加傳統(tǒng)的領(lǐng)域,例如需求預(yù)測和消費者行為分析——我問過的每一個數(shù)據(jù)科學(xué)和分析人員都是這樣想的。