農(nóng)業(yè)大模型:關(guān)鍵技術(shù)、應(yīng)用分析與發(fā)展方向

近年來,人工智能在農(nóng)業(yè)領(lǐng)域的應(yīng)用取得了顯著進展,但仍面臨諸如模型數(shù)據(jù)收集標記困難、模型泛化能力弱等挑戰(zhàn)。大模型技術(shù)作為近期人工智能領(lǐng)域新的熱點技術(shù),已在多個行業(yè)的垂直領(lǐng)域中展現(xiàn)出了良好性能,尤其在復(fù)雜關(guān)聯(lián)表示、模型泛化、多模態(tài)信息處理等方面較傳統(tǒng)機器學(xué)習(xí)方法有著較大優(yōu)勢。

本文來自微信公眾號“農(nóng)業(yè)品牌聯(lián)盟”,作者/盟主。

近年來,人工智能在農(nóng)業(yè)領(lǐng)域的應(yīng)用取得了顯著進展,但仍面臨諸如模型數(shù)據(jù)收集標記困難、模型泛化能力弱等挑戰(zhàn)。大模型技術(shù)作為近期人工智能領(lǐng)域新的熱點技術(shù),已在多個行業(yè)的垂直領(lǐng)域中展現(xiàn)出了良好性能,尤其在復(fù)雜關(guān)聯(lián)表示、模型泛化、多模態(tài)信息處理等方面較傳統(tǒng)機器學(xué)習(xí)方法有著較大優(yōu)勢。

[進展]本文首先闡述了大模型的基本概念和核心技術(shù)方法,展示了在參數(shù)規(guī)模擴大與自監(jiān)督訓(xùn)練下,模型通用能力與下游適應(yīng)能力的顯著提升。隨后,分析了大模型在農(nóng)業(yè)領(lǐng)域應(yīng)用的主要場景;按照語言大模型、視覺大模型和多模態(tài)大模型三大類,在闡述模型發(fā)展的同時重點介紹在農(nóng)業(yè)領(lǐng)域的應(yīng)用現(xiàn)狀,展示了大模型在農(nóng)業(yè)上取得的研究進展。

[結(jié)論/展望]對農(nóng)業(yè)大模型數(shù)據(jù)集少而分散、模型部署難度大、農(nóng)業(yè)應(yīng)用場景復(fù)雜等困難提出見解,展望了農(nóng)業(yè)大模型未來的發(fā)展重點方向。預(yù)計大模型將在未來提供全面綜合的農(nóng)業(yè)決策系統(tǒng),并為公眾提供專業(yè)優(yōu)質(zhì)的農(nóng)業(yè)服務(wù)。

引言

大模型(Big Models)[1],或稱基礎(chǔ)模型(Foundation Models)[2],指經(jīng)過在大規(guī)模數(shù)據(jù)上訓(xùn)練,具有龐大參數(shù)量的深度神經(jīng)網(wǎng)絡(luò)模型。這些模型通常基于Transformer[3]架構(gòu),通過自監(jiān)督的方法從大量數(shù)據(jù)中進行學(xué)習(xí),不僅擁有卓越的通用能力,也可以適應(yīng)不同的下游任務(wù)。通過擴展,模型在多個領(lǐng)域展示出強大能力的同時,甚至可以涌現(xiàn)出的新能力。例如基于GPT(Generative Pre-trained Transformer)[4]系列技術(shù)的ChatGPT對話機器人,可以經(jīng)過一定的提示詞,在如機器翻譯、情感分析、文本摘要等大量的自然語言處理任務(wù)中表現(xiàn)出色,亦可以推理小模型無法處理的復(fù)雜邏輯。

大模型一般使用自監(jiān)督(Self-supervised)的方式進行大規(guī)模的訓(xùn)練,然后將模型應(yīng)用于不同的下游任務(wù)。自監(jiān)督的學(xué)習(xí)方式擺脫了對大量人工標記的依賴。通過擴展模型的規(guī)模與訓(xùn)練量,模型的任務(wù)范圍與性能均能有顯著提高,同時微調(diào)(Fine-tuning)也可以在特定任務(wù)上利用少量數(shù)據(jù)快速提升模型能力。在大模型中,以語言大模型(Large Language Models,LLMs)[5]為代表性成果,其可以通過一定的提示詞完成廣泛的文本生成任務(wù),展現(xiàn)出強大的模型泛化能力。大模型也包括視覺大模型(Large Vision Models,LVMs)與多模態(tài)大模型(Large Multi-modal Models,LMMs)等。

現(xiàn)代農(nóng)業(yè)的迅猛發(fā)展與人工智能技術(shù)進步密切相關(guān),特別是深度學(xué)習(xí)的突破性進展對農(nóng)業(yè)產(chǎn)生了深遠影響。深度學(xué)習(xí)強大的特征學(xué)習(xí)與數(shù)據(jù)處理等能力,使其在雜草控制、作物病蟲害檢測、畜牧業(yè)管理以及農(nóng)業(yè)遙感等領(lǐng)域均有廣泛應(yīng)用。然而,這些方法大多使用監(jiān)督學(xué)習(xí),依賴于特定的高質(zhì)量人工標注數(shù)據(jù)。收集和標注這類數(shù)據(jù)集不僅耗時、耗資巨大,且模型遷移到其他任務(wù)的能力有限,限制了數(shù)據(jù)規(guī)模與模型的發(fā)展。因此,尋找能夠跨應(yīng)用領(lǐng)域通用的模型和技術(shù),減少對大規(guī)模數(shù)據(jù)標記的新方法,擴展深度學(xué)習(xí)框架的通用性,是推動農(nóng)業(yè)等領(lǐng)域進步的重要挑戰(zhàn)。

農(nóng)業(yè)大模型(Agricultural Big Models)是為克服上述困難的一次重大嘗試,為解決農(nóng)業(yè)領(lǐng)域數(shù)據(jù)較少且分散的現(xiàn)狀提供了方案,同時其廣泛的任務(wù)遷移能力也得到了多個農(nóng)業(yè)子領(lǐng)域的關(guān)注。圖1介紹了大模型的構(gòu)建流程,包含使用異構(gòu)數(shù)據(jù)訓(xùn)練模型,對模型微調(diào)提升能力,以及使用外部系統(tǒng)增強生成能力等;最終,模型可以用于多種農(nóng)業(yè)綜合服務(wù)中,提供強大而全面的農(nóng)業(yè)問題解決方案。

640 (1).png

圖1農(nóng)業(yè)大模型的構(gòu)建流程與應(yīng)用[6,7]

為梳理大模型的農(nóng)業(yè)應(yīng)用現(xiàn)狀,探討大模型的農(nóng)業(yè)應(yīng)用潛力,本文首先介紹了大模型關(guān)鍵技術(shù);其次分析了大模型在農(nóng)業(yè)領(lǐng)域可能的應(yīng)用場景,分別介紹語言大模型、視覺大模型和多模態(tài)大模型三種常見大模型及其農(nóng)業(yè)應(yīng)用案例,展示模型在農(nóng)業(yè)領(lǐng)域的影響。最后,闡述大模型在農(nóng)業(yè)領(lǐng)域發(fā)展面臨的挑戰(zhàn),并給出農(nóng)業(yè)大模型的發(fā)展思路。

大模型關(guān)鍵技術(shù)與特性

大模型依賴于諸多技術(shù)支撐,也具有區(qū)別于其他人工智能模型的特性。Transformer架構(gòu)是當今眾多大模型的基礎(chǔ),使大模型能夠有效處理大規(guī)模的數(shù)據(jù)并擴展模型規(guī)模[3],擴展定理則指導(dǎo)大模型進行有限預(yù)算的最優(yōu)開發(fā),大規(guī)模的自監(jiān)督學(xué)習(xí)使模型在無需人工監(jiān)督的情況下擴展訓(xùn)練規(guī)模來提升能力。同時,大模型中新產(chǎn)生的涌現(xiàn)能力(Emergent abilities)[8],是其區(qū)別于其他小規(guī)模模型的重要特征。

1.1 Transformer模型的產(chǎn)生與核心原理

Transformer架構(gòu)的設(shè)計核心是一種簡單高效的自注意力(Self-attention)機制,通過計算序列內(nèi)元素間的相互關(guān)注度分數(shù),為各元素賦予差異化的重要性權(quán)重。這一設(shè)計使得模型能夠在處理序列數(shù)據(jù)時,動態(tài)地集中處理序列中的關(guān)鍵信息,并能夠覆蓋序列中任意位置的數(shù)據(jù)元素,有效捕捉長程依賴關(guān)系。這種機制使得模型能夠方便地擴展,不會因此在模型推理時丟失細節(jié)。此外,Transformer模型的架構(gòu)允許并行化計算,模型在參數(shù)規(guī)模較大時訓(xùn)練效率有了顯著提升。這些特性促使其在大模型領(lǐng)域具有廣泛應(yīng)用。

Transformer推動了自然語言處理領(lǐng)域的一系列重大進展。BERT(Bidirectional Encoder Representations from Transformers)[9]、GPT等基于Transformer架構(gòu)的預(yù)訓(xùn)練語言模型相繼產(chǎn)生,并在文本翻譯等子領(lǐng)域展示出卓越的性能。

GPT使用了Transformer中的解碼器設(shè)計,允許文本正向輸入,并通過預(yù)測文本序列中的下一詞來進行訓(xùn)練,使模型能夠理解并生成連貫的文本內(nèi)容。BERT則使用雙向Transformer編碼器架構(gòu),能夠考慮到給定單詞在上下文中的前后信息,實現(xiàn)同時從正向和反向與對文本的深入理解,顯著提升了模型對語義的把握能力。同時,BERT通過在掩碼語言建模(Masked Language Modeling)與下一句預(yù)測(Next Sentence Prediction),學(xué)習(xí)到復(fù)雜的語境關(guān)系。

隨著模型的進一步擴大,例如GPT-3[10]、LLaMa(Large Language Model Meta AI)[11]等語言大模型的開發(fā),將模型能力推升至新的高度。同時,Transformer架構(gòu)的影響也擴展到了其他的人工智能子領(lǐng)域,如計算機視覺領(lǐng)域的代表模型ViT(Vision Transformer)[12],通過將圖像分割成多個小塊并應(yīng)用Transformer架構(gòu)處理,打破了傳統(tǒng)依賴卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)的圖像處理范式。

進一步地,Caron等[13]將ViT與自監(jiān)督學(xué)習(xí)結(jié)合,提出了DINO(Self-distillation with No Labels)框架,在自監(jiān)督條件下也能學(xué)習(xí)到圖像中的深層語義特征,為構(gòu)造視覺大模型奠定了一定的理論基礎(chǔ)。

1.2大模型的擴展定理

Transformer架構(gòu)允許模型進行大規(guī)模的堆疊,而對模型規(guī)模、數(shù)據(jù)規(guī)模與計算量的擴展,可以大幅提高模型能力。尤其在語言大模型領(lǐng)域,開展了一些對擴展的定量研究。

語言大模型發(fā)展出兩個代表性的法則[7]:KM(Kaplan-McCandlish)法則[14]與Chinchilla法則[15]。

KM法則是通過擬合神經(jīng)語言模型的性能在不同模型規(guī)模(N)、數(shù)據(jù)集規(guī)模(D),以及訓(xùn)練計算量(C)三種變量的表現(xiàn)提出了一種性能隨這三種要素擴展而提升的定量描述;Chinchilla法則提出了另一種形式來指導(dǎo)語言大模型進行最優(yōu)計算量的訓(xùn)練,認為模型大小與數(shù)據(jù)量應(yīng)以同比增加來在一定預(yù)算下取得最優(yōu)模型。KM法則可以表示為公式(1)~公式(3),Chinchilla法則表示為公式(4)~公式(6)。

640 (1).png

式中:圖片為nats表示下的交叉熵損失。

640 (1).png

式中:E=1.69,A=406.4,B=410.7,α=0.34,β=0.28。在??≈6????的條件下,將計算預(yù)算分配給模型規(guī)模與數(shù)據(jù)量的最優(yōu)解,為公式(5)和公式(6)。

640 (1).png

式中:圖片,G為基于A、B、α與β計算的擴展系數(shù)。

1.3大規(guī)模自監(jiān)督學(xué)習(xí)

大模型的能力依賴于大規(guī)模的訓(xùn)練。早期的深度學(xué)習(xí)模型基于監(jiān)督訓(xùn)練,依賴于對數(shù)據(jù)的人工標注。這種方式耗時耗力,限制了模型的訓(xùn)練規(guī)模。相對地,自監(jiān)督學(xué)習(xí)的核心思想是利用數(shù)據(jù)本身自動化地產(chǎn)生對應(yīng)的監(jiān)督信號,使模型能夠在未經(jīng)人工標注的數(shù)據(jù)上,學(xué)習(xí)到有用的特征,進行自我監(jiān)督。通過減少或避免對人工的依賴,使得在更廣泛、更大規(guī)模的數(shù)據(jù)集上進行訓(xùn)練成為可能。

在大模型領(lǐng)域,自監(jiān)督學(xué)習(xí)主要采用生成式學(xué)習(xí)與對比學(xué)習(xí)兩種策略。生成式學(xué)習(xí),也稱預(yù)測學(xué)習(xí),旨在通過模型生成與訓(xùn)練數(shù)據(jù)相似的數(shù)據(jù),深入挖掘數(shù)據(jù)的內(nèi)在結(jié)構(gòu)及生成過程的潛在因素。

生成式學(xué)習(xí)在語言模型中應(yīng)用廣泛,如BERT模型通過掩碼語言建模與下一句預(yù)測進行訓(xùn)練,前者旨在預(yù)測文本中挖空的詞匯,后者則是從候選句子中挑選出最合適作為文本下文的句子。對比學(xué)習(xí)則廣泛地應(yīng)用到計算機視覺領(lǐng)域中,如SimCLR(Simple Framework for Contrastive Learning of Visual Representations)[16]架構(gòu),將同一批圖片采用不同方式增強后進行編碼,最大化來自相同圖片的編碼的相似性,以此學(xué)習(xí)對圖片的特征表示。

同時,進行大規(guī)模自監(jiān)督學(xué)習(xí)的可擴展性訓(xùn)練技術(shù)也至關(guān)重要[7],可以包括如使用3D并行技術(shù)(數(shù)據(jù)并行、流水線并行、張量并行等),將計算分散到多個GPU上進行訓(xùn)練,或使用零冗余優(yōu)化器(Zero Redundancy Optimizer,ZeRO)[17]技術(shù),解決數(shù)據(jù)在多GPU部署后的冗余問題,以及采用混合精度訓(xùn)練,減少計算量與數(shù)據(jù)傳輸開銷。這些技術(shù)結(jié)合計算機硬件的持續(xù)進步,為大模型的規(guī)模擴展和訓(xùn)練效率提供了堅實的算力支持。

1.4大模型通用能力與適應(yīng)微調(diào)

經(jīng)過預(yù)訓(xùn)練,大模型具有解決廣泛任務(wù)的通用能力。通過一定的提示(Prompts),大模型能夠執(zhí)行不同的具體任務(wù)。如ChatGPT可基于語言等提示,執(zhí)行如文本翻譯、開放領(lǐng)域問答、文本摘要、文本生成等多種自然語言處理上的具體任務(wù);Meta公司開發(fā)的SAM(Segment Anything Model)[18]允許使用文本提示與可視化的分割范圍提示,對照片中的具體物體進行實例分割。

大模型可以通過微調(diào)適配到特定的目標上。如在語言大模型上可以進行指令微調(diào)(Instruction tuning)與對齊微調(diào)(Alignment tuning)兩種微調(diào)方法[7]。

前者通過構(gòu)建人工參與的格式化的指令,包含任務(wù)描述、輸入輸出以及可選的少量示例等,監(jiān)督大模型對特定的工作進行調(diào)節(jié),提升其完成具體目標的能力;后者則著重于將人類的價值取向與偏好等對齊于語言大模型,防止其生成有害的、虛假的、帶有偏見的等不符合人類期望的內(nèi)容,一般采用基于人類反饋的強化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)[19]方法,通過收集的人類反饋進行訓(xùn)練獎勵,有監(jiān)督地調(diào)節(jié)模型。視覺大模型亦可通過微調(diào)工作,來提高模型在特定任務(wù),如開放世界物體檢測中的性能,也可提高模型的某種能力,如視覺定位(Visual Grounding)等[6]。

對模型進行全參數(shù)微調(diào)需要大量計算資源。而對模型添加少量額外結(jié)構(gòu),就能使模型在僅調(diào)節(jié)這些結(jié)構(gòu)后快速適應(yīng)下游任務(wù)。這種參數(shù)高效微調(diào)[7]的方法包括適配器微調(diào)(Adapter Tuning)、前綴微調(diào)(Prefix tuning)、低秩適應(yīng)(Low-Rank Adaption,LoRA)[20]微調(diào)以及提示微調(diào)(Prompt tuning)等。

適應(yīng)器微調(diào)通過在模型的多頭注意力層與前饋層之間插入小型的神經(jīng)網(wǎng)絡(luò)模塊來實現(xiàn);前綴微調(diào)則是向模型的輸入添加一系列固定的向量(即前綴)來引導(dǎo)模型輸出;而LoRA微調(diào)通過在Transformer層中添加低秩矩陣來模擬模型內(nèi)部較低的本征維度,從而使用少量參數(shù)進行快速學(xué)習(xí)。此外,提示微調(diào)則通過自動調(diào)整添加到輸入上的提示模板來激發(fā)模型在特定任務(wù)上的性能。這些方法的出現(xiàn)顯著降低了微調(diào)的計算量,促進了大模型在多個領(lǐng)域的推廣。

1.5涌現(xiàn)能力

語言大模型與一般預(yù)訓(xùn)練語言模型的主要區(qū)別之一是涌現(xiàn)出在較小模型上難以出現(xiàn)的能力,即涌現(xiàn)能力[8]。將模型的規(guī)模提升到一定程度,其能夠展現(xiàn)出解決復(fù)雜的問題的新能力。其中有三種典型能力[7]:上下文學(xué)習(xí)(In-Context Learning)、指令遵循,以及逐步推理。

上下文學(xué)習(xí)是指模型能夠按照一定的自然語言指令以及任務(wù)演示,對測試樣例進行補全來生成答案,不需要對模型參數(shù)進行更新。指令遵循是指模型在混合多任務(wù)數(shù)據(jù)集上進行微調(diào)后,在格式相同但未曾見過的任務(wù)中具有良好表現(xiàn),即便沒有顯式的示例依然可以遵循新的命令。逐步推理則強調(diào)語言大模型可以解決涉及多個推理步驟的復(fù)雜任務(wù),通過思維鏈(Chain of Thought)[21]等方式生成中間的推理步驟,最后生成最終的答案。

大模型分類及在農(nóng)業(yè)應(yīng)用分析

2.1大模型農(nóng)業(yè)應(yīng)用主要場景

大模型在農(nóng)業(yè)領(lǐng)域展出廣泛而強大的應(yīng)用潛力,涉及農(nóng)業(yè)的多個子領(lǐng)域。

在種植業(yè)領(lǐng)域,大模型可以對植株及根莖果實等器官進行識別分析,對病蟲害、雜草等進行識別與定位等;在畜牧業(yè)領(lǐng)域,大模型可以對家畜進行個體識別與追蹤,以及動物行為分析、動物產(chǎn)品分析等。

對于農(nóng)業(yè)上的通用領(lǐng)域,大模型可以對農(nóng)業(yè)遙感圖像進行劃分,分析土地用途、作物種類等;也可以用于農(nóng)業(yè)文本的分類與信息提取等。對于綜合化的農(nóng)業(yè)應(yīng)用,大模型可以用作農(nóng)業(yè)智能問答系統(tǒng),對多模態(tài)信息進行全面分析;而在未來,大模型可以接入自動化農(nóng)機中指導(dǎo)其操作,亦可以作為決策核心對多種農(nóng)業(yè)任務(wù)進行無人化管理。

大模型與農(nóng)業(yè)深度融合是未來的發(fā)展趨勢,甚至?xí)r(nóng)業(yè)產(chǎn)生變革性的影響。圖2展示了當前以及未來農(nóng)業(yè)大模型的幾種應(yīng)用方向。

640 (1).png

圖2農(nóng)業(yè)大模型主要應(yīng)用場景

發(fā)展并普及基于大模型的農(nóng)業(yè)服務(wù),不僅可以加強用戶反饋信息和數(shù)據(jù)集的豐富性,進一步優(yōu)化模型,還能推動農(nóng)業(yè)智能化的廣泛實施。此外,推廣大模型在農(nóng)業(yè)領(lǐng)域的應(yīng)用,能夠為用戶提供更加個性化、全面而便捷的綜合服務(wù)。其能夠減少對人力的依賴,促進農(nóng)業(yè)知識的積累與傳播,并為農(nóng)戶與企業(yè)提供更加科學(xué)、可靠和高效的農(nóng)業(yè)支持系統(tǒng),推動農(nóng)業(yè)產(chǎn)業(yè)的持續(xù)發(fā)展和創(chuàng)新。

2.2農(nóng)業(yè)大模型分類

2.2.1語言大模型

語言建模(Language Modeling)是人工智能在語言能力上的重要體現(xiàn),其旨在通過對詞序列進行概率建模,預(yù)測未來或內(nèi)部缺失的文本概率[7]。

近年來,語言大模型通過大規(guī)模的語言建模,將人工智能在自然語言處理上的能力推上了一個新的高度,以GPT系列為代表的語言大模型得以產(chǎn)生。

GPT-2[22]采用無監(jiān)督語言建模的方法,對多任務(wù)求解進行概率建模,將多種自然語言處理任務(wù)轉(zhuǎn)換為特殊的詞序列預(yù)測問題;通過在更多更廣泛的語言文本上訓(xùn)練,GPT-2可以在未針對部分特定任務(wù)訓(xùn)練的情況下,依然在這些任務(wù)上表現(xiàn)出色,展現(xiàn)出“零樣本學(xué)習(xí)”(Zero-Shot Learning)的能力。

GPT-3[10]在繼續(xù)擴展數(shù)據(jù)集與模型規(guī)模的同時引入更多的預(yù)訓(xùn)練方法,將模型能力推升到新的高度;通過少量樣本即可顯著提升在下游任務(wù)上的能力,GPT-3展現(xiàn)出了其少樣本學(xué)習(xí)(Few-Shot Learning)的能力。此外,InstructGPT[19]探索了GPT-3對基于人類反饋的強化學(xué)習(xí)的引入,將模型對齊于人類的價值偏好,旨在生成有用、可信且無害的內(nèi)容。

GPT-4[23]在展現(xiàn)出更加先進語言能力的同時,亦可進行復(fù)雜的圖像解讀與生成,展現(xiàn)了多模態(tài)能力?;贕PT-3.5與GPT-4的ChatGPT的出現(xiàn)引起了社會對語言大模型的關(guān)注,讓人們重新思考通用人工智能(Artificial General Intelligence,AGI)的可能性,也促進了多種大模型的出現(xiàn)。

BERT與GPT的設(shè)計思想在語言大模型中得以沿用,催生出不同的模型架構(gòu)。

目前有三種主要的架構(gòu)[7],第一種為編碼器-解碼器架構(gòu)(Encoder-Decoder Architecture),利用編碼器理解輸入序列,再由解碼器生成目標序列。編碼器使用多個堆疊的多頭自注意力層對序列編碼,捕捉其中復(fù)雜的內(nèi)部關(guān)系,解碼器則使用交叉注意(Cross-Attention)并自回歸地生成目標序列?;诖隧椩淼念A(yù)訓(xùn)練語言模型大都基于BERT進行進一步開發(fā),比較知名的有BART[24]和T5[25]等,而基于此架構(gòu)的語言大模型(如Flan-T5[26]等)數(shù)量較少。

第二種是因果解碼器(Causal Decoder Architecture),沿用GPT模型的思想,僅含有一個單向的解碼器,因而輸入的序列片段只關(guān)注自身與之前的片段,目前被大部分的語言大模型使用。開源的BLOOM(Big Science Large Open-Science Open-Access Multilingual Language Model)[27]、Llama2[28]等模型均是基于這種架構(gòu)開發(fā)的。

第三種是前綴解碼器架構(gòu)(Prefix Decoder Architecture),使用了編碼器-解碼器架構(gòu)的部分思想,改進了因果解碼器,使得前綴序列片段可以執(zhí)行雙向的注意力機制,并保持生成的序列使用單向注意力機制。采用這種架構(gòu)的語言大模型有GLM-130B[29]等。目前,語言大模型已經(jīng)在農(nóng)業(yè)領(lǐng)域初步應(yīng)用,其中包括構(gòu)建專用農(nóng)業(yè)模型、研究已有模型的農(nóng)業(yè)能力,以及綜合使用模型與外部系統(tǒng)等研究方向。

1)建立農(nóng)業(yè)專用語言模型。

在大規(guī)模的語言模型出現(xiàn)前,一些較小規(guī)模的語言模型就已經(jīng)在農(nóng)業(yè)領(lǐng)域得以應(yīng)用。如Rezayi等[30]提出了用于匹配食物與營養(yǎng)成分的AgriBERT模型。該模型使用了BERT語言模型結(jié)構(gòu),在基于大量學(xué)術(shù)期刊的語料數(shù)據(jù)集上進行了從零開始的預(yù)訓(xùn)練,并通過農(nóng)業(yè)專業(yè)知識圖譜增強答案來微調(diào)。結(jié)果表明,使用專用語料數(shù)據(jù)集進行訓(xùn)練后,模型匹配能力的提升非常顯著,而專業(yè)知識圖譜的影響較為復(fù)雜:模型能更好地推測出食物中最多的營養(yǎng)成分,但其推測出食物完整營養(yǎng)成分的能力會下降。這項工作為語言模型與知識圖譜在農(nóng)業(yè)領(lǐng)域的結(jié)合提供了一定指導(dǎo)。

目前,語言大模型的文本分析與生成能力在多種農(nóng)業(yè)任務(wù)中得以應(yīng)用,其可以對農(nóng)業(yè)文本進行信息抽取與分類,為農(nóng)業(yè)問題提出解答,提供全面的智慧農(nóng)業(yè)服務(wù)。農(nóng)業(yè)領(lǐng)域?qū)S谜Z言大模型的訓(xùn)練還在進行當中,如Yang等[31]基于預(yù)先訓(xùn)練的Llama2-7B與Llama2-13B模型,通過在大量專業(yè)文本上的繼續(xù)預(yù)訓(xùn)練與指示微調(diào),訓(xùn)練出適用于植物科學(xué)領(lǐng)域的PLLaMa系列模型。在測試中,基于Llama2-13B的PLLaMa-13B-Chat在給定的多選問題上可以達到60%的準確率,同時在零樣本生成測試中也取得了令農(nóng)業(yè)與植物專家滿意的結(jié)論。由安徽省農(nóng)業(yè)農(nóng)村廳與科大訊飛構(gòu)建的“耕耘大模型”,基于星火認知大模型的核心技術(shù),對接海量涉農(nóng)數(shù)據(jù),實現(xiàn)包含農(nóng)業(yè)生產(chǎn)、市場分析,以及政策咨詢與政務(wù)服務(wù)的一站式智慧農(nóng)業(yè)系統(tǒng)。由中國農(nóng)業(yè)大學(xué)開發(fā)的“神農(nóng)大模型1.0”,使用多種農(nóng)業(yè)學(xué)科的海量數(shù)據(jù)進行訓(xùn)練,利用知識圖譜與向量數(shù)據(jù)庫提供相關(guān)文本來緩解模型幻覺,具有農(nóng)業(yè)知識問答、農(nóng)業(yè)文本摘要生成、農(nóng)業(yè)生產(chǎn)決策等多種能力,是中國農(nóng)業(yè)人工智能領(lǐng)域新的進展。

2)探究與增強已有語言大模型的農(nóng)業(yè)能力。

不經(jīng)過額外的大規(guī)模預(yù)訓(xùn)練,探究已有語言大模型在農(nóng)業(yè)領(lǐng)域的應(yīng)用能力也取得了一定成果。ChatAgri[32]是一種使用ChatGPT(基于GPT-3.5)的多語言農(nóng)業(yè)文本分類技術(shù),總共包含有四種處理方向。一是使用人工書寫的指令來讓ChatGPT篩選文本;二是用ChatGPT構(gòu)建出多個問題后再使其基于問題篩選文本;三是讓ChatGPT判斷當前文本與已有文本的相似度來分類;四是在方向三中額外引入分步推理提升正確性。分類后的句子會繼續(xù)以固定的規(guī)則或與各類別的典型答案進行相似匹配兩種方式進一步對齊與歸并。ChatAgri使用零樣本學(xué)習(xí)即可超出其他模型,展現(xiàn)了語言大模型在農(nóng)業(yè)文本分類上的卓越能力。

語言大模型的農(nóng)業(yè)問答能力也得到了研究。Silva等[33]基于美國、巴西與印度三地的農(nóng)業(yè)問題,探究了LLaMa2-13B、LLaMa2-70B、GPT-3.5與GPT-4四種模型的農(nóng)業(yè)應(yīng)用能力。采用檢索增強生成(Retrieval-Augmented Generation,RAG)、集成精煉(Ensemble Refinement,ER)與問題背景描述三種方式提高模型的生成能力。GPT-4作為實驗的最優(yōu)模型,其在農(nóng)業(yè)碩士考試的成績超越人類考生結(jié)果,展現(xiàn)出語言大模型超越人類的問答能力,王婷等[34]基于草莓栽培農(nóng)技知識設(shè)計了知識對象識別與知識問答兩種下游任務(wù),來探究Baichuan2-13B-Chat、ChatGLM26B等模型的農(nóng)業(yè)能力。使用多種學(xué)術(shù)數(shù)據(jù)來源提取與草莓栽培技術(shù)相關(guān)的知識并進行標注。同時為提升模型性能,該研究在知識對象識別實驗中采用LoRA微調(diào),在知識問答實驗中采用提示微調(diào)與檢索增強生成等方法。這項實驗為農(nóng)業(yè)大模型的中文問答能力評估提供了初步見解。

語言大模型可以生成高質(zhì)量的農(nóng)業(yè)信息,但是對于精確到一定地區(qū)的問題,可能依然生成一般性回答,與地區(qū)的實際情況有所偏差。Balaguer等[35]采用檢索增強生成與微調(diào)來提升模型在地區(qū)具體問題上的回復(fù)能力。實驗從公開文檔中抽取格式化數(shù)據(jù),并用模型生成所選文本的相關(guān)問題。使用增強的模型回答問題后,問題與答案會由GPT-4統(tǒng)一進行多角度的評估。評估不僅聚焦于問題范圍精準度、答案的正確性等,也包括問題的擬人性、答案文本流暢性等多個角度。實驗不僅表明兩種方式均可顯著增強模型能力,且提出了基于大模型的多維度評估機制,為模型的農(nóng)業(yè)能力評價提供了基線。

3)語言大模型與外部系統(tǒng)配合。

語言大模型強大的文本理解與生成能力,使其能夠有效地與其他小型人工智能模型等外部系統(tǒng)結(jié)合。Qing等[36]設(shè)計了一套綜合使用語言大模型與計算機視覺模型的病蟲害識別系統(tǒng)。該系統(tǒng)依賴YOLO模型[37]來識別植物病害,并提出YOLO的輕量級變體YOLOPC,來識別圖片中的植物蟲害。識別后的結(jié)果會先進行簡單的轉(zhuǎn)換,生成文字描述。之后,檢測結(jié)果與可選的額外信息(如地點等)會合并后傳輸給GPT-4模型,以產(chǎn)生綜合的描述與應(yīng)對方案。實驗結(jié)果表明,GPT-4可以有效地生成對病蟲害的全面描述并給出相應(yīng)的解決方案。同時,使用對當前環(huán)境的額外描述,以及讓GPT-4在生成總結(jié)后再進行推理,均對模型能力的提升有較大的幫助。Peng等[38]設(shè)計了一套利用語言大模型進行輔助農(nóng)業(yè)文本信息提取的系統(tǒng)。這項系統(tǒng)同時依賴于語言大模型與基于嵌入的檢索(Embedded-Based Retrieval,EBR)過濾器。EBR過濾器可以將文本轉(zhuǎn)換為向量并映射到高維空間,以此檢測文本片段的相似性,并基于此來提取文本特征。

提取文本的過程總共分為四步。第一步,文本將使用EBR過濾器進行預(yù)先切割后,再通過語言大模型進行處理,提取其中的描述性詞匯;第二步,語言大模型將上一步中的描述性詞匯與相應(yīng)的類別相匹配,如將“白色”匹配為“顏色”;第三步,語言大模型會從對應(yīng)的文本中提取主要的實物實體,類似于命名實體識別過程但著重于帶有形容的實物;第四步,使用語言大模型將實體與描述進行匹配,并將結(jié)果輸入EBR過濾器,將同義但不同詞的表述進行對齊統(tǒng)一,得到結(jié)構(gòu)化的文本輸出。實驗采用了GPT3.5-turbo作為語言大模型,并將輸出結(jié)果經(jīng)過人工評估,發(fā)現(xiàn)這種系統(tǒng)在準確率與召回率上均有良好的表現(xiàn)。這一結(jié)果突顯了語言大模型在農(nóng)業(yè)文本結(jié)構(gòu)化處理方向上的應(yīng)用潛力。

語言大模型在農(nóng)業(yè)領(lǐng)域的這些應(yīng)用展示出其對農(nóng)業(yè)文本強大的理解與生成能力。通過融合相關(guān)外部文本、多輪自行判斷推理以及模型高效微調(diào),語言大模型的農(nóng)業(yè)能力能夠顯著增強。未來,使用通用語言大模型并通過外部信息以及少量訓(xùn)練與微調(diào)來增強其農(nóng)業(yè)能力的方式會得以進一步推廣。這些模型既能作為農(nóng)業(yè)智能問答系統(tǒng)的核心,也可以被整合到其他多樣化的系統(tǒng)中,從而提升人工智能在農(nóng)業(yè)領(lǐng)域的應(yīng)用水平。

2.2.2視覺大模型

計算機視覺領(lǐng)域較早的主要研究范式是基于有監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練。ImageNet這種大規(guī)模圖像分類數(shù)據(jù)集促使了這一范式的沿用與推廣。這種范式下的模型包括AlexNet與ResNet等圖片分類模型,YOLO等物體檢測模型,以及U-Net等圖像語義分割模型。這種有監(jiān)督的范式限制了視覺模型的泛化性與適用性[2]。將語言模型的相關(guān)技術(shù)應(yīng)用于計算機視覺領(lǐng)域,并使用自監(jiān)督等學(xué)習(xí)方法,促進了視覺大模型的產(chǎn)生。

Florence[39]模型廣泛的視覺能力使其成為視覺大模型領(lǐng)域的重要突破。該模型可以快速適配多種計算機視覺任務(wù),涵蓋了圖像分類、圖像和視頻檢索、目標物體識別、可視化問答、圖像標注、視頻內(nèi)容理解和動作識別等領(lǐng)域。其核心創(chuàng)新之一在于能力的泛化,能夠處理從粗粒度(如整體場景)到細粒度(如特定對象)的信息,從靜態(tài)圖像到動態(tài)視頻的內(nèi)容等。Florence不僅在常規(guī)的視覺任務(wù)中展現(xiàn)了高度的適應(yīng)性和性能,在處理更復(fù)雜、多樣化的數(shù)據(jù)類型和任務(wù)時也展示了前所未有的識別與分析能力。特別是在遷移學(xué)習(xí)的應(yīng)用場景中,無論是在微調(diào)、線性探測(Linear Probing)、少量樣本遷移(Few-shot Transfer)還是在完全沒有先前知識的新圖像和新物體的零樣本遷移(Zero-shot Transfer)場景中,該模型都能有效地適應(yīng)并保持高效的性能。

SAM[18]模型將圖像分割引入視覺大模型領(lǐng)域,是計算機視覺大模型的重大突破。其能夠在多種不同場景中分割出其中不同的物體,表明其對“物體”的理解已上升到高度抽象的層面。SAM在SA-1B這一規(guī)模空前的開放數(shù)據(jù)集上訓(xùn)練,保證了其強大的性能;SAM結(jié)構(gòu)包含圖像編碼器、提示編碼器和掩碼解碼器三個組件,允許用戶使用文本描述與可視化的圖像分割范圍兩種提示來指導(dǎo)模型進行分割處理,通過輸出多個有效掩碼來處理模棱兩可的提示,允許該模型在不同的圖像分布和任務(wù)中進行零樣本遷移學(xué)習(xí)。圖3展示了SAM模型的架構(gòu)。

640 (1).png

圖3 SAM模型架構(gòu)

作為視覺大模型的代表,SAM模型的分割能力在種植業(yè)、畜牧業(yè)以及農(nóng)業(yè)遙感等領(lǐng)域得到了體現(xiàn)。

Williams等[40]探究了SAM模型分割土豆植株葉片的能力。首先使用SAM模型在圖像上直接進行分割,而后通過顏色檢查、去除全植物掩碼、形狀過濾、剔除含多葉片的掩碼四個步驟,構(gòu)建“葉片專用SAM”推理流程。將該流程與Mask R-CNN模型進行比較,結(jié)果表明SAM在使用上述構(gòu)建步驟后分割效果有所提升,然而依然略弱于基于監(jiān)督學(xué)習(xí)的Mask R-CNN。但這一推理流程本身并不需要人工參與,采用零樣本分割的SAM對農(nóng)業(yè)領(lǐng)域減少人工標記數(shù)據(jù)的依賴起到了推動作用。

Carraro等[41]評估了SAM模型對作物與雜草圖像生成精確圖像分割的潛力。該實驗使用作物/雜草田間圖像數(shù)據(jù)集(Crop/Weed Field Image Dataset,CWFID),通過語義分割來區(qū)分植被的前景與背景,分割測試采用人工輔助標記與無監(jiān)督自動標記的兩種形式,在不對SAM額外訓(xùn)練的情形下探究其零樣本學(xué)習(xí)能力。結(jié)果表明,SAM模型在使用僅少量點或邊框進行提示下效果良好,但是在自動標記的情況下會過度分割圖像,說明模型需要向農(nóng)業(yè)方向進一步適配。即便如此,該項研究依然為作物與雜草圖像識別提供了一種弱監(jiān)督的可能方法。

Li等[42]提出了一種農(nóng)業(yè)SAM適配器,通過適配器微調(diào)的方法提升模型的農(nóng)業(yè)能力,并通過病蟲害圖像分割探究該適配器的能力。該適配器由少量全連接層配合ReLU激活函數(shù)構(gòu)成,在SAM掩碼解碼器的多頭注意力層后與多層感知器后加入,同時在微調(diào)過程中僅訓(xùn)練適配器來使SAM模型快速適應(yīng)農(nóng)業(yè)任務(wù)。通過收集有關(guān)咖啡葉疾病和害蟲的12種數(shù)據(jù)集并創(chuàng)建對應(yīng)識別任務(wù),測試原始SAM模型與添加適配器變種的能力。實驗結(jié)果表明,添加適配器后SAM在各項任務(wù)中的表現(xiàn)均有提升,尤其在識別咖啡葉疾病時平均戴斯系數(shù)與平均交并比分數(shù)提高約40%,實踐了視覺大模型在農(nóng)業(yè)領(lǐng)域中對適配器微調(diào)的有效使用,推動了視覺大模型在農(nóng)業(yè)領(lǐng)域的適應(yīng)與應(yīng)用。圖4為在使用適配器前后SAM模型的病蟲害圖像分割結(jié)果,展示了SAM適配器對分割能力的顯著提升。

640 (1).png

圖4 SAM在使用適配器后的病蟲害圖像分割實例

Yang等[43]以無籠養(yǎng)雞為例子,通過多角度的實驗探討了SAM模型在家禽業(yè)的應(yīng)用甚至于養(yǎng)殖業(yè)的未來潛力。

主要設(shè)計了兩種實驗,一是比較SAM以及其他先進模型(SegFormer[44]和SETR[45])在普通圖像與熱源圖上的圖像分割能力,包含對整只雞的分割與除尾部外部分的分割,詳細探究該情境下SAM的零樣本分割能力。二是將YOLOX和ByteTrack模型與SAM模型結(jié)合,利用前兩者的物體識別與追蹤能力,實現(xiàn)對雞群內(nèi)單只雞的詳細運動追蹤。

實驗結(jié)果表明,SAM在雞的整體與部分身體的分割任務(wù)上超越了其他先進模型,且上述運動追蹤系統(tǒng)達到了實時的處理速度。實驗也表明SAM模型在雞群密度高、設(shè)施遮擋,以及雞的行為與姿勢多變的情況下具有一定的局限性,為未來的研究指明了方向。

農(nóng)業(yè)遙感領(lǐng)域側(cè)重于通過遙感圖像提取出農(nóng)用地的多種信息,提升農(nóng)業(yè)數(shù)據(jù)的準確性和實用性,指導(dǎo)地方農(nóng)業(yè)向精細化、個性化的方向發(fā)展。

Gui等[46]探究了SAM模型通過遙感圖像在農(nóng)業(yè)用地及城市綠地的劃分方面的能力。其使用美國多地的精度為0.5~30 m不等的遙感圖像,采用有監(jiān)督的人工輔助分割以及無監(jiān)督自動分割兩種方法對模型能力進行測試,發(fā)現(xiàn)SAM在使用人工標定感興趣區(qū)域(Region of interest,ROI)與非感興趣區(qū)(Uninterested Region)后其準確率可保持90%以上,但無監(jiān)督分割的準確率則有明顯更低,尤其受低分辨率與較大框定范圍的影響。由此,Gui等提出幾項改進意見,包括使用更多樣化的圖像擴充訓(xùn)練數(shù)據(jù)集以擴展SAM模型的能力范圍,以及調(diào)節(jié)模型的超參數(shù)來增加SAM在細微差別上的敏感度。

Gurav等[47]探討了SAM模型在生成作物類型圖上的潛力,發(fā)現(xiàn)SAM對輸入的作物類別不敏感,但可以劃分田地。由此,提出利用SAM劃分衛(wèi)星圖像的田地輪廓作為作物分類的基礎(chǔ),并使用多種聚類一致性指標(Clustering Consensus Metrics)來評估其圖像分割性能。

為進一步提升SAM模型的農(nóng)業(yè)遙感能力,Liu[48]提出了一種基于SAM模型的利用遙感圖像劃分農(nóng)田邊界的工作流程。該流程采取雙階段的策略,首先初步地將圖像進行全景分割,創(chuàng)建整體的耕作地圖,隨后提取出感興趣區(qū),以進行更加細致的分割。該研究同時詳細闡述了如何從感興趣區(qū)生成提示點并輸入SAM模型,以此來指導(dǎo)模型進行細致劃分。通過對黑龍江省兩處約1 000 km2的試驗區(qū)進行實驗,該方法在總識別率、平均交并比、平均過分割比與平均欠分割比四項指標上的評價均十分出色,通過零樣本學(xué)習(xí),為解決大規(guī)模農(nóng)田界限精確提取問題,尤其是大規(guī)模未標記區(qū)域,提供了一種低成本且高效的新途徑。

SAM模型也為改進現(xiàn)有遙感數(shù)據(jù)提供了幫助,如Zhang等[49]提出了一種通過SAM模型提高由美國國家農(nóng)業(yè)統(tǒng)計局開發(fā)的農(nóng)田數(shù)據(jù)層準確性的方法。該研究利用SAM的零樣本泛化能力,從Sentinel-2衛(wèi)星圖像中對農(nóng)田地塊進行劃分,在美國主要農(nóng)業(yè)區(qū)域,如加利福尼亞中央谷地和美國玉米帶上進行實驗,提高了農(nóng)田數(shù)據(jù)層的精確度。

SAM模型的“分割一切”能力使其在發(fā)布的短期內(nèi)即在農(nóng)業(yè)的多個領(lǐng)域得到充分應(yīng)用。盡管其在部分特定任務(wù)中不及傳統(tǒng)人工監(jiān)督學(xué)習(xí)模型,但僅通過少量的監(jiān)督微調(diào),其在農(nóng)業(yè)領(lǐng)域的能力就能夠得到顯著提升。在未來,隨著視覺大模型技術(shù)的進步,利用特定提示、少量人工監(jiān)督訓(xùn)練等方法,這些模型將更加高效地替代傳統(tǒng)模型,在農(nóng)業(yè)領(lǐng)域發(fā)揮更大作用。

2.2.3多模態(tài)大模型

與單一處理文本或圖像的模型不同,多模態(tài)大模型可以融合語言、圖像等多種信息,打破多種信息載體的壁壘。這種模型一般涉及多種信息載體的互相轉(zhuǎn)換與理解,提升機器對世界的理解能力,是通用人工智能出現(xiàn)的必要門檻。

2021年出現(xiàn)的CLIP(Contrastive Language-Image Pre-training)[50]模型是將視覺模型接入文字能力的重要嘗試。該模型使用文本編碼器與圖像編碼器,并將兩種輸出投射到共同的嵌入空間,學(xué)習(xí)文本與圖片在空間內(nèi)的相似性,以此指導(dǎo)模型通過一定的文字提示對圖像進行分類。模型采用對比學(xué)習(xí)的方法,通過由互聯(lián)網(wǎng)采集的圖像-文本集合,構(gòu)建對圖片的正向和反向描述并進行訓(xùn)練。該模型的創(chuàng)新點在于其出色的零樣本學(xué)習(xí)能力,如能夠理解風(fēng)格不同的圖像并提取關(guān)鍵信息;同時,其使用自監(jiān)督的學(xué)習(xí)方法,大量減少對人工標注依賴的同時,能夠取得與監(jiān)督學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)ResNet50的相似性能。

由DeepMind開發(fā)的Flamingo[51]模型是多模態(tài)領(lǐng)域的重要研究成果之一。該模型使用了預(yù)先訓(xùn)練的視覺與語言模型,且僅通過訓(xùn)練兩者間新的神經(jīng)網(wǎng)絡(luò)來讓模型學(xué)習(xí)到多模態(tài)能力。通過在大量文本與圖片穿插的互聯(lián)網(wǎng)數(shù)據(jù)上進行訓(xùn)練,F(xiàn)lamingo可以經(jīng)過少量樣本學(xué)習(xí)遷移到多種多模態(tài)任務(wù)上來,是多模態(tài)模型在遷移能力上的一大突破。此外,GPT-4作為語言模型亦具有多模態(tài)能力,可以對輸入的多種圖像進行復(fù)雜分析,包括圖表分析、文字提取、照片內(nèi)容分析等[23]。

圖像與視頻生成也是多模態(tài)領(lǐng)域的重要研究方向之一。如DALL-E[52]模型作為GPT-3的擴散模型(Diffusion models)變體,可以根據(jù)一定的文字描述生成圖像。這種模型基于變分自編碼器(Variational Autoencoders,VAEs)[53]與Transformer架構(gòu)相結(jié)合,VAE將圖像編碼為離散潛在表征,Transformer則學(xué)習(xí)自然語言描述到這些表征的映射,以此指導(dǎo)模型的圖像生成能力。DALL-E模型可以在未經(jīng)訓(xùn)練的文本中生成高質(zhì)量圖像,甚至包括對復(fù)雜與高度抽象的概念圖像具體描述,表現(xiàn)出零樣本學(xué)習(xí)能力,同時模型可以較精確地控制圖像的顏色、形狀等細節(jié),展現(xiàn)了出色的圖像生成能力。

近期,由OpenAI開發(fā)的Sora[54]視頻生成模型在GPT與DALL-E的部分技術(shù)基礎(chǔ)上繼續(xù)開發(fā)。Sora將視頻映射為時空碎片(Spacetime Latent Patch),并使用Diffusion Transformer融合文字、圖像等提示后生成去噪數(shù)據(jù),最終解碼為目標視頻。Sora在視頻保真度上尤為突出,如可以在視角快速移動時保持三維內(nèi)容一致性,以及保持視頻物體的長距離一致性等,并實現(xiàn)了視頻生成、融合與擴展等多種功能。

農(nóng)業(yè)領(lǐng)域的知識涉及圖像和文字等多種介質(zhì),通過多模態(tài)模型的方式將知識融合,基于多種異構(gòu)信息提供知識服務(wù),對農(nóng)業(yè)知識的推廣與落地有著很強的現(xiàn)實意義。Cao等[55]提出了一種多模態(tài)模型ITLMLP,融合了圖像、文字與標簽三種輸入方式,并將CLIP與SimCLR的部分結(jié)構(gòu)融入模型之中,用于對黃瓜病害進行識別。模型利用圖像與文本信息進行對比學(xué)習(xí),并與標簽信息相結(jié)合,在少樣本上進行學(xué)習(xí)。通過與CLIP、SimCLR以及SLIP(Self-Supervision Meets Language-Image Pre-training)[56]模型的對比結(jié)果顯示,ITLMLP在黃瓜病害識別的多種指標上超出以上三種模型。ITLMLP模型在多種其他植物病害上也有著良好表現(xiàn),與其他三種模型相比性能更好或有極小差距,展現(xiàn)了該模型的泛化能力。Tan等[5]設(shè)計了針對GPT-4的多個基于農(nóng)業(yè)領(lǐng)域圖片與提示詞的簡要實驗。其中,第一項實驗是基于遙感圖像和對應(yīng)的基本信息(地區(qū)、時間等)對農(nóng)田作物進行識別,結(jié)果表明GPT-4在一般圖像上表現(xiàn)良好,但在復(fù)雜環(huán)境會出現(xiàn)錯誤。第二項實驗是通過航空圖像(普通圖像與近紅外(Near-Infrared,NIR)圖像)識別作物的養(yǎng)分缺失,實驗結(jié)果顯示GPT-4模型能夠分析出圖像中養(yǎng)分缺失的特征信息以及對應(yīng)的圖像范圍,但需要詳細的說明與相關(guān)知識來指導(dǎo)其分析。第三項實驗是探究GPT-4在植物病蟲害與植物表型檢測上的能力,包含棉花病蟲害檢測、雜草識別以及棉苗、棉花花朵與棉鈴的計數(shù)。該研究中GPT-4在分析較簡單圖像時表現(xiàn)良好,處理復(fù)雜或相似圖像時容易產(chǎn)生錯誤,但其提供的農(nóng)業(yè)知識與建議等較為全面,有一定的借鑒作用。第四項實驗旨在將GPT-4應(yīng)用于家禽業(yè),包含對蛋殼問題、雞禽行為的分析,以及雞群計數(shù)共三種探究。實驗表明GPT-4在蛋殼問題與雞禽行為的分析上可以提供全面且較為精確的內(nèi)容,在雞群計數(shù)問題上也可以對圖像細節(jié)進行歸納,展現(xiàn)出其在家禽管理上的潛力??偟膩碚f,研究結(jié)果展示了以GPT-4為代表的高級多模態(tài)模型在農(nóng)業(yè)領(lǐng)域的廣泛前景,其復(fù)雜的圖像解讀、文本分析,以及生成能力將推動農(nóng)業(yè)知識的普及與個性化農(nóng)業(yè)分析的發(fā)展。

多模態(tài)模型在農(nóng)業(yè)領(lǐng)域的主要優(yōu)勢之一是能夠打破多種農(nóng)業(yè)圖像問題與農(nóng)業(yè)知識文本之間的壁壘,通過統(tǒng)一的模型為多種農(nóng)業(yè)問題提供全面的解決方案。將語言大模型與視覺大模型等的能力結(jié)合,進行多模態(tài)方向的深入開發(fā),進一步提升模型能力,為實現(xiàn)綜合化的智慧農(nóng)業(yè)服務(wù)提供更為堅實的技術(shù)支撐,為農(nóng)業(yè)領(lǐng)域帶來更高效、智能的解決方案。

農(nóng)業(yè)大模型發(fā)展重點方向

大模型是人工智能領(lǐng)域的技術(shù)突破,通過大規(guī)模的自監(jiān)督學(xué)習(xí)與龐大的參數(shù)量,大模型僅通過少量學(xué)習(xí)樣本甚至無樣本就可以遷移到大量下游任務(wù)中,在多個農(nóng)業(yè)問題上取得了良好成果。將大模型應(yīng)用于多種農(nóng)業(yè)任務(wù)中指導(dǎo)農(nóng)業(yè)發(fā)展,使用大模型進行數(shù)據(jù)分析與決策,是未來的發(fā)展趨勢,也為智慧農(nóng)業(yè)、精準農(nóng)業(yè)等領(lǐng)域的發(fā)展提供了新的方向。目前大模型及其在農(nóng)業(yè)領(lǐng)域的應(yīng)用尚處于早期階段,仍需克服一系列挑戰(zhàn),但具有很強的發(fā)展?jié)摿Α?/p>

3.1構(gòu)建綜合且集中的農(nóng)業(yè)數(shù)據(jù)集

農(nóng)田環(huán)境多變、場景復(fù)雜,收集大規(guī)模、多樣化的數(shù)據(jù)集存在一定困難。雖然大模型的遷移能力減少了模型對農(nóng)業(yè)數(shù)據(jù)的需要,但其遷移效果受數(shù)據(jù)質(zhì)量的影響較大,確保數(shù)據(jù)的準確性和一致性至關(guān)重要。

目前農(nóng)業(yè)領(lǐng)域的數(shù)據(jù)集呈現(xiàn)相對較為局限和分散的現(xiàn)狀,依然限制了大模型在農(nóng)業(yè)上的廣泛應(yīng)用。尤其是文本數(shù)據(jù),大多數(shù)現(xiàn)有數(shù)據(jù)集可能缺少專門針對農(nóng)業(yè)領(lǐng)域設(shè)計,例如氣候災(zāi)害數(shù)據(jù)等,與農(nóng)業(yè)相關(guān)聯(lián)但并不直接聚焦于農(nóng)業(yè)關(guān)鍵領(lǐng)域。而要構(gòu)建文本數(shù)據(jù),使用網(wǎng)絡(luò)爬蟲既耗時又復(fù)雜,依賴于學(xué)術(shù)期刊等權(quán)威數(shù)據(jù)又可能引發(fā)版權(quán)問題等。而對于視覺數(shù)據(jù)集,大多只針對某項農(nóng)業(yè)問題,規(guī)模較小且分散。無論是訓(xùn)練還是輔助回答,數(shù)據(jù)的質(zhì)量和數(shù)量是模型成功的關(guān)鍵因素。因此,建立一個高質(zhì)量、全面、廣泛且開放共享的數(shù)據(jù)集顯得尤為重要。這樣的農(nóng)業(yè)數(shù)據(jù)集不僅需要收集大量的農(nóng)業(yè)數(shù)據(jù),也需要采用更加先進的技術(shù)對數(shù)據(jù)進行持續(xù)的篩選和整合對齊,以反映農(nóng)業(yè)研究與實踐中先進且綜合的成果。

3.2減輕模型的訓(xùn)練與部署難度

農(nóng)業(yè)領(lǐng)域涉及的作物種類繁多,不同地區(qū)的氣候、土壤條件差異顯著,通用的大模型難以適應(yīng)所有場景,需要構(gòu)建具有地域特色的專用模型或?qū)S媚K。而大模型的預(yù)訓(xùn)練、微調(diào)和部署工作均需要大量的計算能力與存儲空間,高度依賴于高性能GPU服務(wù)器,且依然需要較長的訓(xùn)練時間。這種需求限制了目前大模型在農(nóng)業(yè)等多個領(lǐng)域的進一步發(fā)展。

目前,擴展性訓(xùn)練技術(shù)[7]可以減少模型的GPU顯存需求并提高模型吞吐量,同時QLoRA[57]與OPTQ[58]等技術(shù)允許模型降低參數(shù)精度來縮減模型體積,已經(jīng)得到了廣泛應(yīng)用。此外,大模型自身的優(yōu)化和發(fā)展亦有助于在較小的參數(shù)規(guī)模上實現(xiàn)或超越更大模型的性能,而硬件的進步也將增強模型在更廣泛領(lǐng)域的應(yīng)用潛力。未來,模型的進一步輕量化和便攜化將促進其在農(nóng)業(yè)等領(lǐng)域的普及。

3.3構(gòu)建基于大模型的農(nóng)業(yè)決策系統(tǒng)

基于復(fù)雜文本、圖像等信息的分析能力,大模型可以作為農(nóng)業(yè)決策的核心,接入不同來源的各種模塊。這些模塊可以包括有物聯(lián)網(wǎng)實時監(jiān)控設(shè)備、其他人工智能模型、公開的即時信息(如天氣)等。通過一定的提示,大模型可以整合多種輸入來源,并推理出基于實時信息的最優(yōu)策略。用戶可以通過語言交互來獲取簡單易懂的個性化反饋與建議[59],甚至農(nóng)業(yè)機器人可以在大模型的指導(dǎo)下進行自動化的管理與采收等工作[60]。通過提高模型的泛化性,確保決策模型能夠適應(yīng)不同的農(nóng)業(yè)環(huán)境和條件。但是,由于農(nóng)業(yè)大模型更多面向農(nóng)民等群體,因此農(nóng)業(yè)決策需要更強的模型可解釋性,以便農(nóng)民能夠理解和信任模型的輸出。此外,還可通過融合多種外部能力與自身知識儲備制定出全面可靠的農(nóng)業(yè)方案,來進一步提升農(nóng)業(yè)管理的效率和準確性,甚至為農(nóng)業(yè)領(lǐng)域帶來變革。

3.4推動大模型在農(nóng)業(yè)領(lǐng)域的廣泛應(yīng)用

當前,大模型在農(nóng)業(yè)領(lǐng)域的應(yīng)用仍然主要局限于科研階段的小規(guī)模測試,其在公共服務(wù)方面的應(yīng)用明顯不足。發(fā)展和推廣農(nóng)業(yè)大模型正面臨著涉及技術(shù)、政策、資金和農(nóng)民接受能力等多個方面。此外,如何將大模型技術(shù)轉(zhuǎn)化為可落地應(yīng)用的具體產(chǎn)品和服務(wù),以及如何通過這些產(chǎn)品和服務(wù)產(chǎn)生商業(yè)價值,是農(nóng)業(yè)大模型發(fā)展另一個挑戰(zhàn)。這些均需要政府、企業(yè)、研究機構(gòu)和農(nóng)民等各方共同努力,制定合適的政策和措施,推動農(nóng)業(yè)大模型的可持續(xù)發(fā)展和推廣。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論