在线中文天堂,亚洲精品女同中文字幕

農(nóng)業(yè)大模型：關(guān)鍵技術(shù)、應(yīng)用分析與發(fā)展方向

2024-06-05 09:27

農(nóng)業(yè)品牌聯(lián)盟

盟主

近年來，人工智能在農(nóng)業(yè)領(lǐng)域的應(yīng)用取得了顯著進展，但仍面臨諸如模型數(shù)據(jù)收集標記困難、模型泛化能力弱等挑戰(zhàn)。大模型技術(shù)作為近期人工智能領(lǐng)域新的熱點技術(shù)，已在多個行業(yè)的垂直領(lǐng)域中展現(xiàn)出了良好性能，尤其在復(fù)雜關(guān)聯(lián)表示、模型泛化、多模態(tài)信息處理等方面較傳統(tǒng)機器學(xué)習(xí)方法有著較大優(yōu)勢。

本文來自微信公眾號“農(nóng)業(yè)品牌聯(lián)盟”，作者/盟主。

［進展］本文首先闡述了大模型的基本概念和核心技術(shù)方法，展示了在參數(shù)規(guī)模擴大與自監(jiān)督訓(xùn)練下，模型通用能力與下游適應(yīng)能力的顯著提升。隨后，分析了大模型在農(nóng)業(yè)領(lǐng)域應(yīng)用的主要場景；按照語言大模型、視覺大模型和多模態(tài)大模型三大類，在闡述模型發(fā)展的同時重點介紹在農(nóng)業(yè)領(lǐng)域的應(yīng)用現(xiàn)狀，展示了大模型在農(nóng)業(yè)上取得的研究進展。

［結(jié)論/展望］對農(nóng)業(yè)大模型數(shù)據(jù)集少而分散、模型部署難度大、農(nóng)業(yè)應(yīng)用場景復(fù)雜等困難提出見解，展望了農(nóng)業(yè)大模型未來的發(fā)展重點方向。預(yù)計大模型將在未來提供全面綜合的農(nóng)業(yè)決策系統(tǒng)，并為公眾提供專業(yè)優(yōu)質(zhì)的農(nóng)業(yè)服務(wù)。

引言

大模型（Big Models）［1］，或稱基礎(chǔ)模型（Foundation Models）［2］，指經(jīng)過在大規(guī)模數(shù)據(jù)上訓(xùn)練，具有龐大參數(shù)量的深度神經(jīng)網(wǎng)絡(luò)模型。這些模型通常基于Transformer［3］架構(gòu)，通過自監(jiān)督的方法從大量數(shù)據(jù)中進行學(xué)習(xí)，不僅擁有卓越的通用能力，也可以適應(yīng)不同的下游任務(wù)。通過擴展，模型在多個領(lǐng)域展示出強大能力的同時，甚至可以涌現(xiàn)出的新能力。例如基于GPT（Generative Pre-trained Transformer）［4］系列技術(shù)的ChatGPT對話機器人，可以經(jīng)過一定的提示詞，在如機器翻譯、情感分析、文本摘要等大量的自然語言處理任務(wù)中表現(xiàn)出色，亦可以推理小模型無法處理的復(fù)雜邏輯。

大模型一般使用自監(jiān)督（Self-supervised）的方式進行大規(guī)模的訓(xùn)練，然后將模型應(yīng)用于不同的下游任務(wù)。自監(jiān)督的學(xué)習(xí)方式擺脫了對大量人工標記的依賴。通過擴展模型的規(guī)模與訓(xùn)練量，模型的任務(wù)范圍與性能均能有顯著提高，同時微調(diào)（Fine-tuning）也可以在特定任務(wù)上利用少量數(shù)據(jù)快速提升模型能力。在大模型中，以語言大模型（Large Language Models,LLMs）［5］為代表性成果，其可以通過一定的提示詞完成廣泛的文本生成任務(wù)，展現(xiàn)出強大的模型泛化能力。大模型也包括視覺大模型（Large Vision Models,LVMs）與多模態(tài)大模型（Large Multi-modal Models,LMMs）等。

現(xiàn)代農(nóng)業(yè)的迅猛發(fā)展與人工智能技術(shù)進步密切相關(guān)，特別是深度學(xué)習(xí)的突破性進展對農(nóng)業(yè)產(chǎn)生了深遠影響。深度學(xué)習(xí)強大的特征學(xué)習(xí)與數(shù)據(jù)處理等能力，使其在雜草控制、作物病蟲害檢測、畜牧業(yè)管理以及農(nóng)業(yè)遙感等領(lǐng)域均有廣泛應(yīng)用。然而，這些方法大多使用監(jiān)督學(xué)習(xí)，依賴于特定的高質(zhì)量人工標注數(shù)據(jù)。收集和標注這類數(shù)據(jù)集不僅耗時、耗資巨大，且模型遷移到其他任務(wù)的能力有限，限制了數(shù)據(jù)規(guī)模與模型的發(fā)展。因此，尋找能夠跨應(yīng)用領(lǐng)域通用的模型和技術(shù)，減少對大規(guī)模數(shù)據(jù)標記的新方法，擴展深度學(xué)習(xí)框架的通用性，是推動農(nóng)業(yè)等領(lǐng)域進步的重要挑戰(zhàn)。

農(nóng)業(yè)大模型（Agricultural Big Models）是為克服上述困難的一次重大嘗試，為解決農(nóng)業(yè)領(lǐng)域數(shù)據(jù)較少且分散的現(xiàn)狀提供了方案，同時其廣泛的任務(wù)遷移能力也得到了多個農(nóng)業(yè)子領(lǐng)域的關(guān)注。圖1介紹了大模型的構(gòu)建流程，包含使用異構(gòu)數(shù)據(jù)訓(xùn)練模型，對模型微調(diào)提升能力，以及使用外部系統(tǒng)增強生成能力等；最終，模型可以用于多種農(nóng)業(yè)綜合服務(wù)中，提供強大而全面的農(nóng)業(yè)問題解決方案。

圖1農(nóng)業(yè)大模型的構(gòu)建流程與應(yīng)用［6，7］

為梳理大模型的農(nóng)業(yè)應(yīng)用現(xiàn)狀，探討大模型的農(nóng)業(yè)應(yīng)用潛力，本文首先介紹了大模型關(guān)鍵技術(shù)；其次分析了大模型在農(nóng)業(yè)領(lǐng)域可能的應(yīng)用場景，分別介紹語言大模型、視覺大模型和多模態(tài)大模型三種常見大模型及其農(nóng)業(yè)應(yīng)用案例，展示模型在農(nóng)業(yè)領(lǐng)域的影響。最后，闡述大模型在農(nóng)業(yè)領(lǐng)域發(fā)展面臨的挑戰(zhàn)，并給出農(nóng)業(yè)大模型的發(fā)展思路。

大模型關(guān)鍵技術(shù)與特性

大模型依賴于諸多技術(shù)支撐，也具有區(qū)別于其他人工智能模型的特性。Transformer架構(gòu)是當今眾多大模型的基礎(chǔ)，使大模型能夠有效處理大規(guī)模的數(shù)據(jù)并擴展模型規(guī)模［3］，擴展定理則指導(dǎo)大模型進行有限預(yù)算的最優(yōu)開發(fā)，大規(guī)模的自監(jiān)督學(xué)習(xí)使模型在無需人工監(jiān)督的情況下擴展訓(xùn)練規(guī)模來提升能力。同時，大模型中新產(chǎn)生的涌現(xiàn)能力（Emergent abilities）［8］，是其區(qū)別于其他小規(guī)模模型的重要特征。

1.1 Transformer模型的產(chǎn)生與核心原理

Transformer架構(gòu)的設(shè)計核心是一種簡單高效的自注意力（Self-attention）機制，通過計算序列內(nèi)元素間的相互關(guān)注度分數(shù)，為各元素賦予差異化的重要性權(quán)重。這一設(shè)計使得模型能夠在處理序列數(shù)據(jù)時，動態(tài)地集中處理序列中的關(guān)鍵信息，并能夠覆蓋序列中任意位置的數(shù)據(jù)元素，有效捕捉長程依賴關(guān)系。這種機制使得模型能夠方便地擴展，不會因此在模型推理時丟失細節(jié)。此外，Transformer模型的架構(gòu)允許并行化計算，模型在參數(shù)規(guī)模較大時訓(xùn)練效率有了顯著提升。這些特性促使其在大模型領(lǐng)域具有廣泛應(yīng)用。

Transformer推動了自然語言處理領(lǐng)域的一系列重大進展。BERT（Bidirectional Encoder Representations from Transformers）［9］、GPT等基于Transformer架構(gòu)的預(yù)訓(xùn)練語言模型相繼產(chǎn)生，并在文本翻譯等子領(lǐng)域展示出卓越的性能。

GPT使用了Transformer中的解碼器設(shè)計，允許文本正向輸入，并通過預(yù)測文本序列中的下一詞來進行訓(xùn)練，使模型能夠理解并生成連貫的文本內(nèi)容。BERT則使用雙向Transformer編碼器架構(gòu)，能夠考慮到給定單詞在上下文中的前后信息，實現(xiàn)同時從正向和反向與對文本的深入理解，顯著提升了模型對語義的把握能力。同時，BERT通過在掩碼語言建模（Masked Language Modeling）與下一句預(yù)測（Next Sentence Prediction），學(xué)習(xí)到復(fù)雜的語境關(guān)系。

隨著模型的進一步擴大，例如GPT-3［10］、LLaMa（Large Language Model Meta AI）［11］等語言大模型的開發(fā)，將模型能力推升至新的高度。同時，Transformer架構(gòu)的影響也擴展到了其他的人工智能子領(lǐng)域，如計算機視覺領(lǐng)域的代表模型ViT（Vision Transformer）［12］，通過將圖像分割成多個小塊并應(yīng)用Transformer架構(gòu)處理，打破了傳統(tǒng)依賴卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks,CNNs）的圖像處理范式。

進一步地，Caron等［13］將ViT與自監(jiān)督學(xué)習(xí)結(jié)合，提出了DINO（Self-distillation with No Labels）框架，在自監(jiān)督條件下也能學(xué)習(xí)到圖像中的深層語義特征，為構(gòu)造視覺大模型奠定了一定的理論基礎(chǔ)。

1.2大模型的擴展定理

Transformer架構(gòu)允許模型進行大規(guī)模的堆疊，而對模型規(guī)模、數(shù)據(jù)規(guī)模與計算量的擴展，可以大幅提高模型能力。尤其在語言大模型領(lǐng)域，開展了一些對擴展的定量研究。

語言大模型發(fā)展出兩個代表性的法則［7］：KM（Kaplan-McCandlish）法則［14］與Chinchilla法則［15］。

KM法則是通過擬合神經(jīng)語言模型的性能在不同模型規(guī)模（N）、數(shù)據(jù)集規(guī)模（D），以及訓(xùn)練計算量（C）三種變量的表現(xiàn)提出了一種性能隨這三種要素擴展而提升的定量描述；Chinchilla法則提出了另一種形式來指導(dǎo)語言大模型進行最優(yōu)計算量的訓(xùn)練，認為模型大小與數(shù)據(jù)量應(yīng)以同比增加來在一定預(yù)算下取得最優(yōu)模型。KM法則可以表示為公式（1）~公式（3），Chinchilla法則表示為公式（4）~公式（6）。

式中：圖片為nats表示下的交叉熵損失。

式中：E=1.69，A=406.4，B=410.7，α=0.34，β=0.28。在??≈6????的條件下，將計算預(yù)算分配給模型規(guī)模與數(shù)據(jù)量的最優(yōu)解，為公式（5）和公式（6）。

式中：圖片，G為基于A、B、α與β計算的擴展系數(shù)。

1.3大規(guī)模自監(jiān)督學(xué)習(xí)

大模型的能力依賴于大規(guī)模的訓(xùn)練。早期的深度學(xué)習(xí)模型基于監(jiān)督訓(xùn)練，依賴于對數(shù)據(jù)的人工標注。這種方式耗時耗力，限制了模型的訓(xùn)練規(guī)模。相對地，自監(jiān)督學(xué)習(xí)的核心思想是利用數(shù)據(jù)本身自動化地產(chǎn)生對應(yīng)的監(jiān)督信號，使模型能夠在未經(jīng)人工標注的數(shù)據(jù)上，學(xué)習(xí)到有用的特征，進行自我監(jiān)督。通過減少或避免對人工的依賴，使得在更廣泛、更大規(guī)模的數(shù)據(jù)集上進行訓(xùn)練成為可能。

在大模型領(lǐng)域，自監(jiān)督學(xué)習(xí)主要采用生成式學(xué)習(xí)與對比學(xué)習(xí)兩種策略。生成式學(xué)習(xí)，也稱預(yù)測學(xué)習(xí)，旨在通過模型生成與訓(xùn)練數(shù)據(jù)相似的數(shù)據(jù)，深入挖掘數(shù)據(jù)的內(nèi)在結(jié)構(gòu)及生成過程的潛在因素。

生成式學(xué)習(xí)在語言模型中應(yīng)用廣泛，如BERT模型通過掩碼語言建模與下一句預(yù)測進行訓(xùn)練，前者旨在預(yù)測文本中挖空的詞匯，后者則是從候選句子中挑選出最合適作為文本下文的句子。對比學(xué)習(xí)則廣泛地應(yīng)用到計算機視覺領(lǐng)域中，如SimCLR（Simple Framework for Contrastive Learning of Visual Representations）［16］架構(gòu)，將同一批圖片采用不同方式增強后進行編碼，最大化來自相同圖片的編碼的相似性，以此學(xué)習(xí)對圖片的特征表示。

同時，進行大規(guī)模自監(jiān)督學(xué)習(xí)的可擴展性訓(xùn)練技術(shù)也至關(guān)重要［7］，可以包括如使用3D并行技術(shù)（數(shù)據(jù)并行、流水線并行、張量并行等），將計算分散到多個GPU上進行訓(xùn)練，或使用零冗余優(yōu)化器（Zero Redundancy Optimizer,ZeRO）［17］技術(shù)，解決數(shù)據(jù)在多GPU部署后的冗余問題，以及采用混合精度訓(xùn)練，減少計算量與數(shù)據(jù)傳輸開銷。這些技術(shù)結(jié)合計算機硬件的持續(xù)進步，為大模型的規(guī)模擴展和訓(xùn)練效率提供了堅實的算力支持。

1.4大模型通用能力與適應(yīng)微調(diào)

經(jīng)過預(yù)訓(xùn)練，大模型具有解決廣泛任務(wù)的通用能力。通過一定的提示（Prompts），大模型能夠執(zhí)行不同的具體任務(wù)。如ChatGPT可基于語言等提示，執(zhí)行如文本翻譯、開放領(lǐng)域問答、文本摘要、文本生成等多種自然語言處理上的具體任務(wù)；Meta公司開發(fā)的SAM（Segment Anything Model）［18］允許使用文本提示與可視化的分割范圍提示，對照片中的具體物體進行實例分割。

大模型可以通過微調(diào)適配到特定的目標上。如在語言大模型上可以進行指令微調(diào)（Instruction tuning）與對齊微調(diào)（Alignment tuning）兩種微調(diào)方法［7］。

前者通過構(gòu)建人工參與的格式化的指令，包含任務(wù)描述、輸入輸出以及可選的少量示例等，監(jiān)督大模型對特定的工作進行調(diào)節(jié)，提升其完成具體目標的能力；后者則著重于將人類的價值取向與偏好等對齊于語言大模型，防止其生成有害的、虛假的、帶有偏見的等不符合人類期望的內(nèi)容，一般采用基于人類反饋的強化學(xué)習(xí)（Reinforcement Learning from Human Feedback,RLHF）［19］方法，通過收集的人類反饋進行訓(xùn)練獎勵，有監(jiān)督地調(diào)節(jié)模型。視覺大模型亦可通過微調(diào)工作，來提高模型在特定任務(wù)，如開放世界物體檢測中的性能，也可提高模型的某種能力，如視覺定位（Visual Grounding）等［6］。

對模型進行全參數(shù)微調(diào)需要大量計算資源。而對模型添加少量額外結(jié)構(gòu)，就能使模型在僅調(diào)節(jié)這些結(jié)構(gòu)后快速適應(yīng)下游任務(wù)。這種參數(shù)高效微調(diào)［7］的方法包括適配器微調(diào)（Adapter Tuning）、前綴微調(diào)（Prefix tuning）、低秩適應(yīng)（Low-Rank Adaption,LoRA）［20］微調(diào)以及提示微調(diào)（Prompt tuning）等。

適應(yīng)器微調(diào)通過在模型的多頭注意力層與前饋層之間插入小型的神經(jīng)網(wǎng)絡(luò)模塊來實現(xiàn)；前綴微調(diào)則是向模型的輸入添加一系列固定的向量（即前綴）來引導(dǎo)模型輸出；而LoRA微調(diào)通過在Transformer層中添加低秩矩陣來模擬模型內(nèi)部較低的本征維度，從而使用少量參數(shù)進行快速學(xué)習(xí)。此外，提示微調(diào)則通過自動調(diào)整添加到輸入上的提示模板來激發(fā)模型在特定任務(wù)上的性能。這些方法的出現(xiàn)顯著降低了微調(diào)的計算量，促進了大模型在多個領(lǐng)域的推廣。

1.5涌現(xiàn)能力

語言大模型與一般預(yù)訓(xùn)練語言模型的主要區(qū)別之一是涌現(xiàn)出在較小模型上難以出現(xiàn)的能力，即涌現(xiàn)能力［8］。將模型的規(guī)模提升到一定程度，其能夠展現(xiàn)出解決復(fù)雜的問題的新能力。其中有三種典型能力［7］：上下文學(xué)習(xí)（In-Context Learning）、指令遵循，以及逐步推理。

上下文學(xué)習(xí)是指模型能夠按照一定的自然語言指令以及任務(wù)演示，對測試樣例進行補全來生成答案，不需要對模型參數(shù)進行更新。指令遵循是指模型在混合多任務(wù)數(shù)據(jù)集上進行微調(diào)后，在格式相同但未曾見過的任務(wù)中具有良好表現(xiàn)，即便沒有顯式的示例依然可以遵循新的命令。逐步推理則強調(diào)語言大模型可以解決涉及多個推理步驟的復(fù)雜任務(wù)，通過思維鏈（Chain of Thought）［21］等方式生成中間的推理步驟，最后生成最終的答案。

大模型分類及在農(nóng)業(yè)應(yīng)用分析

2.1大模型農(nóng)業(yè)應(yīng)用主要場景

大模型在農(nóng)業(yè)領(lǐng)域展出廣泛而強大的應(yīng)用潛力，涉及農(nóng)業(yè)的多個子領(lǐng)域。

在種植業(yè)領(lǐng)域，大模型可以對植株及根莖果實等器官進行識別分析，對病蟲害、雜草等進行識別與定位等；在畜牧業(yè)領(lǐng)域，大模型可以對家畜進行個體識別與追蹤，以及動物行為分析、動物產(chǎn)品分析等。

對于農(nóng)業(yè)上的通用領(lǐng)域，大模型可以對農(nóng)業(yè)遙感圖像進行劃分，分析土地用途、作物種類等；也可以用于農(nóng)業(yè)文本的分類與信息提取等。對于綜合化的農(nóng)業(yè)應(yīng)用，大模型可以用作農(nóng)業(yè)智能問答系統(tǒng)，對多模態(tài)信息進行全面分析；而在未來，大模型可以接入自動化農(nóng)機中指導(dǎo)其操作，亦可以作為決策核心對多種農(nóng)業(yè)任務(wù)進行無人化管理。

大模型與農(nóng)業(yè)深度融合是未來的發(fā)展趨勢，甚至?xí)r(nóng)業(yè)產(chǎn)生變革性的影響。圖2展示了當前以及未來農(nóng)業(yè)大模型的幾種應(yīng)用方向。

圖2農(nóng)業(yè)大模型主要應(yīng)用場景

發(fā)展并普及基于大模型的農(nóng)業(yè)服務(wù)，不僅可以加強用戶反饋信息和數(shù)據(jù)集的豐富性，進一步優(yōu)化模型，還能推動農(nóng)業(yè)智能化的廣泛實施。此外，推廣大模型在農(nóng)業(yè)領(lǐng)域的應(yīng)用，能夠為用戶提供更加個性化、全面而便捷的綜合服務(wù)。其能夠減少對人力的依賴，促進農(nóng)業(yè)知識的積累與傳播，并為農(nóng)戶與企業(yè)提供更加科學(xué)、可靠和高效的農(nóng)業(yè)支持系統(tǒng)，推動農(nóng)業(yè)產(chǎn)業(yè)的持續(xù)發(fā)展和創(chuàng)新。

2.2農(nóng)業(yè)大模型分類

2.2.1語言大模型

語言建模（Language Modeling）是人工智能在語言能力上的重要體現(xiàn)，其旨在通過對詞序列進行概率建模，預(yù)測未來或內(nèi)部缺失的文本概率［7］。

近年來，語言大模型通過大規(guī)模的語言建模，將人工智能在自然語言處理上的能力推上了一個新的高度，以GPT系列為代表的語言大模型得以產(chǎn)生。

GPT-2［22］采用無監(jiān)督語言建模的方法，對多任務(wù)求解進行概率建模，將多種自然語言處理任務(wù)轉(zhuǎn)換為特殊的詞序列預(yù)測問題；通過在更多更廣泛的語言文本上訓(xùn)練，GPT-2可以在未針對部分特定任務(wù)訓(xùn)練的情況下，依然在這些任務(wù)上表現(xiàn)出色，展現(xiàn)出“零樣本學(xué)習(xí)”（Zero-Shot Learning）的能力。

GPT-3［10］在繼續(xù)擴展數(shù)據(jù)集與模型規(guī)模的同時引入更多的預(yù)訓(xùn)練方法，將模型能力推升到新的高度；通過少量樣本即可顯著提升在下游任務(wù)上的能力，GPT-3展現(xiàn)出了其少樣本學(xué)習(xí)（Few-Shot Learning）的能力。此外，InstructGPT[19]探索了GPT-3對基于人類反饋的強化學(xué)習(xí)的引入，將模型對齊于人類的價值偏好，旨在生成有用、可信且無害的內(nèi)容。

GPT-4［23］在展現(xiàn)出更加先進語言能力的同時，亦可進行復(fù)雜的圖像解讀與生成，展現(xiàn)了多模態(tài)能力?；贕PT-3.5與GPT-4的ChatGPT的出現(xiàn)引起了社會對語言大模型的關(guān)注，讓人們重新思考通用人工智能（Artificial General Intelligence,AGI）的可能性，也促進了多種大模型的出現(xiàn)。

BERT與GPT的設(shè)計思想在語言大模型中得以沿用，催生出不同的模型架構(gòu)。

目前有三種主要的架構(gòu)［7］，第一種為編碼器-解碼器架構(gòu)（Encoder-Decoder Architecture），利用編碼器理解輸入序列，再由解碼器生成目標序列。編碼器使用多個堆疊的多頭自注意力層對序列編碼，捕捉其中復(fù)雜的內(nèi)部關(guān)系，解碼器則使用交叉注意（Cross-Attention）并自回歸地生成目標序列?；诖隧椩淼念A(yù)訓(xùn)練語言模型大都基于BERT進行進一步開發(fā)，比較知名的有BART［24］和T5［25］等，而基于此架構(gòu)的語言大模型（如Flan-T5［26］等）數(shù)量較少。

第二種是因果解碼器（Causal Decoder Architecture），沿用GPT模型的思想，僅含有一個單向的解碼器，因而輸入的序列片段只關(guān)注自身與之前的片段，目前被大部分的語言大模型使用。開源的BLOOM（Big Science Large Open-Science Open-Access Multilingual Language Model）［27］、Llama2［28］等模型均是基于這種架構(gòu)開發(fā)的。

第三種是前綴解碼器架構(gòu)（Prefix Decoder Architecture），使用了編碼器-解碼器架構(gòu)的部分思想，改進了因果解碼器，使得前綴序列片段可以執(zhí)行雙向的注意力機制，并保持生成的序列使用單向注意力機制。采用這種架構(gòu)的語言大模型有GLM-130B［29］等。目前，語言大模型已經(jīng)在農(nóng)業(yè)領(lǐng)域初步應(yīng)用，其中包括構(gòu)建專用農(nóng)業(yè)模型、研究已有模型的農(nóng)業(yè)能力，以及綜合使用模型與外部系統(tǒng)等研究方向。

1）建立農(nóng)業(yè)專用語言模型。

在大規(guī)模的語言模型出現(xiàn)前，一些較小規(guī)模的語言模型就已經(jīng)在農(nóng)業(yè)領(lǐng)域得以應(yīng)用。如Rezayi等［30］提出了用于匹配食物與營養(yǎng)成分的AgriBERT模型。該模型使用了BERT語言模型結(jié)構(gòu)，在基于大量學(xué)術(shù)期刊的語料數(shù)據(jù)集上進行了從零開始的預(yù)訓(xùn)練，并通過農(nóng)業(yè)專業(yè)知識圖譜增強答案來微調(diào)。結(jié)果表明，使用專用語料數(shù)據(jù)集進行訓(xùn)練后，模型匹配能力的提升非常顯著，而專業(yè)知識圖譜的影響較為復(fù)雜：模型能更好地推測出食物中最多的營養(yǎng)成分，但其推測出食物完整營養(yǎng)成分的能力會下降。這項工作為語言模型與知識圖譜在農(nóng)業(yè)領(lǐng)域的結(jié)合提供了一定指導(dǎo)。

目前，語言大模型的文本分析與生成能力在多種農(nóng)業(yè)任務(wù)中得以應(yīng)用，其可以對農(nóng)業(yè)文本進行信息抽取與分類，為農(nóng)業(yè)問題提出解答，提供全面的智慧農(nóng)業(yè)服務(wù)。農(nóng)業(yè)領(lǐng)域?qū)Ｓ谜Z言大模型的訓(xùn)練還在進行當中，如Yang等［31］基于預(yù)先訓(xùn)練的Llama2-7B與Llama2-13B模型，通過在大量專業(yè)文本上的繼續(xù)預(yù)訓(xùn)練與指示微調(diào)，訓(xùn)練出適用于植物科學(xué)領(lǐng)域的PLLaMa系列模型。在測試中，基于Llama2-13B的PLLaMa-13B-Chat在給定的多選問題上可以達到60%的準確率，同時在零樣本生成測試中也取得了令農(nóng)業(yè)與植物專家滿意的結(jié)論。由安徽省農(nóng)業(yè)農(nóng)村廳與科大訊飛構(gòu)建的“耕耘大模型”，基于星火認知大模型的核心技術(shù)，對接海量涉農(nóng)數(shù)據(jù)，實現(xiàn)包含農(nóng)業(yè)生產(chǎn)、市場分析，以及政策咨詢與政務(wù)服務(wù)的一站式智慧農(nóng)業(yè)系統(tǒng)。由中國農(nóng)業(yè)大學(xué)開發(fā)的“神農(nóng)大模型1.0”，使用多種農(nóng)業(yè)學(xué)科的海量數(shù)據(jù)進行訓(xùn)練，利用知識圖譜與向量數(shù)據(jù)庫提供相關(guān)文本來緩解模型幻覺，具有農(nóng)業(yè)知識問答、農(nóng)業(yè)文本摘要生成、農(nóng)業(yè)生產(chǎn)決策等多種能力，是中國農(nóng)業(yè)人工智能領(lǐng)域新的進展。

2）探究與增強已有語言大模型的農(nóng)業(yè)能力。

不經(jīng)過額外的大規(guī)模預(yù)訓(xùn)練，探究已有語言大模型在農(nóng)業(yè)領(lǐng)域的應(yīng)用能力也取得了一定成果。ChatAgri［32］是一種使用ChatGPT（基于GPT-3.5）的多語言農(nóng)業(yè)文本分類技術(shù)，總共包含有四種處理方向。一是使用人工書寫的指令來讓ChatGPT篩選文本；二是用ChatGPT構(gòu)建出多個問題后再使其基于問題篩選文本；三是讓ChatGPT判斷當前文本與已有文本的相似度來分類；四是在方向三中額外引入分步推理提升正確性。分類后的句子會繼續(xù)以固定的規(guī)則或與各類別的典型答案進行相似匹配兩種方式進一步對齊與歸并。ChatAgri使用零樣本學(xué)習(xí)即可超出其他模型，展現(xiàn)了語言大模型在農(nóng)業(yè)文本分類上的卓越能力。

語言大模型的農(nóng)業(yè)問答能力也得到了研究。Silva等［33］基于美國、巴西與印度三地的農(nóng)業(yè)問題，探究了LLaMa2-13B、LLaMa2-70B、GPT-3.5與GPT-4四種模型的農(nóng)業(yè)應(yīng)用能力。采用檢索增強生成（Retrieval-Augmented Generation,RAG）、集成精煉（Ensemble Refinement,ER）與問題背景描述三種方式提高模型的生成能力。GPT-4作為實驗的最優(yōu)模型，其在農(nóng)業(yè)碩士考試的成績超越人類考生結(jié)果，展現(xiàn)出語言大模型超越人類的問答能力，王婷等［34］基于草莓栽培農(nóng)技知識設(shè)計了知識對象識別與知識問答兩種下游任務(wù)，來探究Baichuan2-13B-Chat、ChatGLM26B等模型的農(nóng)業(yè)能力。使用多種學(xué)術(shù)數(shù)據(jù)來源提取與草莓栽培技術(shù)相關(guān)的知識并進行標注。同時為提升模型性能，該研究在知識對象識別實驗中采用LoRA微調(diào)，在知識問答實驗中采用提示微調(diào)與檢索增強生成等方法。這項實驗為農(nóng)業(yè)大模型的中文問答能力評估提供了初步見解。

語言大模型可以生成高質(zhì)量的農(nóng)業(yè)信息，但是對于精確到一定地區(qū)的問題，可能依然生成一般性回答，與地區(qū)的實際情況有所偏差。Balaguer等［35］采用檢索增強生成與微調(diào)來提升模型在地區(qū)具體問題上的回復(fù)能力。實驗從公開文檔中抽取格式化數(shù)據(jù)，并用模型生成所選文本的相關(guān)問題。使用增強的模型回答問題后，問題與答案會由GPT-4統(tǒng)一進行多角度的評估。評估不僅聚焦于問題范圍精準度、答案的正確性等，也包括問題的擬人性、答案文本流暢性等多個角度。實驗不僅表明兩種方式均可顯著增強模型能力，且提出了基于大模型的多維度評估機制，為模型的農(nóng)業(yè)能力評價提供了基線。

3）語言大模型與外部系統(tǒng)配合。

語言大模型強大的文本理解與生成能力，使其能夠有效地與其他小型人工智能模型等外部系統(tǒng)結(jié)合。Qing等［36］設(shè)計了一套綜合使用語言大模型與計算機視覺模型的病蟲害識別系統(tǒng)。該系統(tǒng)依賴YOLO模型［37］來識別植物病害，并提出YOLO的輕量級變體YOLOPC，來識別圖片中的植物蟲害。識別后的結(jié)果會先進行簡單的轉(zhuǎn)換，生成文字描述。之后，檢測結(jié)果與可選的額外信息（如地點等）會合并后傳輸給GPT-4模型，以產(chǎn)生綜合的描述與應(yīng)對方案。實驗結(jié)果表明，GPT-4可以有效地生成對病蟲害的全面描述并給出相應(yīng)的解決方案。同時，使用對當前環(huán)境的額外描述，以及讓GPT-4在生成總結(jié)后再進行推理，均對模型能力的提升有較大的幫助。Peng等［38］設(shè)計了一套利用語言大模型進行輔助農(nóng)業(yè)文本信息提取的系統(tǒng)。這項系統(tǒng)同時依賴于語言大模型與基于嵌入的檢索（Embedded-Based Retrieval,EBR）過濾器。EBR過濾器可以將文本轉(zhuǎn)換為向量并映射到高維空間，以此檢測文本片段的相似性，并基于此來提取文本特征。

提取文本的過程總共分為四步。第一步，文本將使用EBR過濾器進行預(yù)先切割后，再通過語言大模型進行處理，提取其中的描述性詞匯；第二步，語言大模型將上一步中的描述性詞匯與相應(yīng)的類別相匹配，如將“白色”匹配為“顏色”；第三步，語言大模型會從對應(yīng)的文本中提取主要的實物實體，類似于命名實體識別過程但著重于帶有形容的實物；第四步，使用語言大模型將實體與描述進行匹配，并將結(jié)果輸入EBR過濾器，將同義但不同詞的表述進行對齊統(tǒng)一，得到結(jié)構(gòu)化的文本輸出。實驗采用了GPT3.5-turbo作為語言大模型，并將輸出結(jié)果經(jīng)過人工評估，發(fā)現(xiàn)這種系統(tǒng)在準確率與召回率上均有良好的表現(xiàn)。這一結(jié)果突顯了語言大模型在農(nóng)業(yè)文本結(jié)構(gòu)化處理方向上的應(yīng)用潛力。

語言大模型在農(nóng)業(yè)領(lǐng)域的這些應(yīng)用展示出其對農(nóng)業(yè)文本強大的理解與生成能力。通過融合相關(guān)外部文本、多輪自行判斷推理以及模型高效微調(diào)，語言大模型的農(nóng)業(yè)能力能夠顯著增強。未來，使用通用語言大模型并通過外部信息以及少量訓(xùn)練與微調(diào)來增強其農(nóng)業(yè)能力的方式會得以進一步推廣。這些模型既能作為農(nóng)業(yè)智能問答系統(tǒng)的核心，也可以被整合到其他多樣化的系統(tǒng)中，從而提升人工智能在農(nóng)業(yè)領(lǐng)域的應(yīng)用水平。

2.2.2視覺大模型

計算機視覺領(lǐng)域較早的主要研究范式是基于有監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練。ImageNet這種大規(guī)模圖像分類數(shù)據(jù)集促使了這一范式的沿用與推廣。這種范式下的模型包括AlexNet與ResNet等圖片分類模型，YOLO等物體檢測模型，以及U-Net等圖像語義分割模型。這種有監(jiān)督的范式限制了視覺模型的泛化性與適用性［2］。將語言模型的相關(guān)技術(shù)應(yīng)用于計算機視覺領(lǐng)域，并使用自監(jiān)督等學(xué)習(xí)方法，促進了視覺大模型的產(chǎn)生。

Florence［39］模型廣泛的視覺能力使其成為視覺大模型領(lǐng)域的重要突破。該模型可以快速適配多種計算機視覺任務(wù)，涵蓋了圖像分類、圖像和視頻檢索、目標物體識別、可視化問答、圖像標注、視頻內(nèi)容理解和動作識別等領(lǐng)域。其核心創(chuàng)新之一在于能力的泛化，能夠處理從粗粒度（如整體場景）到細粒度（如特定對象）的信息，從靜態(tài)圖像到動態(tài)視頻的內(nèi)容等。Florence不僅在常規(guī)的視覺任務(wù)中展現(xiàn)了高度的適應(yīng)性和性能，在處理更復(fù)雜、多樣化的數(shù)據(jù)類型和任務(wù)時也展示了前所未有的識別與分析能力。特別是在遷移學(xué)習(xí)的應(yīng)用場景中，無論是在微調(diào)、線性探測（Linear Probing）、少量樣本遷移（Few-shot Transfer）還是在完全沒有先前知識的新圖像和新物體的零樣本遷移（Zero-shot Transfer）場景中，該模型都能有效地適應(yīng)并保持高效的性能。

SAM［18］模型將圖像分割引入視覺大模型領(lǐng)域，是計算機視覺大模型的重大突破。其能夠在多種不同場景中分割出其中不同的物體，表明其對“物體”的理解已上升到高度抽象的層面。SAM在SA-1B這一規(guī)模空前的開放數(shù)據(jù)集上訓(xùn)練，保證了其強大的性能；SAM結(jié)構(gòu)包含圖像編碼器、提示編碼器和掩碼解碼器三個組件，允許用戶使用文本描述與可視化的圖像分割范圍兩種提示來指導(dǎo)模型進行分割處理，通過輸出多個有效掩碼來處理模棱兩可的提示，允許該模型在不同的圖像分布和任務(wù)中進行零樣本遷移學(xué)習(xí)。圖3展示了SAM模型的架構(gòu)。

圖3 SAM模型架構(gòu)

作為視覺大模型的代表，SAM模型的分割能力在種植業(yè)、畜牧業(yè)以及農(nóng)業(yè)遙感等領(lǐng)域得到了體現(xiàn)。

Williams等［40］探究了SAM模型分割土豆植株葉片的能力。首先使用SAM模型在圖像上直接進行分割，而后通過顏色檢查、去除全植物掩碼、形狀過濾、剔除含多葉片的掩碼四個步驟，構(gòu)建“葉片專用SAM”推理流程。將該流程與Mask R-CNN模型進行比較，結(jié)果表明SAM在使用上述構(gòu)建步驟后分割效果有所提升，然而依然略弱于基于監(jiān)督學(xué)習(xí)的Mask R-CNN。但這一推理流程本身并不需要人工參與，采用零樣本分割的SAM對農(nóng)業(yè)領(lǐng)域減少人工標記數(shù)據(jù)的依賴起到了推動作用。

Carraro等［41］評估了SAM模型對作物與雜草圖像生成精確圖像分割的潛力。該實驗使用作物/雜草田間圖像數(shù)據(jù)集（Crop/Weed Field Image Dataset,CWFID），通過語義分割來區(qū)分植被的前景與背景，分割測試采用人工輔助標記與無監(jiān)督自動標記的兩種形式，在不對SAM額外訓(xùn)練的情形下探究其零樣本學(xué)習(xí)能力。結(jié)果表明，SAM模型在使用僅少量點或邊框進行提示下效果良好，但是在自動標記的情況下會過度分割圖像，說明模型需要向農(nóng)業(yè)方向進一步適配。即便如此，該項研究依然為作物與雜草圖像識別提供了一種弱監(jiān)督的可能方法。

Li等［42］提出了一種農(nóng)業(yè)SAM適配器，通過適配器微調(diào)的方法提升模型的農(nóng)業(yè)能力，并通過病蟲害圖像分割探究該適配器的能力。該適配器由少量全連接層配合ReLU激活函數(shù)構(gòu)成，在SAM掩碼解碼器的多頭注意力層后與多層感知器后加入，同時在微調(diào)過程中僅訓(xùn)練適配器來使SAM模型快速適應(yīng)農(nóng)業(yè)任務(wù)。通過收集有關(guān)咖啡葉疾病和害蟲的12種數(shù)據(jù)集并創(chuàng)建對應(yīng)識別任務(wù)，測試原始SAM模型與添加適配器變種的能力。實驗結(jié)果表明，添加適配器后SAM在各項任務(wù)中的表現(xiàn)均有提升，尤其在識別咖啡葉疾病時平均戴斯系數(shù)與平均交并比分數(shù)提高約40%，實踐了視覺大模型在農(nóng)業(yè)領(lǐng)域中對適配器微調(diào)的有效使用，推動了視覺大模型在農(nóng)業(yè)領(lǐng)域的適應(yīng)與應(yīng)用。圖4為在使用適配器前后SAM模型的病蟲害圖像分割結(jié)果，展示了SAM適配器對分割能力的顯著提升。

圖4 SAM在使用適配器后的病蟲害圖像分割實例

Yang等［43］以無籠養(yǎng)雞為例子，通過多角度的實驗探討了SAM模型在家禽業(yè)的應(yīng)用甚至于養(yǎng)殖業(yè)的未來潛力。

主要設(shè)計了兩種實驗，一是比較SAM以及其他先進模型（SegFormer［44］和SETR［45］）在普通圖像與熱源圖上的圖像分割能力，包含對整只雞的分割與除尾部外部分的分割，詳細探究該情境下SAM的零樣本分割能力。二是將YOLOX和ByteTrack模型與SAM模型結(jié)合，利用前兩者的物體識別與追蹤能力，實現(xiàn)對雞群內(nèi)單只雞的詳細運動追蹤。

實驗結(jié)果表明，SAM在雞的整體與部分身體的分割任務(wù)上超越了其他先進模型，且上述運動追蹤系統(tǒng)達到了實時的處理速度。實驗也表明SAM模型在雞群密度高、設(shè)施遮擋，以及雞的行為與姿勢多變的情況下具有一定的局限性，為未來的研究指明了方向。

農(nóng)業(yè)遙感領(lǐng)域側(cè)重于通過遙感圖像提取出農(nóng)用地的多種信息，提升農(nóng)業(yè)數(shù)據(jù)的準確性和實用性，指導(dǎo)地方農(nóng)業(yè)向精細化、個性化的方向發(fā)展。

Gui等［46］探究了SAM模型通過遙感圖像在農(nóng)業(yè)用地及城市綠地的劃分方面的能力。其使用美國多地的精度為0.5~30 m不等的遙感圖像，采用有監(jiān)督的人工輔助分割以及無監(jiān)督自動分割兩種方法對模型能力進行測試，發(fā)現(xiàn)SAM在使用人工標定感興趣區(qū)域（Region of interest,ROI）與非感興趣區(qū)（Uninterested Region）后其準確率可保持90%以上，但無監(jiān)督分割的準確率則有明顯更低，尤其受低分辨率與較大框定范圍的影響。由此，Gui等提出幾項改進意見，包括使用更多樣化的圖像擴充訓(xùn)練數(shù)據(jù)集以擴展SAM模型的能力范圍，以及調(diào)節(jié)模型的超參數(shù)來增加SAM在細微差別上的敏感度。

Gurav等［47］探討了SAM模型在生成作物類型圖上的潛力，發(fā)現(xiàn)SAM對輸入的作物類別不敏感，但可以劃分田地。由此，提出利用SAM劃分衛(wèi)星圖像的田地輪廓作為作物分類的基礎(chǔ)，并使用多種聚類一致性指標（Clustering Consensus Metrics）來評估其圖像分割性能。

為進一步提升SAM模型的農(nóng)業(yè)遙感能力，Liu［48］提出了一種基于SAM模型的利用遙感圖像劃分農(nóng)田邊界的工作流程。該流程采取雙階段的策略，首先初步地將圖像進行全景分割，創(chuàng)建整體的耕作地圖，隨后提取出感興趣區(qū)，以進行更加細致的分割。該研究同時詳細闡述了如何從感興趣區(qū)生成提示點并輸入SAM模型，以此來指導(dǎo)模型進行細致劃分。通過對黑龍江省兩處約1 000 km2的試驗區(qū)進行實驗，該方法在總識別率、平均交并比、平均過分割比與平均欠分割比四項指標上的評價均十分出色，通過零樣本學(xué)習(xí)，為解決大規(guī)模農(nóng)田界限精確提取問題，尤其是大規(guī)模未標記區(qū)域，提供了一種低成本且高效的新途徑。

SAM模型也為改進現(xiàn)有遙感數(shù)據(jù)提供了幫助，如Zhang等［49］提出了一種通過SAM模型提高由美國國家農(nóng)業(yè)統(tǒng)計局開發(fā)的農(nóng)田數(shù)據(jù)層準確性的方法。該研究利用SAM的零樣本泛化能力，從Sentinel-2衛(wèi)星圖像中對農(nóng)田地塊進行劃分，在美國主要農(nóng)業(yè)區(qū)域，如加利福尼亞中央谷地和美國玉米帶上進行實驗，提高了農(nóng)田數(shù)據(jù)層的精確度。

SAM模型的“分割一切”能力使其在發(fā)布的短期內(nèi)即在農(nóng)業(yè)的多個領(lǐng)域得到充分應(yīng)用。盡管其在部分特定任務(wù)中不及傳統(tǒng)人工監(jiān)督學(xué)習(xí)模型，但僅通過少量的監(jiān)督微調(diào)，其在農(nóng)業(yè)領(lǐng)域的能力就能夠得到顯著提升。在未來，隨著視覺大模型技術(shù)的進步，利用特定提示、少量人工監(jiān)督訓(xùn)練等方法，這些模型將更加高效地替代傳統(tǒng)模型，在農(nóng)業(yè)領(lǐng)域發(fā)揮更大作用。

2.2.3多模態(tài)大模型

與單一處理文本或圖像的模型不同，多模態(tài)大模型可以融合語言、圖像等多種信息，打破多種信息載體的壁壘。這種模型一般涉及多種信息載體的互相轉(zhuǎn)換與理解，提升機器對世界的理解能力，是通用人工智能出現(xiàn)的必要門檻。

2021年出現(xiàn)的CLIP（Contrastive Language-Image Pre-training）［50］模型是將視覺模型接入文字能力的重要嘗試。該模型使用文本編碼器與圖像編碼器，并將兩種輸出投射到共同的嵌入空間，學(xué)習(xí)文本與圖片在空間內(nèi)的相似性，以此指導(dǎo)模型通過一定的文字提示對圖像進行分類。模型采用對比學(xué)習(xí)的方法，通過由互聯(lián)網(wǎng)采集的圖像-文本集合，構(gòu)建對圖片的正向和反向描述并進行訓(xùn)練。該模型的創(chuàng)新點在于其出色的零樣本學(xué)習(xí)能力，如能夠理解風(fēng)格不同的圖像并提取關(guān)鍵信息；同時，其使用自監(jiān)督的學(xué)習(xí)方法，大量減少對人工標注依賴的同時，能夠取得與監(jiān)督學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)ResNet50的相似性能。

由DeepMind開發(fā)的Flamingo［51］模型是多模態(tài)領(lǐng)域的重要研究成果之一。該模型使用了預(yù)先訓(xùn)練的視覺與語言模型，且僅通過訓(xùn)練兩者間新的神經(jīng)網(wǎng)絡(luò)來讓模型學(xué)習(xí)到多模態(tài)能力。通過在大量文本與圖片穿插的互聯(lián)網(wǎng)數(shù)據(jù)上進行訓(xùn)練，F(xiàn)lamingo可以經(jīng)過少量樣本學(xué)習(xí)遷移到多種多模態(tài)任務(wù)上來，是多模態(tài)模型在遷移能力上的一大突破。此外，GPT-4作為語言模型亦具有多模態(tài)能力，可以對輸入的多種圖像進行復(fù)雜分析，包括圖表分析、文字提取、照片內(nèi)容分析等[23]。

圖像與視頻生成也是多模態(tài)領(lǐng)域的重要研究方向之一。如DALL-E［52］模型作為GPT-3的擴散模型（Diffusion models）變體，可以根據(jù)一定的文字描述生成圖像。這種模型基于變分自編碼器（Variational Autoencoders,VAEs）［53］與Transformer架構(gòu)相結(jié)合，VAE將圖像編碼為離散潛在表征，Transformer則學(xué)習(xí)自然語言描述到這些表征的映射，以此指導(dǎo)模型的圖像生成能力。DALL-E模型可以在未經(jīng)訓(xùn)練的文本中生成高質(zhì)量圖像，甚至包括對復(fù)雜與高度抽象的概念圖像具體描述，表現(xiàn)出零樣本學(xué)習(xí)能力，同時模型可以較精確地控制圖像的顏色、形狀等細節(jié)，展現(xiàn)了出色的圖像生成能力。

近期，由OpenAI開發(fā)的Sora［54］視頻生成模型在GPT與DALL-E的部分技術(shù)基礎(chǔ)上繼續(xù)開發(fā)。Sora將視頻映射為時空碎片（Spacetime Latent Patch），并使用Diffusion Transformer融合文字、圖像等提示后生成去噪數(shù)據(jù)，最終解碼為目標視頻。Sora在視頻保真度上尤為突出，如可以在視角快速移動時保持三維內(nèi)容一致性，以及保持視頻物體的長距離一致性等，并實現(xiàn)了視頻生成、融合與擴展等多種功能。

農(nóng)業(yè)領(lǐng)域的知識涉及圖像和文字等多種介質(zhì)，通過多模態(tài)模型的方式將知識融合，基于多種異構(gòu)信息提供知識服務(wù)，對農(nóng)業(yè)知識的推廣與落地有著很強的現(xiàn)實意義。Cao等［55］提出了一種多模態(tài)模型ITLMLP，融合了圖像、文字與標簽三種輸入方式，并將CLIP與SimCLR的部分結(jié)構(gòu)融入模型之中，用于對黃瓜病害進行識別。模型利用圖像與文本信息進行對比學(xué)習(xí)，并與標簽信息相結(jié)合，在少樣本上進行學(xué)習(xí)。通過與CLIP、SimCLR以及SLIP（Self-Supervision Meets Language-Image Pre-training）［56］模型的對比結(jié)果顯示，ITLMLP在黃瓜病害識別的多種指標上超出以上三種模型。ITLMLP模型在多種其他植物病害上也有著良好表現(xiàn)，與其他三種模型相比性能更好或有極小差距，展現(xiàn)了該模型的泛化能力。Tan等［5］設(shè)計了針對GPT-4的多個基于農(nóng)業(yè)領(lǐng)域圖片與提示詞的簡要實驗。其中，第一項實驗是基于遙感圖像和對應(yīng)的基本信息（地區(qū)、時間等）對農(nóng)田作物進行識別，結(jié)果表明GPT-4在一般圖像上表現(xiàn)良好，但在復(fù)雜環(huán)境會出現(xiàn)錯誤。第二項實驗是通過航空圖像（普通圖像與近紅外（Near-Infrared,NIR）圖像）識別作物的養(yǎng)分缺失，實驗結(jié)果顯示GPT-4模型能夠分析出圖像中養(yǎng)分缺失的特征信息以及對應(yīng)的圖像范圍，但需要詳細的說明與相關(guān)知識來指導(dǎo)其分析。第三項實驗是探究GPT-4在植物病蟲害與植物表型檢測上的能力，包含棉花病蟲害檢測、雜草識別以及棉苗、棉花花朵與棉鈴的計數(shù)。該研究中GPT-4在分析較簡單圖像時表現(xiàn)良好，處理復(fù)雜或相似圖像時容易產(chǎn)生錯誤，但其提供的農(nóng)業(yè)知識與建議等較為全面，有一定的借鑒作用。第四項實驗旨在將GPT-4應(yīng)用于家禽業(yè)，包含對蛋殼問題、雞禽行為的分析，以及雞群計數(shù)共三種探究。實驗表明GPT-4在蛋殼問題與雞禽行為的分析上可以提供全面且較為精確的內(nèi)容，在雞群計數(shù)問題上也可以對圖像細節(jié)進行歸納，展現(xiàn)出其在家禽管理上的潛力?？偟膩碚f，研究結(jié)果展示了以GPT-4為代表的高級多模態(tài)模型在農(nóng)業(yè)領(lǐng)域的廣泛前景，其復(fù)雜的圖像解讀、文本分析，以及生成能力將推動農(nóng)業(yè)知識的普及與個性化農(nóng)業(yè)分析的發(fā)展。

多模態(tài)模型在農(nóng)業(yè)領(lǐng)域的主要優(yōu)勢之一是能夠打破多種農(nóng)業(yè)圖像問題與農(nóng)業(yè)知識文本之間的壁壘，通過統(tǒng)一的模型為多種農(nóng)業(yè)問題提供全面的解決方案。將語言大模型與視覺大模型等的能力結(jié)合，進行多模態(tài)方向的深入開發(fā)，進一步提升模型能力，為實現(xiàn)綜合化的智慧農(nóng)業(yè)服務(wù)提供更為堅實的技術(shù)支撐，為農(nóng)業(yè)領(lǐng)域帶來更高效、智能的解決方案。

農(nóng)業(yè)大模型發(fā)展重點方向

大模型是人工智能領(lǐng)域的技術(shù)突破，通過大規(guī)模的自監(jiān)督學(xué)習(xí)與龐大的參數(shù)量，大模型僅通過少量學(xué)習(xí)樣本甚至無樣本就可以遷移到大量下游任務(wù)中，在多個農(nóng)業(yè)問題上取得了良好成果。將大模型應(yīng)用于多種農(nóng)業(yè)任務(wù)中指導(dǎo)農(nóng)業(yè)發(fā)展，使用大模型進行數(shù)據(jù)分析與決策，是未來的發(fā)展趨勢，也為智慧農(nóng)業(yè)、精準農(nóng)業(yè)等領(lǐng)域的發(fā)展提供了新的方向。目前大模型及其在農(nóng)業(yè)領(lǐng)域的應(yīng)用尚處于早期階段，仍需克服一系列挑戰(zhàn)，但具有很強的發(fā)展?jié)摿Α?/p>

3.1構(gòu)建綜合且集中的農(nóng)業(yè)數(shù)據(jù)集

農(nóng)田環(huán)境多變、場景復(fù)雜，收集大規(guī)模、多樣化的數(shù)據(jù)集存在一定困難。雖然大模型的遷移能力減少了模型對農(nóng)業(yè)數(shù)據(jù)的需要，但其遷移效果受數(shù)據(jù)質(zhì)量的影響較大，確保數(shù)據(jù)的準確性和一致性至關(guān)重要。

目前農(nóng)業(yè)領(lǐng)域的數(shù)據(jù)集呈現(xiàn)相對較為局限和分散的現(xiàn)狀，依然限制了大模型在農(nóng)業(yè)上的廣泛應(yīng)用。尤其是文本數(shù)據(jù)，大多數(shù)現(xiàn)有數(shù)據(jù)集可能缺少專門針對農(nóng)業(yè)領(lǐng)域設(shè)計，例如氣候災(zāi)害數(shù)據(jù)等，與農(nóng)業(yè)相關(guān)聯(lián)但并不直接聚焦于農(nóng)業(yè)關(guān)鍵領(lǐng)域。而要構(gòu)建文本數(shù)據(jù)，使用網(wǎng)絡(luò)爬蟲既耗時又復(fù)雜，依賴于學(xué)術(shù)期刊等權(quán)威數(shù)據(jù)又可能引發(fā)版權(quán)問題等。而對于視覺數(shù)據(jù)集，大多只針對某項農(nóng)業(yè)問題，規(guī)模較小且分散。無論是訓(xùn)練還是輔助回答，數(shù)據(jù)的質(zhì)量和數(shù)量是模型成功的關(guān)鍵因素。因此，建立一個高質(zhì)量、全面、廣泛且開放共享的數(shù)據(jù)集顯得尤為重要。這樣的農(nóng)業(yè)數(shù)據(jù)集不僅需要收集大量的農(nóng)業(yè)數(shù)據(jù)，也需要采用更加先進的技術(shù)對數(shù)據(jù)進行持續(xù)的篩選和整合對齊，以反映農(nóng)業(yè)研究與實踐中先進且綜合的成果。

3.2減輕模型的訓(xùn)練與部署難度

農(nóng)業(yè)領(lǐng)域涉及的作物種類繁多，不同地區(qū)的氣候、土壤條件差異顯著，通用的大模型難以適應(yīng)所有場景，需要構(gòu)建具有地域特色的專用模型或?qū)Ｓ媚K。而大模型的預(yù)訓(xùn)練、微調(diào)和部署工作均需要大量的計算能力與存儲空間，高度依賴于高性能GPU服務(wù)器，且依然需要較長的訓(xùn)練時間。這種需求限制了目前大模型在農(nóng)業(yè)等多個領(lǐng)域的進一步發(fā)展。

目前，擴展性訓(xùn)練技術(shù)［7］可以減少模型的GPU顯存需求并提高模型吞吐量，同時QLoRA［57］與OPTQ［58］等技術(shù)允許模型降低參數(shù)精度來縮減模型體積，已經(jīng)得到了廣泛應(yīng)用。此外，大模型自身的優(yōu)化和發(fā)展亦有助于在較小的參數(shù)規(guī)模上實現(xiàn)或超越更大模型的性能，而硬件的進步也將增強模型在更廣泛領(lǐng)域的應(yīng)用潛力。未來，模型的進一步輕量化和便攜化將促進其在農(nóng)業(yè)等領(lǐng)域的普及。

3.3構(gòu)建基于大模型的農(nóng)業(yè)決策系統(tǒng)

基于復(fù)雜文本、圖像等信息的分析能力，大模型可以作為農(nóng)業(yè)決策的核心，接入不同來源的各種模塊。這些模塊可以包括有物聯(lián)網(wǎng)實時監(jiān)控設(shè)備、其他人工智能模型、公開的即時信息（如天氣）等。通過一定的提示，大模型可以整合多種輸入來源，并推理出基于實時信息的最優(yōu)策略。用戶可以通過語言交互來獲取簡單易懂的個性化反饋與建議［59］，甚至農(nóng)業(yè)機器人可以在大模型的指導(dǎo)下進行自動化的管理與采收等工作［60］。通過提高模型的泛化性，確保決策模型能夠適應(yīng)不同的農(nóng)業(yè)環(huán)境和條件。但是，由于農(nóng)業(yè)大模型更多面向農(nóng)民等群體，因此農(nóng)業(yè)決策需要更強的模型可解釋性，以便農(nóng)民能夠理解和信任模型的輸出。此外，還可通過融合多種外部能力與自身知識儲備制定出全面可靠的農(nóng)業(yè)方案，來進一步提升農(nóng)業(yè)管理的效率和準確性，甚至為農(nóng)業(yè)領(lǐng)域帶來變革。

3.4推動大模型在農(nóng)業(yè)領(lǐng)域的廣泛應(yīng)用

當前，大模型在農(nóng)業(yè)領(lǐng)域的應(yīng)用仍然主要局限于科研階段的小規(guī)模測試，其在公共服務(wù)方面的應(yīng)用明顯不足。發(fā)展和推廣農(nóng)業(yè)大模型正面臨著涉及技術(shù)、政策、資金和農(nóng)民接受能力等多個方面。此外，如何將大模型技術(shù)轉(zhuǎn)化為可落地應(yīng)用的具體產(chǎn)品和服務(wù)，以及如何通過這些產(chǎn)品和服務(wù)產(chǎn)生商業(yè)價值，是農(nóng)業(yè)大模型發(fā)展另一個挑戰(zhàn)。這些均需要政府、企業(yè)、研究機構(gòu)和農(nóng)民等各方共同努力，制定合適的政策和措施，推動農(nóng)業(yè)大模型的可持續(xù)發(fā)展和推廣。

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。若有來源標注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點資訊

Telegram上泄露的3.61億條記錄被掛在暗網(wǎng)上了

農(nóng)業(yè)大模型：關(guān)鍵技術(shù)、應(yīng)用分析與發(fā)展方向

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

農(nóng)業(yè)大模型：關(guān)鍵技術(shù)、應(yīng)用分析與發(fā)展方向

最新評論（評論僅代表用戶觀點）

大有可為智慧門禁護一方平安

北京：聚焦元宇宙、仿真模擬算法，力爭智能建造產(chǎn)業(yè)突破千億元

人工智能徹底改變氣候變化倡議的6種方式

超越人眼所見，“真黑光”背后的AI技術(shù)革新

本月熱門

云計算的江湖，風(fēng)云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會即將啟幕!

網(wǎng)博會革新升級：“區(qū)域頻道”精準選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

2024第七屆信息技術(shù)應(yīng)用創(chuàng)新大會即將召開

喜報!海貝財務(wù)官榮膺“2023數(shù)字化創(chuàng)新優(yōu)秀解決方案”獎項

九科招商港口財務(wù)共享中心建設(shè)項目

這些想要改變未來的機器人，你了解多少？

中移在線公司云客服事業(yè)部產(chǎn)品總監(jiān)姚慧：數(shù)智點亮未來，創(chuàng)新引領(lǐng)價值

2022電子政務(wù)安全成果征集結(jié)果正式發(fā)布

熱點資訊

“皇冠丹麥曲奇”勝訴 “藍罐曲奇”敗訴——市場競爭需遵守法律底線

什么是 OSI 模型？OSI 模型的七層是哪些？

自動化測試有哪些常見的挑戰(zhàn)和解決方案？

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標桿案例”

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

Telegram上泄露的3.61億條記錄被掛在暗網(wǎng)上了

綠色智算中心如何破解AI能耗困局

農(nóng)業(yè)大模型：關(guān)鍵技術(shù)、應(yīng)用分析與發(fā)展方向

最新評論（評論僅代表用戶觀點）

欄目推薦

大有可為 智慧門禁護一方平安

北京：聚焦元宇宙、仿真模擬算法，力爭智能建造產(chǎn)業(yè)突破千億元

人工智能徹底改變氣候變化倡議的6種方式

超越人眼所見，“真黑光”背后的AI技術(shù)革新

本月熱門

精選文章

熱點資訊

Telegram上泄露的3.61億條記錄被掛在暗網(wǎng)上了

綠色智算中心如何破解AI能耗困局

大有可為智慧門禁護一方平安

北京：聚焦元宇宙、仿真模擬算法，力爭智能建造產(chǎn)業(yè)突破千億元

超越人眼所見，“真黑光”背后的AI技術(shù)革新