評測 AI 在金融領域的能力:開源大語言模型的比較分析

Alvin Cho
Apr 27, 2024

--

造訪我們的 GitHub 儲存庫:造訪我們的 GitHub 頁面以探索資料集、下載程式碼並查看與我們的開源大型語言模型測試相關的文件。該儲存庫旨在為教育工作者、研究人員和任何對人工智慧模型測試感興趣的人提供資源。

介紹:

在快速發展的金融世界中,人工智慧的整合已成為推動創新解決方案和增強決策流程的基石。最近,我踏上了一段迷人的旅程,評估專門針對金融問答場景量身定制的各種開源大型語言模型 (LLM) 的功能。我的目標是了解這些模型在標準化提示設定下的執行情況,其中每個模型都充當“財務分析師”,以 JSON 格式簡潔地回答查詢。該分析不僅揭示了人工智慧在金融查詢中的現狀,而且旨在指導金融科技領域的未來發展和實施

測試目的

此探索性分析的主要目標是確定哪種開源大型語言模型最適合處理金融領域的特定任務。此初步測試著重於兩個關鍵領域:

  1. 金融術語理解:每個模型準確理解和回應涉及複雜金融術語的查詢的能力。這對於確保金融領域人工智慧應用的可靠性和資訊量至關重要。
  2. 基本財務推理:評估每個模型執行有關交易和投資情境的基本推理的能力。這包括了解市場動態、預測潛在的財務結果以及根據給定數據提供初步財務建議。

目的是確定哪個大語言模型能夠為這些任務提供最有效和最準確的表現,為未來金融服務中的AI應用提供有價值的處理能力。透過進行這種分析,我們可以更了解每種模型的優點和局限性,並指導開發人員和企業根據其在金融領域的特定需求選擇合適的人工智慧工具。

方法

為了對用於財務問答任務的開源大型語言模型 (LLM) 進行全面評估,採用了一種結構化且可複製的測試方法,使用以下方法:

使用的工具:

  • ollama :所有測試都是使用ollama進行的,它可以在不同的法學碩士之間進行一致和公平的比較。該工具提供了一個標準化環境,可以在相同條件下運行每個模型。

資料集創建:

  • 問題生成:此測試的資料集是使用 ChatGPT-4 產生的,確保每個問題都與金融術語和基本交易概念相關。這種方法有助於維持資料集的品質和特異性,並專注於金融領域。Basic Financial Q&A v0.3資料集可以從GitHub下載。
  • 答案驗證:每個問題都設計有一個簡單、可驗證的答案,以便對模型輸出進行直接評估,確保可以客觀地評估每個模型的準確性。

測試執行:

  • 重複試驗:每個模型都會對每個問題進行多次處理,以考慮反應的變異性。這種重複有助於評估每個模型在提供正確可靠答案方面的一致性。
  • 問題的一致性:為了確保所有模型在相同的條件下進行評估,所有測試都使用相同的提示範本。模型被指示充當金融分析師,僅以預先定義的 JSON 格式進行回應,嚴格關注答案,無需額外解釋。

這種方法不僅為評估每個大語言模型的能力提供了一個強大的框架,而且還確保研究結果是基於一致和透明的測試過程。

物理環境

為了提供一個高效且有效的測試環境來評估開源大型語言模型在金融問答任務上的性能,我們開發了一個尖端的 Multi-Agent System多代理系統。此設定利用了多台 Mac 電腦的高級功能,特別是利用了它們的高效能功能。以下是設定概述:

使用的硬體:

  • 配備 M2 Ultra 晶片的 Mac Studio:我們的測試環境的骨幹由多個配備 M2 Ultra 晶片的 Mac Studio 設備組成,具有 192GB 統一記憶體。這種強大的配置特別適合運行大型模型,例如我們測試的 1320 億參數模型,確保平穩運行和快速處理時間,而不會影響計算效率。
  • 配備 M2 和 M3 晶片的 Mac Mini:配備高達 64GB 的小型 Mac 統一內存,適合較小模型的工作。

系統配置:

  • 多代理系統:我們設計了一個多代理系統,可以在多台 Mac 電腦之間無縫管理和分配任務。該系統對於處理運算負載和協調工作流程至關重要,從而最大限度地利用硬體資源。多代理方法允許並行處理任務,顯著加快測試過程並提高生產力。此 MAS 設定還確保每台電腦都執行適當的作業。 192GB Mac Studio 首先承擔較大模型的工作負載。
  • 自動化任務處理:自動化是我們系統的關鍵組成部分。從啟動模型運行到收集輸出,每項任務都是自動化的。這不僅減少了人為錯誤的可能性,而且還確保每個模型在完全相同的條件下進行測試,從而保持了測試的完整性和一致性。

這種強大的實體設定使我們能夠進行廣泛的測試,而不受與處理大型資料集和複雜模型相關的典型限制。透過利用先進的硬體和客製化軟體解決方案,我們確保對大語言模型的評估不僅全面,而且高效且可擴展。

結果

這是按模型正確和錯誤答案的摘要。完整結果可以從我們的 GitHub testset_20240525–1_results.csv下載。

模型正確率

分析

  • Llama3:70b 系列:「llama3:70b」系列中的模型在財務問答測試中展現了最強的表現。這表明他們的訓練和架構特別適合處理金融術語和推理任務的細微差別。它們的高準確率表明強大的語言理解能力,這對於精確的財務分析至關重要。
  • Mixtral:7x22b 和 Wizrdlm2:8x22b:這些模型的表現也值得稱讚,僅落後於「llama3:70b」系列。與「llama3:70b」模型相比,效能稍低可能是由於其訓練資料集或模型架構的變化,這可能會影響其在特定財務查詢中的效率。
  • 較大的模型表現不佳:令人驚訝的是,「dbrx:132b」、「command-r-plus:104b」和「qwen:110b」等較大模型儘管參數數量較多,但並未達到預期。這種表現不佳可能是由於過度擬合,即模型過於適合其訓練數據,從而降低了其在現實世界任務(例如測試的財務問答場景)中的實際有效性。
  • Gemma:7b-v1.1 的驚人成功:「gemma:7b-v1.1」模型儘管規模較小,但正確率達到了約 45%。這意想不到的成功凸顯出,高效的訓練和模型最佳化有時可以勝過語言模型中參數的龐大規模。它表明「gemma:7b-v1.1」可能在處理和理解金融內容方面具有特定的優勢,這可能是透過對相關資料集進行更有針對性的培訓。

量化對模型表現的影響

我們的研究結果表明,量化水平(本質上是模型數值計算中的細節和精度)可能不會一致地影響不同架構中模型響應的正確性。這種見解是透過觀察具有不同量化層級的各種模型之間的表現差異而得出的:

  • Llama3 精度的一致性:「llama3」模型的三種不同精度變體顯示出幾乎相同的正確性水平。這種一致性表明,對於「llama3」架構,量化的修改並沒有顯著影響模型正確回答財務問答任務的能力。這顯示「llama3」模型的架構足夠強大,儘管運算精度發生變化,仍能保持效能。
  • Mixtral不同精度的差異:相較之下,「mixtral:8x22b」模型在其量化變體之間表現出顯著的性能差異。具體來說,與 q4 版本相比,q8_0 版本表現出明顯更高的正確性。這種變化強調,對於某些模型(例如“mixtral”),較低的量化(例如q4)可能會降低效能,這可能是由於處理語言處理中細微差別的能力降低或在模型計算期間丟失關鍵訊息所致。

這些觀察結果強調了在調整量化等級時考慮模型特定特徵的重要性。雖然某些模型可能不會在精度較低的情況下表現出明顯的性能下降,但其他模型可能需要更高的量化才能發揮最佳作用,特別是在需要高精度和細緻入微的理解的任務中,例如財務分析。

透過進一步探索這些差異,我們可以更好地針對特定應用客製化模型配置,優化計算效率和任務有效性。

結論

此測試的結果為了解各種大型語言模型在處理財務問答任務中的表現提供了寶貴的見解,但值得注意的是:

  • 特定任務的表現:在「llama3:70b」系列等模型中觀察到的較高正確率表明這些模型特別擅長處理它們所測試的特定財務問答任務。然而,這並不一定意味著這些模型在語言處理或其他類型任務的所有方面都優越。
  • 模型性能的可變性:值得注意的是,某些模型可能在同一測試集中的特定類型問題上表現出色。這種可變性表明,雖然某些模型經過調整可以在廣泛的範圍內表現良好,但其他模型可能具有專門的功能,使它們更適合特定的子任務或問題類型。
  • 提示模板的影響:測試中使用的提示模板也會顯著影響反應的正確性。不同的提示表述可能會導致模型解釋和回答問題的方式發生變化,進而影響其表面表現。在評估模型能力以及在實際應用中為這些模型設計任務時必須考慮這個因素。
  • 更廣泛的影響:這些發現強調了在現實世界場景中部署大語言模型的背景和特殊性的重要性。使用者和開發人員應考慮每種模型的特定優勢和局限性,尤其是在金融等專業領域,以確保最佳性能和可靠性。

這種分析不僅有助於理解金融環境中最先進的語言模型的當前能力,而且還強調了人工智慧性能的微妙本質,它可能會根據任務和條件的不同而有很大差異。

未來更進一步的工作

基於從初始測試階段獲得的見解,我們未來的工作將旨在擴展和加深我們對跨各個領域的開源大型語言模型功能的理解。這是我們下一步計劃要探索的內容:

  • 更多的提示範本:認識到提示設計對模型效能的影響,我們將嘗試各種提示範本。這種方法將幫助我們評估不同的提示結構如何影響模型反應的準確性和相關性,使我們能夠微調這些輸入以獲得最佳結果。
  • 問答集的擴展:我們將開發專門針對金融業及其他領域的其他問答集。透過擴大查詢範圍,我們的目標是創建一個更全面的資料集,以測試更廣泛的金融知識和分析技能。
  • 金融以外的探索:雖然我們目前的重點主要是金融主題,但我們計劃將測試擴展到其他領域。這項擴展將包括醫療保健、法律和技術等領域,大語言模型的準確性和適應性可以顯著影響決策過程和營運效率。
  • 比較效能分析:當我們將測試擴展到其他領域時,我們還將進行比較分析,以確定哪些模型在特定情況下表現最佳。這將為尋求實施適合其特定需求的人工智慧解決方案的開發人員和企業提供寶貴的見解。

透過這些舉措,我們希望不僅增強法學碩士在實際應用中的效用,而且透過分享我們的發現和方法為更廣泛的人工智慧社群做出貢獻。我們的目標是為各行業更明智、更有效地使用人工智慧技術鋪路。

邀請您參與其中

我們致力於擴大開源大型語言模型的測試,並希望納入讀者的貢獻。您的意見可以幫助提高我們未來測試的準確性和相關性。

我們邀請您透過以下方式參與:

  • 提交您的問答:如果您認為您的問題或答案會對這些法學碩士提出挑戰或提供新的見解,請與我們分享。無論是與金融相關還是其他領域,您的貢獻都是有價值的。
  • 建議提示範本:提示的結構在模型如何解釋和回應查詢方面起著至關重要的作用。如果您對提示模板有想法,這些模板可能會從模型中產生更細緻或更詳細的回應,我們將渴望在即將進行的實驗中測試這些模板。

如何貢獻:請將您的問答建議和提示範本發送至support@osmb.ai。我們將審查所有提交的內容並考慮將其納入我們未來的測試中。這是了解尖端人工智慧模型如何處理現實世界查詢並為人工智慧研究的進步做出貢獻的絕佳機會。

透過參與,您將直接為人工智慧領域做出貢獻,並幫助塑造各行業的技術未來。我們期待您的見解,並提前感謝您所做的寶貴貢獻!

--

--

Alvin Cho
Alvin Cho

Written by Alvin Cho

Independent consultant. 30+ years experience in enterprise applications for trading and risk management.