(資料來源:哈馬拉/Shutterstock)
華盛頓州普爾曼 —隨著人工智慧繼續成為頭條新聞,一個迫切的問題迫在眉睫:像 ChatGPT 這樣的人工智慧聊天機器人能否幫助或可能取代金融專業人士?華盛頓州立大學和克萊姆森大學研究人員的一項新研究分析了 10,000 多個人工智慧對金融考試問題的回答,提供了一些發人深省的答案。
「現在擔心還為時過早華盛頓州立大學卡森商學院的研究報告作者 DJ Fairhurst 在一份聲明中表示。 「對於網路上長期以來已有很好解釋的廣泛概念,ChatGPT 可以很好地綜合這些概念。如果這是一個具體的、特殊的問題,那就真的會很困難。
該研究發表在金融分析師雜誌,解決了一個重大的產業問題。高盛估計15% 到 35% 的金融工作可能會透過人工智慧實現自動化,而畢馬威 (KPMG)建議生成式人工智慧可能會徹底改變資產和財富管理機構的運作方式。然而,這些預測依賴於一個關鍵假設——人工智慧系統對金融有足夠的了解。
「通過認證考試還不夠。我們確實需要更深入地挖掘,以了解這些模型的真正作用,」費爾赫斯特指出。
研究人員收集了從各種金融許可考試中抽取的 1,083 道多項選擇題的綜合數據集,包括證書行業基礎 (SIE) 考試以及系列 7、6、65 和 66 考試。這些測試與金融專業人士必須通過的測試相同才能獲得許可。目前,每年約有42,000人成為註冊代表,其中超過60萬人在證券業工作。
使用這個題庫,研究測試了四個不同的 AI 模型:Google 的 Bard、Meta 的 LLaMA 以及 OpenAI 的 ChatGPT 的兩個版本()。研究人員不僅評估了答案的準確性,還使用複雜的自然語言處理技術來比較人工智慧系統與專家編寫的解釋相比,可以在多大程度上解釋他們的推理。
結果揭示了人工智慧模型之間明顯的權衡。在所有測試的模型中,成為明顯的領先者,準確率比其他模型高 18 至 28 個百分點。然而,當研究人員透過提供正確答案和解釋的範例來微調 ChatGPT 3.5 的早期免費版本時,出現了一個有趣的發展。經過這次調整後,它幾乎與 ChatGPT 4 的準確性相匹配,甚至在提供類似於人類專業人士的答案方面超越了它。
兩種模型仍然顯示出明顯的限制。雖然他們在有關交易、客戶帳戶和禁止活動的問題上表現良好(準確率為 73.4%),但在有關評估客戶財務狀況和投資目標的問題上的表現卻下降至 56.6%。這些模型對於特殊情況給出的答案更加不準確,例如確定客戶的和稅務狀況。
研究團隊並沒有止步於考試問題。他們現在正在探索其他方法來測試 ChatGPT 的功能,包括一個要求其評估潛在合併交易的項目。利用 ChatGPT 2021 年 9 月的初始訓練截止日期,他們正在根據該日期之後達成的交易的已知結果對其進行測試。初步調查結果表明,人工智慧模型難以完成這項更複雜的任務。
這些限制對金融業有重要影響,特別是在。
「讓一群人擔任初級分析師,讓他們競爭並留住獲勝者的做法 - 這會變得更加昂貴,」費爾赫斯特解釋道。 “所以這可能意味著這類工作的下滑,但這並不是因為 ChatGPT 比分析師更好,而是因為我們一直在要求初級分析師做更瑣碎的任務。”
基於這些發現,人工智慧在金融領域的近期前景似乎是協作性的,而不是替代性的。雖然這些系統在總結資訊和處理日常分析任務方面表現出令人印象深刻的能力,但它們的錯誤率(尤其是在複雜的、面向客戶的情況下)表明,在一個錯誤可能導致嚴重的財務和在法律後果的行業中,人為監督仍然至關重要。
論文摘要
方法論
研究人員分析了四種不同 AI 模型(Bard、LLaMA、ChatGPT 3.5 和 ChatGPT 4)對 1,083 道金融執照考試問題的 10,000 多個答案。每個問題都經過多個模型和配置的測試,創建了一個全面的資料集。團隊評估了兩個關鍵方面:人工智慧是否選擇了正確的答案,以及與專家的解釋相比,它解釋推理的能力如何。他們使用複雜的自然語言處理技術(特別是 BERT 模型)來衡量人工智慧解釋與專家編寫的解釋的匹配程度。
此外,他們使用美國勞工部職業資訊網路 (O*NET) 的數據將問題映射到 51 個現實世界的金融工作任務,以了解實際應用。該研究還探索了使用人工智慧系統的不同方式,包括網路介面、具有各種設定的 API 存取以及經過專門訓練(微調)的模型。
主要結果
ChatGPT 4 表現最佳,正確回答了 84.5% 的問題,比免費模型高出 18-28 個百分點。當研究人員透過對特定金融內容進行訓練來微調 ChatGPT 3.5 時,它的準確性幾乎與 ChatGPT 4 相當,甚至在解釋品質上超過了它。人工智慧在有關交易和市場營運的問題上表現最佳(準確率 73.4%),但在財務規劃和稅務分析等客戶特定任務上表現不佳(準確率下降至 56.6%)。有趣的是,人工智慧和人類考生都傾向於解決同樣具有挑戰性的問題,這表明在處理複雜的金融概念時存在根本局限性。
研究局限性
該研究主要使用入門級許可考試問題,可能無法完全捕捉現實世界金融工作的複雜性。一些測試題可在線獲取,這些問題的 AI 性能可能會提高高達 13%。該研究於 2023 年底和 2024 年初進行,考慮到人工智慧發展的快速步伐,結果可能會隨著新版本的出現而改變。此外,考試問題不會測試金融工作的重要方面,例如寫作、溝通和創造性思考技能。
討論與要點
研究表明,人工智慧目前更適合作為金融專業人士的助手,而不是替代品。雖然它在市場監測和基本分析等任務中顯示出前景,但對於複雜的、針對特定客戶的工作來說,它仍然不太可靠。該研究揭示了不同人工智慧模型和實施方法之間的重要權衡。微調可以顯著提高效能,但即使是最先進的模型仍然會犯錯,在實際應用中可能會付出高昂的代價。研究結果還表明,入門級金融工作可能會發生變化,特別是對於執行日常任務的初級分析師而言。
資金和披露
該研究得到了兩家金融考試準備公司 Achievable 和 Knopman Marks 的數據支持。特別感謝 Achievable 的 Justin Pincar 和 Knopman Marks 的 Brian Marks。該研究也受益於華盛頓州立大學和克萊姆森大學研討會參與者的意見。作者報告沒有利益衝突,該研究在《金融分析師雜誌》發表之前接受了同行評審。
出版詳情
這項研究發表在金融分析師雜誌2024 年 11 月 18 日,文章標題為“ChatGPT 對金融了解多少?”可以使用數位物件識別碼 (DOI) 進行存取:10.1080/0015198X.2024.2411941。這項研究由華盛頓州立大學卡森商學院金融學副教授 Douglas (DJ) Fairhurst 和克萊姆森大學 Wilbur O. 和 Ann Powers 商學院 Bill Short 金融學副教授 Daniel Greene 撰寫。該文章獲得了 2.0 PL 學分,並在發表前經過了同行評審。有關該研究的通信可以直接發送給 Douglas (DJ) Fairhurst,網址為:[電子郵件受保護]。
StudyFinds 致力於尋找適合大眾的新研究——無需所有科學術語。我們發布的故事是易於理解的、總結性的研究版本,旨在為讀者提供信息,並引發文明的、有教養的辯論。 StudyFinds 工作人員的文章由人工智慧輔助,但始終由 Study Finds 工作人員進行徹底審查和編輯。請閱讀我們的人工智慧政策以獲取更多資訊。