AI模型,包括广泛使用的chatgpt根据初创公司Patronus AI进行的一项新研究,难以分析证券交易委员会(SEC)文件。
根据CNBC该研究发现,即使是表现最佳的AI模型,OpenAI的GPT-4-Turbo,在根据SEC申请回答问题时,即使是79%的精度率。

AI性能率“绝对不可接受”
该测试包括AI与问题旁边几乎访问整个文件的情况。研究人员列举了AI模型将拒绝回答或提供不准确的信息中不存在的情况的实例。
Patronus AI联合创始人Anand Kannappan对表演表示不满意,称AI模型被认为对自动化和生产就绪的应用程序可靠是“绝对不可接受的”。
该研究阐明了AI模型的挑战,尤其是在金融等受监管的行业中,精度和可靠性对于决策过程至关重要。
财务行业对将AI模型(例如ChatGpt)纳入诸如总结SEC文件和快速提取基本财务数据等任务的兴趣非常兴趣。
但是,CNBC报道,AI模型进入该领域已经面临挑战,包括总结收益新闻稿的不准确性和产生不正确的数字。
Patronus AI联合创始人强调了将大型语言模型(LLM)纳入产品的重大挑战:它们的非确定性。
LLMS不能确保相同输入的一致输出,从而强调了严格测试的重要性,以确保准确的功能和可靠的结果。
创始人强调了先进测试方法的必要性,以验证AI模型的正确操作,局部连贯性和可靠性,尤其是在受监管的行业中。
Financebench
Patronus AI开发了一项全面的测试,其中包括10,000多个问题和答案,这些问题是由主要交易公司的SEC文件提取的,该公司称为FinanceBench。该数据集包含正确的答案,并指示可以找到答案的档案中的位置。
通过其测试框架,Patronus AI的目标是为金融领域的语言AI设定“最低绩效标准”。该研究评估了四种语言模型:GPT-4以及来自Openai的GPT-4-Turbo,来自人类的Claude 2和Meta的Llama 2。
该测试涉及各种配置和提示,例如“ Oracle”模式,其中为问题提供了确切的相关源文本和“长上下文”,其中几乎包括整个SEC归档以及问题。
GPT-4-Turbo在“封闭的书”测试中挣扎,但在“ Oracle”模式下显示出改进。 Llama 2表现出明显的不准确性,而Claude 2在“长篇小说”方面表现良好。
尽管某些模型的性能相对较好,但联合创始人强调,错误的差距没有可接受的余量,尤其是在受监管的行业中。
他们认为,像GPT这样的语言模型在金融行业中具有巨大的潜力,但强调了AI模型不断改进的重要性,以满足所需的准确性和可靠性标准。
Kannapan告诉CNBC:“随着时间的流逝,模型将继续变得更好。我们希望从长远来看,其中很多可以自动化。但是,今天,您肯定需要至少有一个循环中的人来帮助支持和指导您拥有的任何工作流程。”
