NASA与之合作IBM为了开发印度河,一套大型语言模型(LLM),旨在推进各个领域的科学研究。
通过太空法案协议促进的这项合作是由NASA的机构间实施和高级概念团队(Impact)和IBM领导的。

NASA和IBM的印度套房
印度河将专业的LLM用于地球科学,生物学和物理科学,热物理学,行星科学和天体物理学。这些模型经过精心策划的科学数据培训,以增强其准确性和域的相关性。
印度套件包括两种主要模型类型:编码器和句子变压器。编码者使用特定于科学领域的专门词汇将自然语言文本转换为LLM处理的数字格式。
印度河包含超过50,000个独特的科学术语,通过识别复杂的科学概念(例如生物标志物和磷酸化分子)来改善通用LLM。
根据美国国家航空航天局(NASA)的说法,对编码者进行了600亿个代币的综合语料库的培训,涵盖了多样化的科学学科。为了优化性能,Impact-IBM团队在约2.68亿个文本对上微调了句子变压器模型,包括摘要,问题和答案。
这种方法增强了印度河执行任务的能力,例如地球科学中的科学提问和实体认可。此外,编码器模型和变压器模型的较小版本是针对潜伏敏感的应用开发的,证明了印度河在不同的计算需求之间的多功能性。
NASA评估测试验证了印度河在从广泛的数据存储库中检索相关科学信息方面的有效性。该功能支持开放科学数据存储库(OSDR)API之类的应用程序,其中印度河为数据集策划提供了直觉搜索功能和辅助功能。
印度河一直在对参考GES-DISC数据集的出版物进行分类,简化研究工作流程以及在NASA的Goddard Earth Sciences数据和信息服务中心(GES-DISC)增强数据发现。
NASA的科学发现引擎
NASA的生物学和物理科学部的Sylvain Costes博士强调了印度河的整合收益,尤其是在提高数据策展效率并增强科学研究平台内的用户体验方面。
此外,印度河已被整合到NASA的科学发现引擎(SDE)中,增强了NASA广泛的开放科学数据存储库的搜索准确性和相关性。
该协作旨在推进人工智能(AI)来支持科学发现。印度河模型在拥抱面部等平台上公开访问,并有望使更广泛的科学界受益。
未来的发行版将包括用于气候变化,地球科学质量检查和信息检索的基准数据集,并进一步赋予研究人员使用工具有效地导航和利用广泛的科学知识。
NASA指出,印度河编码模型在科学领域中使用了多功能,而印度犬猎犬模型则促进了针对抹布应用的有效信息检索。
