Google的Deepmind已經揭示了Safe,這是一種基於AI的系統,旨在核算大型語言模型(LLMS)等輸出,例如ChatGpt。
這個新系統的開發旨在解決LLM生成的內容經常與之抗衡的持續準確性問題。
Google DeepMind的搜索效果評估員(SAFE)
LLM因其產生文本,回答問題和解決數學問題的能力而聞名,長期以來因缺乏精度而受到批評。
研究團隊稱,對LLM生成的內容的驗證通常需要手動審查,並大大降低其可靠性和效用。
安全的,較短的搜索事實評估者,通過利用LLM來審查響應並通過搜索引擎結果進行驗證來進行審查和交叉引用,從而進行事實核對。
該方法反映了使用搜索引擎來證實信息的人類用戶採用的事實檢查過程。
為了評估其有效性,深態團隊對嚴格的測試進行了安全的測試,並檢查了大約16,000個從多個LLM中得出的斷言。對人類事實檢查者的比較分析表明,與人類評估的安全相符72%。
值得注意的是,當安全和人類評估人員之間出現差異時,在76%的案件中出現了更準確的法官。
DeepMind使該安全代碼在Github上公開訪問,邀請其在AI社區內更廣泛地利用其事實檢查功能。
研究人員寫道:“ Safe利用LLM將長期響應分解為一組個人事實,並使用包括將搜索查詢發送到Google搜索並確定搜索結果支持的多個步驟推理過程來評估每個事實的準確性。”
僱用LLM安全
DeepMind的過程涉及採用LLM,例如GPT-4,將長格式的響應解構為個人事實。然後將這些事實經過多步評估過程,其中將搜索查詢派發到Google搜索中,以根據搜索結果確定事實準確性。
此外,DeepMind提倡將F1得分作為長形成事實評估的總指標。該度量平衡的精度,通過反應中支持事實的百分比,召回相對於代表所需響應長度的超參數的百分比。
經驗測試展示了LLM代理在事實檢查任務中實現超人績效的潛力。在一個包含約16,000個個人事實的數據集中,Safe與人類註釋者的一致性為72%。
此外,與人類評估者相比,在100個有爭議的情況下,安全的精度為76%。
研究小組還指出,Safe提供了人類註釋者的具有成本效益的替代方案,具有超過20倍的效率增長,同時保持了穩健的性能。
此外,在13個語言模型中進行基準測試也強調了模型大小和事實性能之間的相關性,較大的模型通常超過其對應物。
DeepMind團隊的發現是進一步詳細在預印服務器ARXIV中。
安全的守則也是可用在開源github站點上。