面部識別中使用的數據庫正在增長到以前的量表,這是Clearview AI創造了開發更有效的搜索方法的需求。現在,該公司已提出專利的新方法,以索引向量,以使數據庫搜索大規模搜索。
'週二根據美國專利申請編號18/214,782提交了代表超過數十億個級別的索引嵌入向量的方法和系統。
機器學習和研究的Clearview副總裁Liu在與他的獨家訪談中解釋了創新及其專利保護的含義生物識別更新提前。
該公司認為,在算法培訓和演示攻擊檢測工作之後,“該方面的發展是有一種照顧的,”劉說,“隨之而來的挑戰是,隨著新算法的挑戰,您的數據庫中的所有面都可以將矢量轉換為嵌入矢量,並且必須將這些矢量存儲在某個地方”。
正如公司中解釋的博客文章通過劉並與生物識別更新Clearview認為,更聰明的方法是索引向量,因此只需要搜索一小部分。這意味著“您只能有效地搜索數據庫的一小部分,很可能會匹配。”
在CPU內存中存儲像ClearView這樣的大量數據庫具有成本良好,但是在光盤存儲器中搜索它會引入延遲(速度)並減少吞吐量(同時使用相同響應時間的同時用戶體積)。
劉說:“當我們遇到300萬或3000萬,可能是3億張圖像時,這一挑戰就不那麼嚴重了。一旦我們到達了一個超過10億的數據庫,這就更像是一個研究問題。”
幸運的是,當訓練神經網絡以識別面部圖像時,“告訴人們分開並嘗試將同一個人的面孔分組在這個高維空間中,”同一嵌入向量也有效地分組相似的面孔。儘管這一過程導致抽像數點,但這並不能挑選面部的某些區域進行比較。
Liu解釋說:“當您進行數學比較(例如餘弦相似性)時,類似的面孔將被分組在一起,而不同人的不同面孔將被分開。”他將這些群體稱為“水桶。 ”
結果是“探測映像的嵌入向量落入了非常有前途的一定數量的存儲桶中”,允許查詢的數據庫搜索部分僅限於這些存儲桶。
如博客文章中所述,新系統將“分配者索引”添加到搜索過程中,以識別可能的搜索存儲桶。專利申請涵蓋瞭如何創建分配者索引。
探針轉到代理,該代理到達分配者索引以確定在哪裡找到合適的存儲桶。
搜索範式轉變
Liu聲稱,從昂貴的RAM到光盤“本身為圓盤的內容都取得了完整的範式變化”。這是必要的,因為“每當您越過一定規模的邊界時,都必須改變。”
他將專利應用程序置於數據庫和信息檢索的演變的背景下,將矢量數據庫作為當前家庭中的最新情況。下一步是基於使用近似值“這是由於向量本身的性質”的能力。
他說,這一轉變在大型語言模型社區中引起了很多關注,部分原因是像Chatgpt這樣的大規模生成神經網絡所關注。
劉說,語言模型的嵌入與面部識別不同,但同樣的概念適用。
“我相信我們的獨特貢獻或創新是圍繞培訓有所不同的載體,經過訓練可以分開事物。這種表述自然適用於面部識別,因為面部識別將這種表述中的邊界推向了極端。”
極端,因為Clearview的用例幾乎沒有用於限制搜索的元數據。相反,公司利用模型法官的相似性和差異的方式。
因為相似性是一個比率(不匹配= 1,non-Match = 0),“使用您已經擁有的這些嵌入,因此挑戰是有效地索引它以限制搜索範圍,” Liu說。
建立新的搜索體系結構
為了開發新系統,劉花了時間研究問題,得出指數,一旦成功地構建了其餘的“包括開源庫的C ++融合”。隨後進行了幾個月的調整。
Liu將開源庫提供商稱為對該過程的重要工作,在該過程中,Clearview開發了用於確定哪個向量屬於哪個桶的內存中圖索引。該快捷方式允許向量存儲在光盤中,同時將大部分搜索過程保存在內存中。
Clearview聲稱,該變更可減少80%的計算成本和10倍的吞吐量。
該系統於4月部署到生產。劉說,它的性能比正在日落的舊系統要好得多。
他說,該公司渴望與生物識別技術和機器學習社區分享其“基本科學和工程工作”。