用於生物特徵算法訓練方法的專利Clearview AI在公司收到美國專利商標局的津貼通知後,即將獲得授予。
面部識別中深層神經網絡的“可擴展培訓數據準備管道和有效的分佈式培訓師”的專利描述了一種通過從Internet收集和組織圖像來構建培訓數據集的方法。
Clearview Research Terence Liu副總裁向生物識別更新在面對生物識別算法的訪談中,通過從每個主題中攝取幾張圖像,然後將攝入圖像的數據與來自同一主題的其他圖像一起組織到“群集”中來訓練。
因此,該專利描述了從公共來源收集的圖像,並通過身份分組並在用於培訓之前進行了重複重複。一旦改進了匹配算法,就可以使用它來查找和添加更多圖像,以進行進一步的培訓。
首席執行官Hoan Ton-說,有效集群的最小圖像數量似乎約為五個。
劉說,傳統的數據清潔涉及選擇最大的集群“並以某種方式可以接受,”我們發現,您發現您拋出了很多數據。您可能不容易地根據相似性計算來保持一個單一的身份,因此我們設計了一種方法,使我們設計了一種最佳的方式,然後從中找到一些聰明的既聰明的又有聰明的雜物,並在這些方面恢復了一些聰明的雜物,並將其構成一些聰明的變化。每個面部簇。 ”
大量的數據
最終,算法培訓以及培訓數據集組成在很大程度上與數量有關。
劉說:“我們有很多數據進入我們的管道,也許與Instagram或其他地方有不同的數據,我們開始進行實驗。” “很大一部分是清潔數據,以某種方式攝入培訓師理解並可以充分利用數據。”
他補充說:“通過這一過程,我們獲得了許多實踐理解和方法,這些理解和方法已證明是最好的。” “與如何集中數據,如何結合屬於同一個人的圖像有關。如何清潔,de-dupe和合併,屬於不同人的身份標籤。因為我們正在處理一種非常凌亂,嘈雜的數據形式,以其原始形式。”
圖像通過身份排列成子組,並在每次迭代中引入更多的身份變化。這種變化使算法可以提高其性能。
如果沒有仔細的分類,噸 - 指出有時更多的數據實際上會使結果變得更糟。
他說:“有一種方法可以從開放互聯網上清理圖像,這對業界的發展方面具有很大的影響。”
為了Clearview根據Ton-tat的說法,在公司算法的性能中可以看到好處。他說,通過獲得專利的技術,每個新模型“都會在邊緣上找到這些東西,例如模糊的角度或不同的角度,並將其添加到訓練集中,我們只會看到我們的整體得分都在內部測試中提高。”
收集“凌亂”數據是找到這些邊緣情況並增加變化的必要條件。深度神經網絡也受益於不同來源的數據。劉說,即使像人眼一樣,任何一個圖像源都不會有足夠的變化。
當被問及合成數據提供相同數據質量的潛力時,劉是懷疑的。他說,對於面部檢測訓練,合成數據可能非常有益。但是,“通過面部識別,任務更加艱鉅,因為現實生活中的變化比合成數據能夠捕獲的更廣泛。”
研究表明,不是僅根據合成數據訓練的模型的競爭結果,這是噸的觀察到的。
Clearview確實使用了增強性,它發現它改善了用太陽鏡和口罩遮擋的面部的面部識別性能。
但是,該公司的主要優勢是其培訓數據庫的規模。該專利是保護其構建其方法的舉動。
“現任公司有時會拭目以待新技術,以查看市場上的生存能力和採用,然後一旦證明它們是有價值的,後來又可以復制創新。” “這些專利有助於保護我們免受潛在的未來競爭對手的影響,該競爭對手希望復制我們的面部識別搜索引擎,或者我們從大型公共互聯網數據集中創建高度準確的無偏見面部識別算法的方法。”
應對比例
該專利指的是“將特徵質體向量分配到塊中的多個圖形處理單元(GPU),其中每個塊分佈在一個GPU上。”
以這種方式分發重型計算負載使該方法更有效。
Liu解釋說,該公司描述了一種並行運行大數據攝入和培訓師的方法,該方法可能包含在同一專利的最終版本中。大型型號和服務器不僅需要為了效率,而且還需要適合所有數據。
即便如此,如果每項大型培訓工作在較便宜的實例上運行,則需要一周或更長時間,這是當前數據庫大小的。
野心和條件
Ton-ton說,Clearview當前的訓練集為7000萬張圖像。他想使用專利涵蓋的技術達到2億或十億的面孔。
Clearview的一些批評者會將該項目視為對隱私的威脅,但Ton-指出,面部識別的準確性也是該技術的批評者的目標。
提高準確性的潛力是顯而易見的,並且強調其重要性,尤其是在圍繞高風險用途制定政策時。
他說,他不認為即即將培養的技術將不受當前法規的規定,即使在更緊密的控制的地方,美國清除案也受到歐盟執法和加拿大公共數據的豁免的保護。
但是,目前,Clearview“只是在這些國家不開展業務”。
TON-還推遲了這樣的論點,即使用公共數據進行算法培訓代表了對隱私的威脅。
他斷言:“沒有人在收集或製作算法中受到傷害。”此外,“培訓集中實際上沒有任何個人身份信息。”
公司的與ACLU一致今年早些時候僅適用於其服務的銷售,其中包括其圖像數據庫而不是培訓數據。
FTC,對此表示興趣調節面部識別培訓數據主要與欺騙性貿易實踐有關,這將私人數據用於該機構的範圍。
Ton-To說:“我們根本沒有關於使用公共數據來培訓算法的任何問題或投訴。”