Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

Clearview如何开发了在超过数十亿个比例数据库上快速搜索的方法

  • 2023-06-28
  • Sherise

面部识别中使用的数据库正在增长到以前的量表,这是Clearview AI创造了开发更有效的搜索方法的需求。现在,该公司已提出专利的新方法,以索引向量,以使数据库搜索大规模搜索。

'周二根据美国专利申请编号18/214,782提交了代表超过数十亿个级别的索引嵌入向量的方法和系统。

机器学习和研究的Clearview副总裁Liu在与他的独家访谈中解释了创新及其专利保护的含义生物识别更新提前。

该公司认为,在算法培训和演示攻击检测工作之后,“该方面的发展是有一种照顾的,”刘说,“随之而来的挑战是,随着新算法的挑战,您的数据库中的所有面都可以将矢量转换为嵌入矢量,并且必须将这些矢量存储在某个地方”。

正如公司中解释的博客文章通过刘并与生物识别更新Clearview认为,更聪明的方法是索引向量,因此只需要搜索一小部分。这意味着“您只能有效地搜索数据库的一小部分,很可能会匹配。”

在CPU内存中存储像ClearView这样的大量数据库具有成本良好,但是在光盘存储器中搜索它会引入延迟(速度)并减少吞吐量(同时使用相同响应时间的同时用户体积)。

刘说:“当我们遇到300万或3000万,可能是3亿张图像时,这一挑战就不那么严重了。一旦我们到达了一个超过10亿的数据库,这就更像是一个研究问题。”

幸运的是,当训练神经网络以识别面部图像时,“告诉人们分开并尝试将同一个人的面孔分组在这个高维空间中,”同一嵌入向量也有效地分组相似的面孔。尽管这一过程导致抽象数点,但这并不能挑选面部的某些区域进行比较。

Liu解释说:“当您进行数学比较(例如余弦相似性)时,类似的面孔将被分组在一起,而不同人的不同面孔将被分开。”他将这些群体称为“水桶。”

结果是“探测映像的嵌入向量落入了非常有前途的一定数量的存储桶中”,允许查询的数据库搜索部分仅限于这些存储桶。

如博客文章中所述,新系统将“分配者索引”添加到搜索过程中,以识别可能的搜索存储桶。专利申请涵盖了如何创建分配者索引。

探针转到代理,该代理到达分配者索引以确定在哪里找到合适的存储桶。

搜索范式转变

Liu声称,从昂贵的RAM到光盘“本身为圆盘的内容都取得了完整的范式变化”。这是必要的,因为“每当您越过一定规模的边界时,都必须改变。”

他将专利应用程序置于数据库和信息检索的演变的背景下,将矢量数据库作为当前家庭中的最新情况。下一步是基于使用近似值“这是由于向量本身的性质”的能力。

他说,这一转变在大型语言模型社区中引起了很多关注,部分原因是像Chatgpt这样的大规模生成神经网络所关注。

刘说,语言模型的嵌入与面部识别不同,但同样的概念适用。

“我相信我们的独特贡献或创新是围绕培训有所不同的载体,经过训练可以分开事物。这种表述自然适用于面部识别,因为面部识别将这种表述中的边界推向了极端。”

极端,因为Clearview的用例几乎没有用于限制搜索的元数据。相反,公司利用模型法官的相似性和差异的方式。

因为相似性是一个比率(不匹配= 1,non-Match = 0),“使用您已经拥有的这些嵌入,因此挑战是有效地索引它以限制搜索范围,” Liu说。

建立新的搜索体系结构

为了开发新系统,刘花了时间研究问题,得出指数,一旦成功地构建了其余的“包括开源库的C ++融合”。随后进行了几个月的调整。

Liu将开源库提供商称为对该过程的重要工作,在该过程中,Clearview开发了用于确定哪个向量属于哪个桶的内存中图索引。该快捷方式允许向量存储在光盘中,同时将大部分搜索过程保存在内存中。

Clearview声称,该变更可减少80%的计算成本和10倍的吞吐量。

该系统于4月部署到生产。刘说,它的性能比正在日落的旧系统要好得多。

他说,该公司渴望与生物识别技术和机器学习社区分享其“基本科学和工程工作”。

文章主题

生物识别数据库|生物识别技术|生物识别研究|Clearview AI|面部识别|专利

相關貼文

快速发展的 Bureau 在 B 轮融资中净获 3000 万美元

快速发展的 Bureau 在 B 轮融资中净获 3000 万美元

英国内政部,警察机构抵抗生物识别技术透明度

英国内政部,警察机构抵抗生物识别技术透明度

Fingerprint Cards 与 Anonybit 合作开发企业多模式生物识别平台

Fingerprint Cards 与 Anonybit 合作开发企业多模式生物识别平台

数字ID是一种反对贫困的工具:斐济政府

数字ID是一种反对贫困的工具:斐济政府

Daon 为 AWS ISV Accelerate 计划带来生物识别和深度伪造检测

Daon 为 AWS ISV Accelerate 计划带来生物识别和深度伪造检测

Alcatraz AI 推出有关通过生物识别技术提高数据中心安全性的电子书

Alcatraz AI 推出有关通过生物识别技术提高数据中心安全性的电子书

DTC 带来风险,夸大效率:数字版权组织

DTC 带来风险,夸大效率:数字版权组织

Yoti达到EBITDA的盈利能力,预计面部年龄估计增长

Yoti达到EBITDA的盈利能力,预计面部年龄估计增长

非洲必须利用南非的G20总统职位来扩大DPI的收益:专家

非洲必须利用南非的G20总统职位来扩大DPI的收益:专家

熱門閱讀

  • Dofollow与Nofollow:您应该选择哪种类型的反向链接? 2024-07-30
  • 科学家对戈尔创建的全球气候污染数据库提出质疑 2024-09-30
  • 阿尔卑斯断层上次大地震的方向将帮助新西兰为不可避免的下一次断裂做好准备 2024-09-30
  • 适量喝咖啡可降低多种心血管代谢疾病的风险 2024-09-20
  • 如何通过 OpenAI 使用 ChatGPT:基本步骤教程 2022-12-22
  • 詹姆斯·韦伯(James Webb)望远镜发现的令人惊叹的,彩虹色的物体可能是制造中的外星人太阳能系统 2025-02-07
  • 研究:尼安德特人的基因流入现代人类发生在 50,500 至 43,500 年前 2024-12-13
  • 哈勃观察两个大型星系的持续合并:ARP 105 2025-03-10
  • 这是 2024 年 5 个最受欢迎的科学新闻故事 2024-12-20
  • 假装口音?研究称,你会在贝尔法斯特被发现,但不会在伦敦 2024-11-20

上升趨勢

  • 地球水的起源可能不像我們想像的那麼複雜 2025-04-17
  • Netflix提高了法國訂閱的價格,貴33%! 2025-04-18
  • 這是Moing V,第一個折疊式閱讀器 2025-04-18
  • 它以30i/s的速度拍攝8K,135分鐘的自主權:Insta360 X4售罄,並將比賽投入了比賽。 2025-04-18
  • 有了這個項目,MG希望以不到20,000歐元的價格出售電動汽車 2025-04-18
  • Vega OS:亞馬遜想用Android切斷電線 2025-04-18
  • 在加拿大,神秘的三趾足跡揭示了新的尾甲龍 2025-04-17
  • 對於Google,Pixel 9a與庸俗的iPhone不可媲美16 2025-04-18
  • 01net早晨:最好的“魔術橡皮”,奧迪Q6 e-tron的超級力量,與chatgpt保持友善很昂貴 2025-04-18
  • 昆士蘭州洪水中的bilbies“會很好” 2025-04-17

最近發布

  • 一旦你接受了闭环园艺,你就永远不会回头 2024-12-20
  • 研究发现受损的心脏可能具有隐藏的自我修复能力 2025-01-02
  • UCLA的下一代电子显微镜在看到不可能的很小的情况下打开了新的章节 2025-02-19
  • 这个重大的人生决定实际上可能会取消您的社会保障福利 2024-12-10
  • Stellantis将与特斯拉的CO2信用交易扩展到2025年 2025-03-31
  • PicLumen 评论:最好的免费人工智能图像生成器? 2024-12-18
  • 2025年老年人驾驶执照:这项新的强制性检查可能会剥夺数千名驾驶员 2025-02-24
  • 人工智能驱动的方法挑战了蛋白质结构的传统观点 2024-09-30
  • NASCAR 冠军与前车队在 2025 年重聚 2025-01-03
  • 古代DNA研究为印欧语历史提供了新的启示 2025-02-05

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜