Clearview如何开发了在超过数十亿个比例数据库上快速搜索的方法

面部识别中使用的数据库正在增长到以前的量表，这是Clearview AI创造了开发更有效的搜索方法的需求。现在，该公司已提出专利的新方法，以索引向量，以使数据库搜索大规模搜索。

'周二根据美国专利申请编号18/214,782提交了代表超过数十亿个级别的索引嵌入向量的方法和系统。

机器学习和研究的Clearview副总裁Liu在与他的独家访谈中解释了创新及其专利保护的含义生物识别更新提前。

该公司认为，在算法培训和演示攻击检测工作之后，“该方面的发展是有一种照顾的，”刘说，“随之而来的挑战是，随着新算法的挑战，您的数据库中的所有面都可以将矢量转换为嵌入矢量，并且必须将这些矢量存储在某个地方”。

正如公司中解释的博客文章通过刘并与生物识别更新Clearview认为，更聪明的方法是索引向量，因此只需要搜索一小部分。这意味着“您只能有效地搜索数据库的一小部分，很可能会匹配。”

在CPU内存中存储像ClearView这样的大量数据库具有成本良好，但是在光盘存储器中搜索它会引入延迟（速度）并减少吞吐量（同时使用相同响应时间的同时用户体积）。

刘说：“当我们遇到300万或3000万，可能是3亿张图像时，这一挑战就不那么严重了。一旦我们到达了一个超过10亿的数据库，这就更像是一个研究问题。”

幸运的是，当训练神经网络以识别面部图像时，“告诉人们分开并尝试将同一个人的面孔分组在这个高维空间中，”同一嵌入向量也有效地分组相似的面孔。尽管这一过程导致抽象数点，但这并不能挑选面部的某些区域进行比较。

Liu解释说：“当您进行数学比较（例如余弦相似性）时，类似的面孔将被分组在一起，而不同人的不同面孔将被分开。”他将这些群体称为“水桶。”

结果是“探测映像的嵌入向量落入了非常有前途的一定数量的存储桶中”，允许查询的数据库搜索部分仅限于这些存储桶。

如博客文章中所述，新系统将“分配者索引”添加到搜索过程中，以识别可能的搜索存储桶。专利申请涵盖了如何创建分配者索引。

探针转到代理，该代理到达分配者索引以确定在哪里找到合适的存储桶。

搜索范式转变

Liu声称，从昂贵的RAM到光盘“本身为圆盘的内容都取得了完整的范式变化”。这是必要的，因为“每当您越过一定规模的边界时，都必须改变。”

他将专利应用程序置于数据库和信息检索的演变的背景下，将矢量数据库作为当前家庭中的最新情况。下一步是基于使用近似值“这是由于向量本身的性质”的能力。

他说，这一转变在大型语言模型社区中引起了很多关注，部分原因是像Chatgpt这样的大规模生成神经网络所关注。

刘说，语言模型的嵌入与面部识别不同，但同样的概念适用。

“我相信我们的独特贡献或创新是围绕培训有所不同的载体，经过训练可以分开事物。这种表述自然适用于面部识别，因为面部识别将这种表述中的边界推向了极端。”

极端，因为Clearview的用例几乎没有用于限制搜索的元数据。相反，公司利用模型法官的相似性和差异的方式。

因为相似性是一个比率（不匹配= 1，non-Match = 0），“使用您已经拥有的这些嵌入，因此挑战是有效地索引它以限制搜索范围，” Liu说。

为了开发新系统，刘花了时间研究问题，得出指数，一旦成功地构建了其余的“包括开源库的C ++融合”。随后进行了几个月的调整。

Liu将开源库提供商称为对该过程的重要工作，在该过程中，Clearview开发了用于确定哪个向量属于哪个桶的内存中图索引。该快捷方式允许向量存储在光盘中，同时将大部分搜索过程保存在内存中。

Clearview声称，该变更可减少80％的计算成本和10倍的吞吐量。

该系统于4月部署到生产。刘说，它的性能比正在日落的旧系统要好得多。

他说，该公司渴望与生物识别技术和机器学习社区分享其“基本科学和工程工作”。