现代人工智能诞生于网络及其必然结果——大数据。为了让机器学习发挥作用,它需要非常大的集中数据集。因此,数千甚至数百万用户的数据必须集中在一个数据中心,或者,对于更温和的实验,必须集中在一台机器中。然后,它们被用来训练算法,这些算法将逐渐学习执行任务:识别照片中的面孔、转录口述文本等。
差异隐私的新一步
这组数据显然引发了许多问题,包括尊重私人生活的问题。在这一点上,苹果开始通过强调我们所说的来提供一些答案差别隐私、差别机密性——我们可以简单地说,噪声、“虚假”数据被注入到所有收集的数据中,因此无法知道哪些信息来自谁。
谷歌现在似乎正在沿着同一方向探索一条新的道路,旨在保护我们的私人生活。其研究人员本可以找到避免发送个人数据的解决方案。这就是所谓的联邦学习。
阅读:谷歌即将解决人工智能的一个基本问题
停止将个人信息发送到云端
这种新方法允许智能手机相互协作学习和改进预测模型(例如用于检测照片中的面部或扫描二维条形码),而无需发送用于云中学习的信息。
事实上,智能手机下载了谷歌建立的模型的最新版本。然后,该模型将与您设备上存储的个人数据进行比较,以进行改进。然后,改进后的模型会在本地使用,但也会以模型浓缩物的形式发送回云端,该模型通过在您的设备上进行训练而得到丰富。
显然,谷歌表明这些通信是加密的。一旦美国巨头的服务器收到您退回的手机,其改进就会与其他退回型号的改进进行交叉引用,以创建该型号改进的平均值。但据山景城工程师称,您的数据在任何时候都不会离开您手指之间的设备的物理外壳。更好的是,为了防止手机返回的信息被识别,谷歌表示,它开发了一种名为“安全聚合”的协议,只有当服务器收到来自用户的 100 到 1000 次更新时,该协议才允许解密收到的数据。当您的数据被埋在其他数据中时,仍然可以考虑什么。
适用于 Android 的 Gboard 保护壳
目前,谷歌仅将其联合学习应用于 Android 版 Gboard 键盘。因此,每次应用程序建议搜索时,智能手机都会跟踪您的选择,即您是否接受该建议。然后,联邦学习在本地分析历史记录,返回谷歌服务器以改进模型,然后将模型返回智能手机。
显然,这个解决方案并非没有困难。提交给人工智能的数据集通常是同质的、集中的、可通过快速连接访问并且始终可用。联邦学习所不具备的一切。因为,由于最终用户有多少,通过分割数据集,谷歌工程师必须解决延迟和待训练设备的可用性问题。因此,他们成功地产生了人工智能算法,其训练所需的通信量比同等经典概率算法少 10 到 100 倍。
为了实现带宽和交换的节省,Google 工程师利用智能手机处理器不断增强的计算能力。与通过简单的连续迭代获得的更新相比,我们设备的强大 SoC 可以计算出更高质量的更新。显然,当你也需要这种计算能力时,无论是工作还是娱乐,它都不会被使用。因此,训练阶段的规划方式是仅在您的设备未使用且未连接到电源时进行。遵守最后一个标准,智能手机必须连接到免费网络。
为了进一步节省您的互联网连接,“上下”更新也被压缩,将上传所需的带宽又减少了 100 倍。
人工智能与隐私共存
虽然联邦学习前景广阔,但它并不能解决机器学习的所有问题。然而,除了更加尊重我们的隐私之外,它还可以进一步个性化谷歌等巨头提供的服务。
在 Gboard 的背景下,它可以用于根据您输入的内容和使用的单词来改进语言模型。同样,它可以根据用户查看、分享或删除的内容来提供更相关的照片推荐。这样,谷歌就能够知道你喜欢什么......而不知道那是你。
来源 :
谷歌博客