图片很少单独发布在 Facebook 和 Instagram 上。文本可以叠加在其上,或者直接集成到装饰中,例如标志或街道名称。考虑到这些社交网络的用户使用的不同语言的数量以及在线发布的内容的数量,这家美国巨头必须配备一种自动工具来分析这些流量。机器学习系统 Rosetta 找到了解决方案。
实时处理超过十亿张图像
“Rosetta 从 Facebook 和 Instagram 上超过十亿的公共图像和视频中提取文本,每天以多种语言实时表达,然后将它们集成到基于分类器的文本识别模型中以理解上下文”,Facebook 在博客中解释道。
挑战有很多:通过提供更相关或个性化的图像搜索引擎来改善用户体验,通过向视障人士描述图像使 Facebook 和 Instagram 更容易被视障人士使用,最重要的是自动过滤不适当的内容或违反规则的内容. 使用两个平台。这是一个高度敏感的话题,不断导致 Facebook 被列入被告席。就像缅甸罗兴亚人大屠杀一样,社交网络上流传着仇恨信息和谋杀呼吁。
视频的文字仍然难以理解
光学字符识别(OCR)方法已经存在,但它们无法将对文本的理解与图像的含义联系起来。 Rosetta 的特殊性是首先检测图像中可能包含文本的矩形集。然后,它使用卷积神经网络来识别和转录每个矩形中所写的内容,无论它们是否是英语单词、拉丁字母。为了训练该系统,Facebook 将人类和机器注释的公共图像混合到其数据库中。
Rosetta 已被许多 Facebook 和 Instagram 团队使用。但该团队还远未宣布胜利,该系统尚未能以最佳方式处理视频。然而,这些正在不断增加。而且不可能像照片那样逐帧提取文本;这需要惊人的计算能力,但结果效率低下。现在必须探索其他方法。