今天,我们有幸与Nitin Gupta,Meta的工程领导者,其在AIOPS的开创性工作对Meta和整个行业产生了持久的影响。在他在著名的演讲之后System@scale会议和他发人深省的博客文章,“META的AIOPS的演变:超越嗡嗡声,”我们与他坐下来接受今年早些时候的采访。
Nitin是Meta的资深领导人,在那里工作了8年以上。他已经在Meta的AIOPS空间工作了将近五年,我们只能得到他的工作的全部故事。他的工作不仅改变了Meta如何接近系统的可靠性,而且还引发了更广泛的领域的创新,例如机器学习(ML)调试和重新思考服务级别的目标(SLOS),该领域的其他人在他的突破性上建立了创新。
Nitin,您能告诉我们您的背景以及您如何参与Meta的AIOPS吗?
尼丁:我于2015年开始在Meta(FKA Facebook)工作。在此之前,我在AWS工作了3。5年。在这两家公司中,我目睹了大型分布式系统的复杂性。我在AI/ML的旅程始于2019年,当时我被任命领导META的AIOPS倡议,以简化对Meta事件的调查。我与一支小型团队进行了这项计划,以快速制作原型,后来,它扩展到了Meta的成熟业务部门。
这是我进入AIOPS的时候 - 与AI相结合以解决大量操作数据,事件和异常,以一种单独的工程师无法高效管理的方式。将这些技术应用于根本原因分析是一种创新和新颖的方法,尤其是在Meta的规模上,我们有1000亿个时间序列,日志的PB(PBS)以及每分钟数千个事件,以在几秒钟内进行分析以确定事件的根本原因。
在系统@刻度去年,我分享了我们对AIOPS的方法如何塑造未来,以确保随着系统变得更加复杂,我们在运营挑战方面保持领先地位。
在您的演讲中,您强调了Meta对AIOPS面临的独特挑战。您能否解释您的方法如何以真正提供价值的方式改变了Meta的操作?
尼丁:多年来,Meta的可观察性系统随着多个行星规模系统的分散而发展,这使得工程师很难研究问题。在这个世界各地超过20亿用户的系统复杂性和不断增长的遥测数据的世界中,工程师在干草堆中寻找针头。
对我们来说,AIOPS一直在削减这种噪音。我们不仅要监视问题,还创建了从数据模式中积极学习,预测故障并自动化解决过程的系统。正是这种积极主动的方法可大大降低停机时间并提高了系统的可靠性。真正的价值来自于节省工程师的时间,使他们释放他们专注于更具战略挑战而不是消防。
您已经表现出了非凡的能力,不仅在开发这些系统方面,而且在领导团队来扩展这项工作方面。您能谈谈您的工作对行业的更广泛影响吗?
尼丁:看到我们在Meta的努力如何向外荡然无存,真是令人兴奋。整个公司和行业的团队已经完成了我们在AIOPS中所做的基础工作,并将其应用于其他关键领域。例如,由于AIOPS技术允许对生产中ML模型进行实时分析,因此ML调试变得更加精简。同样,我的工作简化了Meta的现有工作流程,自动化SLO归因,这使团队有能力确保在没有持续的手动干预的情况下达到绩效目标。 Meta的团队建立了ML调试系统称为Hawkeye根据我的工作,最近在Meta的工程博客上发布了他们的发现。我鼓励您的读者检查一下。看到这些概念扩展并解决了更大,更复杂的问题,这真是令人难以置信。
您为什么认为您的工作具有如此广泛的影响,尤其是在ML调试等领域?
尼丁:其中很多取决于解决普遍挑战的问题。无论您是管理AI模型,为系统性能进行优化还是确保服务可靠性,这些都是复杂性呈指数增长的领域。我们专注于解决基本数据问题,并从一开始就确保我们的系统是为可伸缩性和未来扩展而建立的。我们的团队发表了有关这些基础技术的研究论文,数据的快速分析。
展望未来,是什么让您对AIOPS及其潜在应用的未来感到兴奋?
尼丁:AIOPS的未来令人兴奋,因为我们只是刮擦了可能的表面。我看到一个世界不仅是自我修复,而且是自我优化的世界 - AIOPS可以实现预测性干预措施,以在任何人类之前都注意到问题。将这些原则应用于需要驯服运营复杂性的其他领域,将这些原则应用于其他领域,还有一个巨大的机会。大型语言模型(LLM)和基础模型(FM)仅使这个空间更加令人兴奋。
您对在AIOPS领域开始的行业领导者和公司有什么建议?
尼丁:专注于真正的操作疼痛点,而不仅仅是时尚。 AIOPS并不是要为此而采用AI;这是关于识别和解决团队面临的核心问题,例如系统可靠性和事件响应。有目的地构建,您的倡议将与AIOPS一起提供价值。
结束思想
Nitin在Meta的开创性工作重新定义了AIOPS的可能性,使智能,可扩展的操作成为标准,而不是Meta的例外。他的创新继续影响着可靠性的未来,为AI和卓越运营的进一步突破奠定了基础。