如今,几乎每个公司都认为利用神经网络的业务潜力很大。根据政治家,在2024年,在至少一个业务职能中实施人工智能(AI)的企业份额已增长到72%,而2023年为33%。麦肯锡报告这92%的组织计划在未来三年内增加对AI的投资。BCG添加今年,全球三分之一的公司将为AI技术分配超过2500万美元。
数据科学,机器学习(ML)和计算机视觉专家Denis Pinchuk可帮助企业从算法中获得实际价值。在佛罗里达州中央大学完成了应用数学硕士学位后,他在成为沃尔特·迪斯尼公司的高级数据科学工程师之前对几家初创公司进行了优化的运营。他分享了对自己的职业发展,公司在实施数据科学项目时面临的挑战以及选择AI模型时要考虑的事情。
- 在加入沃尔特迪斯尼公司之前,您与哪些公司合作?
- 完成硕士学位后,我与各个行业的初创公司合作。其中一个为客户提供了网络安全专业知识。作为数据科学家,我在其业务流程中确定了效率低下,然后使用现代数据工程和机器学习技术对其进行了优化。
例如,在我加入之前,手动确定了客户产品中的漏洞。分析师将审查手册和其他文件以编译列表,然后将其传递给主管进行进一步诉讼。我通过配置基于Google Bert的算法来自动化此过程,该算法可以理解上下文并从文本中提取有用的信息以构建网络安全策略。仅此一项就可以每年节省至少15,000美元。
在另一个项目中,我开发了一种模型,该模型使用关键字从官方来源跟踪了有关我们公司产品的公开数据。该解决方案每年节省了超过20,000美元的初创公司。
- 您从事其他哪些行业?
- 例如,在物流中 - 另一家专门用于交付易腐烂商品的初创公司。我的主要任务是优化装运箱中的干冰量,以降低交货成本,同时确保客户的产品质量。
最初,该初创公司仅考虑有关运输和交货地点的数据以及运输所需的大约小时数。该算法很简单:如果订单需要超过两天,则乘飞机发送;如果少,卡车。该公司意识到这种方法远非最佳。
我从头开始开发并实现了一种基于预测的基于树的算法,从数据收集和标签到算法实现都处理了所有内容。该算法包含了许多参数,包括沿卡车路线位置的温度数据,这需要与气象服务集成。
我必须深入研究以获取准确的温度数据。这不是一项琐碎的任务,即使在每年数十万货物时,甚至很小的差异也很小。最终,我在第一年为公司的客户节省了270,000美元的交付成本,尽管该初创公司当时只有三个主要客户。
- 您目前担任高级数据科学工程师的角色到底是什么?
- 我的第一个项目涉及解决身份解决问题。沃尔特·迪斯尼公司(Walt Disney Company)是一家大型公司,涵盖了各种业务:主题公园,酒店,电视网络,有线频道,电影制片厂,流媒体服务等。每个子公司都会生成大量的消费数据。
公司决定将这些数据合并到一个数据库中,对其进行处理,链接不同的交易,并构建分析,以向客户提供个性化服务。例如,如果消费者访问主题公园,一年后留在迪士尼酒店,那么这些交易最初将出现在数据库中的不同ID。但是,使用良好的算法,公司可以认识到这些交易属于同一客户,例如,为他们提供服务折扣。
- 您在这个项目中的具体角色是什么?
- 我负责组织用户数据和编写算法,每天将超过1亿行数据相关联。这是一个巨大的规模。具体来说,我与团队合作,将数据从DynamoDB迁移到图形数据库Neptune DB,该数据库更适合身份解决任务。在新结构中,一个人成为根部元素,每个交易“搜索”对于用户需要“加入。”这显着加速了计算,并提高了识别精度20%。最终,迁移使预测分析能够个性化来宾服务。
此外,我使用AWS胶水和lambda,雪花中的自动化SQL查询生成以及使用Docker改进的CI/CD工艺制定了Neptune,配置ETL过程的优化数据建模策略。这些努力优化了模型开发和部署,加速数据驱动的决策,增强的营销策略(尤其是通过实时客户细分)以及每周至少减少10个小时的体力劳动。我和我的团队还编写了一种算法,以使用户地址和名称归一化,这将个人识别精度提高了15%。
- 您在公司开展了哪些其他项目?
- 在以前的项目中,我大大扩展了自己的知识库,并获得了从工程师到律师和高级管理人员的数十多个专业人员团队的经验。我必须用他们能理解的术语来解释我们的解决方案。
这些技能在我当前的项目中证明是无价的,我们的团队使用计算机视觉算法来增强主题公园中的客人安全。如果摄像机检测到危险行为(例如可疑活动或骑行故障),神经网络会提醒团队,以便他们立即采取行动。
在这个项目中,我担任管理角色,领导一组数据科学家。本质上,我确保我们以最有效的方式实现目标。这包括根据团队成员的长处和劣势分配任务。有时,我自己处理任务,因为它比委派更快,更容易。虽然现在讨论结果还为时过早,但在我们的工作中没有任何宾客受到伤害。
- 实施数据科学计划时,企业经常面临哪些挑战?缺乏数据吗?
- 没有足够的数据,就像没有足够的钱一样。但是,我认为主要问题是关于数据科学的期望与现实之间的差距。目前,这是一个炒作,因此高层管理人员通常对AI和ML的期望不切实际。他们看不到可解决的问题和无法解决的问题之间的边界。这是可以理解的,因为数据科学超出了他们的专业领域。
我们作为数据科学家的角色是清楚,透明地证明管理有限的资源,我们可以实施哪些工具以及我们可以实际实施的工具。我相信,做一些事情要比在空中建造城堡要好得多,但是要快速,而且要好得多。
实施总是具有挑战性的。如果您开发了做出良好预测的AI模型,这并不意味着企业可以使用它。您还需要将其部署到生产中,这需要自动化数据收集并确保其无错误。只要其中一些过程是手动的,就不可能实施ML项目,尤其是在每天处理数亿美元的交易时,例如沃尔特·迪斯尼公司(Walt Disney Company)。
- 您如何为特定项目选择合适的模型?
- 我想说这与选择会计软件没有什么不同。您只需考虑自己的需求并测试不同的解决方案。对于某些任务,准确性更为重要。对于其他人,速度。有时,成本是主要因素。其他时候,公司选择一个效率较低的神经网络,因为它更容易集成到现有的基础架构中。
例如,在我的第一家初创公司中,我需要为佛罗里达州交通运输部开发一个模型,该模型将使用监视摄像机录像来监视通过车辆的数量和类型。面临的挑战是,出于法律原因,无法存储视频。
对于这个项目,我选择了Yolo神经网络,该网络以其高速闻名。尽管我牺牲了一些精度,但它能够实时处理相机数据流。准确性仍然达到97%,比较旧的,更昂贵的电缆在道路上铺设电缆实现的90%要好得多。
因此,如果不了解要解决的问题,您将无法选择模型。首先,您需要掌握项目的所有细微差别,然后选择一些算法选项,然后评估哪个算法最佳。例如,如果任务预测客户流失,则可以考虑使用线性回归(通常具有高精度和可解释性)的经典模型。对于自然语言处理任务,变压器值得考虑。
- 实施AI模型时还应考虑什么?
- 一个关键因素是解释性。企业对此有明确的需求。 AI通常像黑匣子一样工作:我们可以理解模型操作的一般原理,但不能总是确切解释哪些功能和机制导致了特定的决定。在某些任务(例如流量监控)中,可以说明并不重要。但是,在其他情况下,例如检测异常和解释其原因,这很关键。例如,在银行业中,必须了解为什么AI建议拒绝某人贷款。此外,诸如《欧盟AI法》之类的法规正在出现,强调了AI工具中解释性的重要性。
有多种增强解释性的方法。您可以使用经典的回归模型,银行使用了数十年。这些不仅可以预测结果,还可以解释哪些因素影响了它们。如果神经网络产生意外结果,则可以运行线性回归或决策树分析以检查单个因素的影响。这不会提供精确的预测,但将有助于更好地理解不同功能的重要性并改善模型。另一种方法是基于游戏理论的Shap(Shapley添加说明),该理论计算“公平的”通过比较不同的输入组合来贡献每个功能。
模型的解释性越高,在关键过程中使用越容易使用,尤其是在需要决策理由(例如信用评分)的情况下。但是,在诸如自动驾驶汽车控制或疾病诊断之类的任务中,准确性通常比解释性更重要。