托马斯·蒙维拉斯(Tomas Montvilas)是Oxylabs,一个市场领先的网络情报采集平台。十多年来,他在产品和业务开发,销售和营销中担任过各种领导角色。托马斯(Tomas)对大数据市场的广泛了解和监督基于AI的解决方案开发的经验有助于Oxylabs的客户在开展不可避免的数字化转型过程时利用公共网络数据。
Oxylabs刚刚推出了其新的AI驱动溶液Oxycopilot。您认为AI是您公司的新战略方向吗?
多年来,Oxylabs的愿景是通过强烈的道德立场领导网络数据采集行业,并专注于持续的创新。当今的市场非常动态和动荡,对我们来说,保持竞争的领先地位意味着在研发上进行适当的投资,快速失败,学习更快,并不断寻找改善我们的产品产品的方法。目前,AI是全球数字经济中的主要技术破坏者,因此我们一定会继续尝试它。
Oxycopilot是我们在数据获取,AI和机器学习(ML)领域所做的长期工作的高潮。我们在2020年建立了AI/ML顾问委员会,收集了在NASA,Google和MIT等组织中拥有经验的顶级专家。董事会旨在帮助我们的员工将复杂的技术思想付诸实践。在2021年,我们引入了第一个ML模型。在接下来的几年中,我们为AI和ML相关的技术获得了约15项专利。
AI和Web刮擦具有互惠互利的关系 - 当今的大多数AI系统都依靠大量的网络数据进行模型培训,并且网络刮擦技术的进步使得收集此类数据成为可能。另一方面,Web刮擦涉及许多常规任务,这些任务可以在AI和ML的帮助下自动化,从而提高了速度和可扩展性。大型语言模型(LLMS)的突破为包括Oxylabs在内的许多科技公司开辟了新的可能性。
Oxycopilot背后的想法是什么?您正在尝试解决什么问题?
如今,大多数网站都有动态的布局,在收集数据时会遇到很大的困难。此外,数据本身(例如,电子商务网站上的产品信息)可以在同一网站上以不同的方式介绍。结果,开发人员可能每周最多花费40个小时建造解析器并修复破裂的解析管道。这是一项平凡且昂贵的任务,因此我们开始寻找自动化的方法几年前。
当时,我们的ML工程师和数据科学家致力于基于AI的自适应解析器。很明显,AI具有未开发的潜力。但是,我们在常见的AI模型相关挑战(例如手动数据标签)方面苦苦挣扎。突破发生在LLM(例如GPT-4)变得广泛访问时。对于Oxycopilot,它涵盖了语义理解部分,这是以前很难破解我们的开发人员的坚果。
Oxycopilot易于使用,即使对于初级开发人员来说,它们也可以输入自然语言提示并立即获得API请求和数据解析器的代码示例 - 认为它是用于刮擦专业人员的Chatgpt。 OxyCopilot允许他们使用我们的Web数据收集平台Web Scraper API,而无需花费数小时阅读文档和手动调试解析器。该模型可以识别非常复杂的解析模式,甚至可以提取嵌套信息。
因此,我们在这里解决的第一个问题是效率 - 我们帮助客户节省了在结构化Web数据收集上花费的昂贵开发时间,并将其重点转移到其他数据管理任务上。一个开发人员调查我们于2024年8月在英国和美国进行了人口普查进行,并表明,建立和维护数据解析器是困扰企业收集公共网络数据的第二大挑战,这是49%的受访者提到的。
第二个问题是解决基础设施相关的成本 - 57%的受访者指出,维护必要的基础设施是与数据解析相关的最大业务成本。 OxyCopilot是Web Scraper API的一部分,Web Scraper API是一个可自动尺度的平台,可处理所有Web数据收集步骤;因此,我们的客户不再需要维护任何基础架构。我们只是将他们需要的数据传递给他们喜欢的云平台。
当今,AI是一个炒作词,许多科技公司(包括各种网络刮擦服务)都使用它来增强其定位。您如何看待自己的竞争? Oxylabs带来了其他人没有的桌子?
大多数网络刮擦提供商都提供小型产品或特定功能,以AI为驱动。我们提供一个多合一的网络刮擦平台 - Web刮板API- 涵盖了从ML驱动的代理管理和网络解密到Oxycopilot-Power-Pather数据解析的所有内容。它是通往任何网站的门户,从电子商务市场到旅行网站或客户收集公共网络数据的任何其他目标。
一些提供商提供与Oxycopilot类似的产品。但是,它们的构建方式需要为每个请求调用LLM,这使其成为一个缓慢而昂贵的过程。我们的技术使用了不同的逻辑,这使其变得精益且具有成本效益。因此,我们带来的餐桌再次是一种以创新为导向的方法,这是我们在行业中脱颖而出的方式 - 通过将客户的需求放在首位并寻找非正统的解决方案。
由于Oxylabs提供了包括代理在内的整个数据收集基础架构,因此我们非常重视道德代理采购。我们这样做是因为我们相信它。尽管如此,我们还注意到这是一个强大的竞争优势 - 多年来,道德实践对我们的客户,尤其是企业级公司变得越来越重要。此外,我们必须为市场上的顶尖人才而战,而强大的道德立场是创造激励工作环境的关键资产。
去年,Fast Company认为Oxylabs是创新者的最佳场所之一。您如何激励团队提出创新的想法?
首先,我们非常关注专利政策,这是我们的研发投资中狮子的份额。 2024年,我们的投资组合在全球范围内超过了100份专利。为了激励我们的员工,我们通过发明家的奖金来奖励他们,如果他们想出一流的想法,任何人都可以得到奖励。
尽管公司的规模,我们没有公司的思维方式,这就是创新想法可以蓬勃发展的另一个原因。我们鼓励非正式的知识共享;例如,我们的技术团队有季度“创新开采”他们赶上与专利和创新有关的事情的会议。
回馈社区是一些专业人士,尤其是高级专业人士也很有趣的方面。就在最近,我们发布了一个基于LLM的工具,该工具将以开源为基础。它允许仅通过描述Pydantic模型自动解析HTML。
当然,这些动机都不会单独带来所需的结果 - 创新。组织需要合适的人。我们有一大批数据科学家,ML工程师,经验丰富的网络刮擦专家以及专门从事不同语言和任务的开发人员。最直接的创新途径是通过具有适当水平的专业知识和创造性思维方式的人。
最后,对未来有什么有趣的计划吗?
通常,我们将继续致力于AI和ML驱动的网络解密。与AI驱动的反剪裁措施的斗争无穷无尽,这对收集公开可用的网络数据的企业构成了许多挑战,其中包括必须超越使用反剪裁解决方案来阻止威胁情报工作的网络犯罪分子的网络安全公司。