在 Google I/O 大会上,谷歌发布了 Project Astra,这是其创建新一代人工智能助手或 AI Agent 的尝试,这些助手不仅能够理解自然语言,还能实际采取行动并完成多步骤任务。Astra 是谷歌对 OpenAI 的 GPT-4o 的回应,后者也具备类似的 AI Agent 能力。不久之后,AI Agent 将能代表您执行任务。
这些最新进展表明,科技公司一直在致力于开发 AI Agent。在不久的将来,您最喜欢的应用程序可能会内置 AI Agent,您可以通过它们来订购食物、预订出租车,甚至代表您付款。
总部位于班加罗尔的深度科技初创公司 KOGO AI 很早就看准了这个趋势,开发了一个平台,帮助企业构建能够使用印度语交谈的 AI Agent。KOGO 最初是一款名为 Mappls 的 AI 旅行应用程序,现在已将重点扩展到企业 AI 解决方案。
KOGO 推出了一个名为 KOGO AI 操作系统(OS)的低代码平台,允许公司在几分钟内从头开始构建 AI Agent。这些 AI Agent 最初将具备乌尔都语、印地语和英语对话能力,并计划很快支持另外 73 种语言,包括印度的多种方言和全球语言。
为实现这一目标,这家初创公司与印度政府的语言障碍消除计划 Bhashini 以及微软合作,使其 AI Agent 能够使用多种语言。“如今,如果一家公司(无论是开发商、系统集成商还是大型企业)打算从头开始开发 AI Agent,可能需要数月的时间,具体取决于用例的复杂性。我们开发了一款操作系统,它允许你利用预先构建的模块,在几分钟内为简单用例创建 AI Agent,并高效处理复杂用例。”KOGO AI 首席执行官 Raj K Gopalakrishnan 告诉 AIM。“你可以将我们想象成 Xcode,你可以使用它来开发 AI Agent 或 AI 应用程序。”
利用大型行动模型(LAM)
KOGO OS 由大型行动模型(LAM)提供支持,可创建 AI Agent。这可能代表 AI 之旅的下一个阶段。LAM 是一种能够理解人类意图并采取行动完成任务的人工智能系统。与主要生成输出的大型语言模型(LLM)不同,LAM 可以通过与应用程序、网站和其他系统交互来执行操作。
LAM 的核心是采用分层方法来表示和执行动作。它将复杂的动作分解为较小的子动作,从而促进高效的规划和执行。“你不能使用 ChatGPT 来预订机票、预订酒店或为已取消的交易发起退款。但使用 LAM,这是可能的。因此 LAM 可以做所有这些事情,并且它以 LLM 为基础,” Gopalakrishnan 说。
KOGO OS 平台还利用了多个小型语言模型(SLM),这些模型由初创公司在本地进行训练和托管,以及商业上可用的 LLM。Gopalakrishnan 表示,尽管该平台现在利用的是 LLM,但最终将由公司的专有模型提供支持。“目前,我们利用 LLM 是为了它的智能和知识包装,而不是为了它的数据,”他说。
大量 SLM
KOGO 平台具有生成 AI Agent 的能力,可以确定是否使用 SLM 或查询 LLM 以执行特定任务。此外,它还连接到特定企业的上下文数据。“我们通过创建一组 SLM 来实现这一点。可以把它想象成一群鱼,每条小鱼处理一些小任务,然后它们一起同步工作,以更快的速度提供特定领域的结果,” Gopalakrishnan 说。
对于企业数据,AI Agent 可以处理各种数据格式,包括矢量数据库、PDF、非结构化数据和 CSV 文件。它们还兼容 600 多种不同类型的应用程序。“无论您是员工还是企业的一部分,系统都会吸收并理解您的要求并完成任务。”
由于 SLM 更小、更灵活,并且针对特定领域进行训练,因此它们可以更快地执行功能。此外,由于它们是针对非常具体的数据进行训练的,因此出现幻觉的可能性会降低。在过去的几个月里,我们看到许多较小的模型涌现,包括 Llama 3 8b。微软也发布了几款 SLM,包括最新的 Phi-3,它只有 27 亿个参数。这些模型通过 Azure 向客户提供,因为它们具有成本效益,并且可以更有效地执行某些功能。现在,SLM 已被证明是 KOGO 开发其平台的有用工具。
AI Agent 能做什么
风险投资家 Vinod Khosla 设想了一个未来,互联网接入将主要通过代理进行。他预测,大多数消费者在线互动将需要代理代表他们执行任务,并保护他们免受营销人员和机器人的侵害。到目前为止,KOGO 已经进行了 14 次概念验证(PoC),涉及商业智能和客户体验等多个用例。预计约有一半的 PoC 将在本季度上线。Gopalakrishnan 还透露,三家大型系统集成商(SI)还与其客户以及内部开展了另外六到七个 PoC。
“其中一个 PoC 涉及一个服装品牌,例如,该品牌每天处理大约 200 笔交易,每周总计 700 笔。每笔交易因不同的商品和费用而异,支付网关根据支付方式收取不同的费用。核对这些交易、商品及服务税收费和网关费用对会计部门来说既复杂又耗时。我们的 AI Agent 简化了整个流程,通过高效处理重复、单调的任务,将时间从几天缩短到几分钟,” Gopalakrishnan 说道。
展望未来,随着 AI Agent 变得越来越先进和普及,它们有望彻底改变我们与机器的互动方式。虽然这令人兴奋,但我们也必须仔细考虑其伦理影响和可能带来的挑战。
– END –
报告下载
大佬观点