终端AI智能体崛起：技术、合规与产业生态的挑战与机遇

财经聚焦 2025-01-09 16:29:35 来源：21世纪经济报道作者：网络

AI导读：

本文探讨了终端AI智能体的崛起与未来趋势，当前主要技术方案以及多角度思考与综合治理的路径，旨在解决技术发展与法律合规、创新与安全、效率与公平之间的平衡问题。

文/ Rainbow 主流终端厂商合规负责人

随着AI技术的飞速发展，塑造智能体作为人类助手已成为新时代的热门话题。这一趋势不仅吸引了智能手机、智能设备制造商的关注，还促使软件厂商纷纷布局此领域。

在2024年，荣耀推出了首款搭载AI Agent的荣耀Magic7，其YOYO智能体备受瞩目；小米15则凭借澎湃OS 2及升级版的“超级小爱”崭露头角；vivo也紧跟潮流，发布了PhoneGPT。这些创新标志着AI智能体正逐步融入人们的日常生活。

随着大模型走进端侧，设备拥有了“大脑”，智能体则成为连接用户的最佳入口。然而，作为“新兴物种”，智能体在落地应用过程中仍面临诸多挑战。如何定义智能体？如何实现其作为人类助手的功能？在处理海量数据时，如何确保数据合规？此外，终端AI智能体可能对第三方应用流量及App生态模式造成冲击，如何促进产业健康发展成为亟待解决的问题。

本文将深入探讨AI Agents的崛起与未来趋势、当前终端AI Agent的主要技术方案以及多角度思考与综合治理的路径。

一、AI Agents的崛起与未来趋势

（一）从自动化到通用智能：AI Agents的演进脉络

经过数十年的发展，人工智能已从早期的逻辑推理、专家系统阶段，逐步演进到基于深度学习、大规模预训练模型（LLMs）的新时代。随着模型规模的扩大和多模态技术的兴起，AI Agents开始展现出更强的交互与决策能力，不再局限于单一任务的自动化，而是能够在复杂环境中进行自主规划、执行和纠错。

近年来，OpenAI、DeepMind、谷歌、微软、Meta等企业在智能体技术上取得了显著突破。这些智能体不仅具备对环境的感知与操作能力，还涵盖了文字、语音、视觉乃至物理环境等多个方面。其中，GUI Agent作为专门针对人机图形交互界面进行理解和操作的智能体，更是为AI技术的发展注入了新的活力。

（二）AI智能体对AGI实现的价值

1. 近未来场景：2025年的预测

OpenAI首席执行官山姆·奥特曼预言，2025年，我们可能会看到第一批人工智能智能体加入劳动力市场，并实质性地改变公司的产出。同时，斯坦福大学人类中心AI（HAI）的研究者指出，协作型AI智能体将在医疗、金融、教育、政务等多个行业大规模铺开，成为人类的合作者。

2. 终端AI智能体对通用智能（AGI）的启示

当前，在终端设备上进行跨应用操作的AI智能体虽称不上AGI，却为AGI的发展提供了重要试验场。它们通过多模态交互、自主规划与执行以及自我纠错等能力，让AI更加接近人类的多感官信息获取方式和行动模式，为后续更高层次智能的落地奠定了基础。

二、当前终端AI Agent的主要技术方案

终端AI智能体的发展趋势日益显著，主要体现在手机和电脑上对智能理解和自动化操作能力的追求。其核心思路是让AI像人类一样，不仅能“理解”屏幕，还能“点击”或“调用”各种应用功能，从而完成复杂任务。目前，行业中有两大主流方案：

（一）屏幕识别+模拟点击

利用光学字符识别（OCR）和图像检测技术，系统可以识别当前屏幕上的文字、图标和控件，并通过模拟用户点击或键盘输入完成操作。例如，智谱AI的CogAgent-Chat和Mobile-Agent-v2就采用了这种方案。

（二）屏幕识别+意图框架执行官方接口（或类API）调用

另一种方案是由平台提供官方API或意图框架，让AI可以直接调取应用功能而无须模拟点击。苹果和微软就采用了这种方案。苹果通过Onscreen Awareness功能让Siri理解屏幕内容，再通过开发者配置的Assistant Schemas查询数据类型及可执行功能；而微软则提供了UFO（UI-Focused Agent for Windows OS Interaction），它可以通过模拟点击和API调用等多种方式操作Windows应用程序。

三、多角度思考与综合治理的路径

AI技术的发展带来了复杂而深远的影响。如何在终端AI Agent浪潮中实现技术发展与法律合规、创新与安全、效率与公平之间的动态平衡，是我们当前面临的重要课题。本节将从多个角度进行切入，并提出一个“综合思考象限”或“多主体、多维度”的分析框架，以便在法律层面给出可行的治理思路。

（一）多角度思考

1. 技术与AI进化

模拟点击和官方接口两种方案都在推动AI向多模态和更高自主性的方向前进。模拟点击更贴近人类使用方式，覆盖度更广；而官方接口则更安全高效。

2. 用户体验与隐私安全

用户通过跨应用操作获得便利的同时，也需要关注在哪些场合下共享了屏幕信息。平台应建立完善的权限与授权机制，以缓解用户对隐私泄露的顾虑。

3. 法律合规与监管

屏幕识别和API调用都可能涉及个人信息保护与数据安全。各国个人信息保护法等法律法规均强调知情同意与最小化收集原则，要求平台或AI服务需对潜在风险做好管控。

4. 竞争与生态

终端AI智能体可能冲击第三方应用流量乃至App生态模式。因此，需要重新梳理AI介入后的产业链变化，形成新的产业格局，以促进更健康的产业发展。

5. 社会与未来影响

随着更多智能体承担任务，将带来新的就业模式或职业配置。同时，伦理规范、行业标准也需要同步跟进，以避免技术被不当利用。

（二）综合思考象限：多主体、多维度的平衡

为了实现上述维度的平衡，可采用“多主体—多维度交叉”的分析框架。主体包括用户、开发者、平台/系统厂商、监管机构以及AI技术提供方；维度则涵盖技术进化、用户体验/隐私、安全/合规、竞争/生态以及社会影响。通过这张矩阵，我们可以更全面地了解各主体在不同维度的潜在需求或矛盾，从而寻求平衡方案。

此外，文中还展示了相关分析框架的图片，以便读者更直观地理解。

（三）从具体方案到综合治理

从智谱CogAgent-Chat、微软UFO、Mobile-Agent-v2到苹果的Onscreen Awareness + App Intents等方案，都在解决如何让AI真正模仿人类在操作系统或应用中的复杂操作问题。这些方案在技术架构上采用了规划/决策/反思等思路，以提升可控性与成功率。同时，它们也体现了对现实生态和长尾需求的妥协，即接口与模拟点击两条路径并存。

然而，无论采用哪种技术实现方式，都绕不开隐私保护、授权机制、数据安全、生态竞争等现实问题。因此，安全合规与生态平衡成为关键。此外，这些实践也为未来AGI的发展提供了重要启示，让AI真正“能看到、能思考、能操作”，将理论研究与真实操作环境相结合。

终端AI智能体在带来技术与效率提升的同时，也在用户体验、法律合规和行业竞争中提出了新课题。为了实现更健康的发展，需要从多个层面着手。AI产业链中的主体应继续加强系统级权限管理与数据最小化收集工作，为用户提供可理解的操作界面和授权提示。同时，平台与开发者可以考虑建立“官方接口+模拟点击”两条路径并存的方式，以满足用户的通用化体验需求，并保护应用开发者的核心功能或敏感数据。

此外，随着AI技术的不断进步和智能体的广泛应用，产业分工可能会因自动化程度的提高而发生新的调整。因此，如何在技术变革的同时兼顾个人权益和产业活力，将成为长期议程。

（文章来源：21世纪经济报道）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。