找到
861
篇与
互联网
相关的结果
-
多元筑同心 聚力汇星河 2026中国网络媒体论坛正能量创作者大会在河南郑州举行 3月28日下午,2026中国网络媒体论坛正能量创作者大会在河南郑州举行。中央网信办副主任、国家网信办副主任杨建文,河南省人大常委会副主任何金平出席大会。本次大会以“多元筑同心 聚力汇星河”为主题,设“携手共创 聚势赋能”“大V聚力 正能破圈”“机构聚能 聚星成火”三个篇章。与会嘉宾结合自身实践,分享创新传播方式、壮大主流价值的有效方法,讲述以鲜活故事助力正能量直抵人心的生动实践,探讨汇聚行业合力、培育优质内容的积极举措,广泛凝聚共识,共建向上向善网络正能量。大会现场启动了“2026正能量行动计划”和“2026正能量创作者支持计划”,以体系赋能创作,以机制护航内容,通过流量倾斜、收益激励、成长赋能等方式,让创作者有支持、让正能量有共鸣。中国网络社会组织联合会网络名人专业委员会代表、网络名人、MCN机构和网络主播代表共同发出了《清朗网络空间 汇聚向上向善》倡议,号召广大网络内容创作者坚守价值导向,深耕优质内容,聚力繁荣网络内容生态,共建风清气正的精神家园。本次大会由中央网信办网络传播局主办,中国网络社会组织联合会承办。中央和国家机关有关部门、中央新闻单位、中央和地方重点新闻网站,地方网信办,主要商网平台、MCN机构、正能量创作者代表等800余人参加会议。 -
“百虾大战”现身上海滩:一觉醒来进化了,龙虾的病龙虾自己治 “安装龙虾送Token”“OpenClaw实战应用”“OpenClaw攻防实战”……周六一早,2026全球开发者先锋大会就迎来了汹涌人潮,“龙虾”相关体验区更是人气爆棚,现场一片“百虾大战”的景象。多虾协同成趋势走进上海智灵新境科技有限公司的展台,你会发现这家公司的员工几乎“人手一只虾”,甚至更多。这是一家专注AI视频创作工具开发的创业公司,提供一站式视频短剧创作解决方案。“像我们公司的产研沟通群里,就有六七只‘虾’。”智灵新境创始人费元华说。这些“龙虾”各有分工,有的负责法务,有的负责测试,有的则扮演项目助手的角色。员工可以在群里直接@自己的“龙虾”,让它帮忙处理工作。“龙虾”正在实实在在地提升工作效率。费元华需要搭建一个复杂系统,原本这活得交给专业运维人员,花不少时间才能搞定,但他的“龙虾”不仅能独立完成,遇到问题时还会自己想办法解决,只在必要时才来询问主人。更有意思的是,还可以“用龙虾修龙虾”——当“龙虾”自己出了故障,调用另一只“龙虾”去修复。“龙虾”不只在内部协作中发挥作用,智灵新境还将自身的AI视频能力打包成“技能包”,接入了OpenClaw生态。不过,工作人员也坦言,“如果是小白用户,可能会觉得‘技能包’安装有点难。”为此,公司最近与云厂商合作,正在着手优化这一体验,让用户可以像下载普通应用一样一键安装。 现场“养虾”的人已经排起长队。突破工业红线记者粗略统计了一下,整个大会现场至少有100只各式各样的“龙虾”,竞争如此激烈的一片红海中,如何才能成为“霸王虾”?商汤科技的选择是,在擅长的领域做到极致。要让“龙虾”好用,自身的产品能力就必须过硬。商汤科技交互大模型团队、语音团队负责人詹明捷表示,每个企业都需要在自己的专业领域打磨出真正有价值的技能,才能成为生态中被高频调用的那一个。以语音识别为例,詹明捷提到,虽然三四年前语音识别已经在准确率上突破了工业红线,但“只有远超用户预期的语音识别模型才是有价值的”。他举了一个例子:如果一个人在说话时改口,说“明天早上如果有空的话,十点,算了,还是十一点”,传统的语音识别可能会机械地记录下这一整句,而真正好用的模型应该直接理解用户的真实意图,输出“明天早上十一点”。这种对自然口语中修正、停顿、改口的理解能力,是让产品从“能用”走向“好用”的关键之一。商汤的SenseAudio语音开放平台在这一逻辑下打造,它面向开发者与企业,提供语音识别、语音合成、音色克隆等能力,并通过标准化API接口,支持高效接入与调用相关能力。在商汤科技看来,“养虾”的目标不是封闭生态,而是让更多优秀技能汇聚起来,让龙虾真正“好用”。“我们不是让社区开发的各种‘技能包’只在我们身上用,那是故步自封。我们希望全社区共享,我们成为社区一部分,社区也成为我们的一部分。”詹明捷说。安全养虾是关键“‘养虾’热的背后,是AI从生产工具走向生产力的重要转变。”上海市人工智能行业协会秘书长钟俊浩表示,AI智能体是多资源体协同与工作流部署的结合,如今正处于探索前行的阶段,既要大胆创新,也不能忽视安全问题。安全,正在成为“养虾”生态的关键词。大会现场,上海人工智能实验室推出SafeClaw智能体平台,以“内生式安全、产业级智能”为核心能力,相当于为龙虾装上了“三重防火墙”:模型安全、过程安全、输出安全,能够拦截危险指令并支持文件找回。“我们不是限制‘龙虾’的能力,而是让它在安全边界内自由发挥。”展台负责人说。记者发现,“物理隔离”也成了安全“养虾”的主流选择。在大会现场,一个展位前排起了长队,他们正在售卖一款名为“傻福虾盘”的优盘。 即插即用的“龙虾”售价不低。“简单来说,这是一个已经安装了OpenClaw的优盘,插在电脑上就能直接用。”上海筝智数字科技负责人邢磊介绍,“傻福虾盘”即插即用的功能只是一方面,更重要的是优盘“养虾”可以对电脑数据进行物理隔离,“养虾”所需要的资料仅需存在优盘上,即便出现安全漏洞,电脑数据也比较安全。最低379元的价格并不便宜,依然有不少人现场激情下单。“OpenClaw的优势有目共睹,但使用过程中并非没有门槛,安全性是未来AI智能体的核心竞争力之一。”阶跃星辰运营负责人刘智表示。原标题:《“百虾大战”现身上海滩:一觉醒来进化了,龙虾的病龙虾自己治》栏目主编:李晔来源:作者:解放日报 查睿 束涵 -
“一人公司”正在重塑创新创业门槛与形态 【编者按】眼下,人工智能正打破传统模式,成为产业和生活的“底层支撑”。“一人公司”(简称OPC)的涌现是这一趋势的集中体现。近期的“龙虾热”,让这一创业模式更多走进大众视野。在复旦大学新闻学院副院长姚建华教授看来,作为智能经济新形态,“一人公司”的兴起为培育发展新质生产力探索出一条可落地、可复制的新路径,但同时对其成长过程中可能面临的潜在风险和挑战也要保持清醒认知。以下是他在2026年首届宜兴国际青年年会上的演讲。近段时间来,“智能经济新形态”“人工智能+”等成为热词,标志着AI时代的组织形态正在发生深刻变革。“一人公司”(One Person Company,以下简称OPC)的涌现是这一趋势的集中体现。所谓OPC,是指以创始人“一人”为核心经营者,借助数智工具和外部协作网络,由个人独立或不超过10人的微团队,完成价值创造、交付与获取的新型创业实体。AI智能体浪潮下,“一人公司”的兴起为培育发展新质生产力探索着一条可落地、可复制的新路径。OPC崛起的现实背景新质生产力的核心是创新,而创新的根本推动力是人。在传统工业体系中,创新往往意味着高昂的研发投入、复杂的工程团队和漫长的试错周期,其以资源密集型的“天堑”将大多数个体排除在外。而AI时代的OPC则打破了这一格局,推动更多普通个体进入创新创业行列。从制度支撑层面看,中国已逐步构建起适配OPC发展的政策体系。2024年新修订的《中华人民共和国公司法》正式施行,取消了“一个自然人只能投资设立一个一人有限责任公司”的限制,并允许设立一人股份有限公司,进一步放宽市场准入条件。2025年,国务院印发《关于深入实施“人工智能+”行动的意见》,明确提出要推动人工智能与经济社会各领域深度融合,培育“智能原生新模式新业态”。2026年政府工作报告进一步指出,要通过智能体、开源社区、智算集群、高质量数据集等要素,“打造智能经济新形态”。与此同时,面向小微企业的普惠性税收优惠政策持续落地,为OPC模式提供了有力的制度保障。从发展战略层面看,OPC的发展与中国式现代化的本质要求高度契合。中国式现代化的核心是人的现代化,而充分释放每个个体的创新活力则是题中应有之义。当前,中国正处于经济转型升级的关键期,新质生产力的培育急需广泛的创新参与和创业实践。OPC的出现,不仅为AI技术与实体经济的融合提供了灵活有效的实施平台,而且赋能青年群体从“被动找工作”转向“主动造岗位”,使普通个体的创意和才华得以突破资源和规模的限制,由此实现自我的价值创造与可观的收入增长。OPC发展的核心价值《全球OPC经济体发展白皮书(2026)》指出,OPC具备数字原生、人机协同、精益组织等鲜明特征。作为一种新兴的工作组织形态,OPC的价值已超越个体创业层面,延伸至社区协作、产业联动和空间拓展等多个领域,成为连接个体、技术与市场的重要载体。(一)技术赋能:打破创新壁垒,推动普惠式全民创新当前,以“手搓经济”为代表的轻量化个体创业迅速崛起,个体无需依赖专业生产线与巨额资本,仅凭创意、AI工具和开源资源即可实现产品落地;“氛围编程”(vibe coding)使开发者通过自然语言与AI交互,便可完成轻量化应用开发,让“零代码创业”成为日常;尤其是数以百万计的开源项目,使个体在全球开发者协作的基础上进行二次创新,形成了“站在巨人肩膀上”的AI创业模式。AI技术的普惠化,正在从根本上重塑创新的门槛与形态。创新的核心壁垒,从“资源占有”转向“问题意识”与“价值判断”:谁能更敏锐地发现真实需求,谁能更精准地定义问题,谁能更有效地将技术能力与场景理解相结合,谁就能在OPC的浪潮中占据先机。因此,这一技术赋能的本质,是创新机会的“普惠化”与创业资源的“去中心化”。当AI工具承担了大量重复性、技术性的基础工作,个体的核心价值便回归到那些无法被算法替代的维度:对用户需求的深度共情、对行业痛点的独特洞察、对市场风向的敏锐判断。OPC的出现,正是这一时代变革的集中体现——它让每一个有想法、有热情的个体,都有机会成为创新链条上的重要一环,使“人人皆可创新、处处皆为舞台”成为现实。(二)社区赋能:搭建协作体系,激活社群化创新活力AI为OPC的发展提供了技术基础,而遍布全国的OPC社区则为个体创业者搭建了重要的社会支持网络。社会学家皮埃尔·布尔迪厄指出,个体资本的积累和转化离不开特定场域。对数字时代的个体创业者而言,OPC社区正是促进社会资本、文化资本与经济资本相互转化的重要场所。与传统社群不同,一方面,OPC社区以共同的创业目标和价值追求为纽带,既保留了数字时代的流动性特征,又通过线下交往空间与线上协作网络,将生产协作与情感联结有机结合,极大缓解了个体创业者普遍面临的孤独感与焦虑感,并将原本分散的创业者凝聚成更稳定的共同体。另一方面,OPC社区扮演着政策落地的承接载体与关键角色。例如,上海临港“零界魔方”社区、北京中关村“AI北纬”社区、深圳宝安“大公坊AI硬件OPC·hub”分别通过人才集聚、产业贯通、一站式服务等方式,为个体创业者提供全方位支持。更重要的是,OPC社区也是合作关系生成和扩展的重要空间。创业者在此建立跨行业联系,将人际网络转化为可调动的商业资源,形成“动态组队、灵活解散”的弹性协作模式。有数据表明,超过六成入驻创业者的业务合作都来自社区内部。这种以社区为节点、以信任为前提的弹性商业网络,不仅打破了传统创业中的信息壁垒,而且帮助个体创业者快速补齐能力短板,进一步释放了OPC的创新活力。(三)生态赋能:打通产业联动与空间延展链条,服务新质生产力培育在相当长的一段时间里,中国的产业处于“大企业大而不强、小企业小而不活”的困境——企业之间不仅缺乏深度的协同创新,而且数字经济红利的不均衡分配更是加剧了城乡发展差距。而OPC的崛起,为破解这一困境带来了希望,并成为推动新质生产力发展的关键力量。在产业端,OPC社区正在成为连接个体创业者与产业生态的桥梁。国内制造业龙头企业通过与OPC社区合作,在细分产品研发、创意设计、数字营销等环节,与垂直领域的个体创业者形成了紧密的协作关系,提升了创新响应速度。这种共生共赢的模式既发挥了大企业的规模优势,又释放了个体创业者的灵活性,为新质生产力发展提供了更具活力的产业协同方式。在空间端,OPC“在线办公、远程链接、全球市场”的特征,降低了创业创新对固定地理空间的依赖,并促进了创业资源的跨区域流动。特别是在乡村地区,OPC凭借低成本、轻量化、高灵活性的特点,为“小而美”创业提供了理想场景,缓解了传统农业创业“投入大、周期长、风险高”的难题。浙江、福建、云南等地通过打造轻量化的OPC服务聚落,吸引了返乡青年在智慧农业、乡村文旅和非遗传承等领域创业,带动了县域经济发展和农民增收,使数字红利得以覆盖更广泛的人群。OPC热潮背后的风险与隐忧在充分肯定OPC及其产业化发展所释放的积极价值的同时,我们也需对其成长过程中可能面临的潜在风险和挑战保持清醒认知。中国的OPC发展,兼具创新政策和就业政策的双重属性。这使其相比西方自发生长的独立创业模式,既承载着更宏大的发展愿景,也天然面临着更多需要厘清的现实难题。当前较为突出的问题是,部分地区的OPC政策与社区建设存在同质化倾向。数据显示,全国已有23个城市相继出台了OPC专项扶持政策,但多数政策仍集中在场地租金减免、算力补贴、注册便利等基础层面,未能充分结合当地产业优势与资源禀赋形成差异化发展路径。部分社区出现“重数量、轻质量”的倾向,盲目追求社区规模,却缺乏完善的创业服务、产业配套和资源对接,存在“空壳化”的隐忧。同时,数字鸿沟带来的发展不平衡问题依然突出。尽管AI工具降低了创业门槛,但从实践看,OPC创业者仍以具备专业技术或高学历背景的青年群体为主,其大多拥有大型科技公司、科研机构的从业经历。而我国数以亿计的灵活就业者、大量县域青年和普通劳动者,仍缺乏使用AI工具的能力和对数字创业的系统认知,难以真正参与这一创业浪潮。当前,AI时代的人才结构正逐步呈现出“图钉形”特征:少数能够熟练驾驭AI的超级个体位于图钉尖端,而绝大多数普通劳动者则构成了庞大基座。二者逐渐拉大的差距,极有可能偏离OPC普惠式创新的初衷。个体风险的系统性转移,以及与之配套的制度保障缺位,也是OPC高质量发展面临的一大挑战。OPC创业者在法律身份上是企业主,在实际经营中却扮演着雇主和雇员的双重角色,需要以个人身份承担企业经营的全部市场风险与债务责任。原本由企业分担的经营成本和不确定性更多地转嫁至个体,而这些问题很容易被“创业自由”和“时间自主”等浪漫叙事所遮蔽。此外,“一人公司”大多基于AI智能体的应用,而AI智能体存在的安全漏洞则可能带来数据安全风险。推动OPC高质量发展的现实着力点展望未来,推动OPC稳健发展,关键在于坚持鼓励创新与规范发展并重,在政府引导与市场机制之间形成合力,不断完善制度体系、优化社区生态,使OPC更好地释放个体创造力,并为新质生产力培育提供有力支撑。首先,引导政策精准适配,筑牢发展支撑根基。可制定OPC发展专项规划,并与地方“十五五”规划相衔接,明确发展目标和重点方向,鼓励各地根据自身产业基础制定差异化政策,避免同质化竞争与无序建设。在现有法律框架下,应进一步细化OPC的治理规则,完善监管体系,明确法律边界,堵住监管漏洞。针对OPC的发展特点,可优化创业担保贷款、知识产权质押融资等扶持方式,缓解个体创业者融资难题。同时,搭建跨区域互通的公共算力服务平台,为个体创业者提供低成本、普惠性的算力支持。其次,优化社区生态建设,强化核心载体功能。引导各地OPC社区立足本地产业优势和资源禀赋,打造差异化的发展路径,避免千篇一律的建设模式。制造业基础雄厚的地区,可重点打造硬件创新、数字化工具等领域的OPC社区;文旅资源丰富的地区,可聚焦乡村振兴、文旅融合等方向开展OPC培育。同时,社区建设应从单纯提供办公场地、算力支持等基础配套,转向更完整的综合服务,包括资源对接、产业协同、技能赋能和情感支持等,并在此基础上构建更开放、更具参与感的社群治理方式,使社区真正成为个体创业者的孵化器。最后,构建普惠发展体系,守住安全合规底线。针对数字鸿沟问题,可联合科技企业、高校及行业协会,完善面向不同群体的AI技能培训体系,围绕高校毕业生、返乡青年、灵活就业者等群体开展定制化培训,降低AI创业的技术门槛,推动OPC向现代农业、文化传承、民生服务等更多领域延伸,激发全民创新的活力和潜力。同时,坚持包容审慎的监管原则,针对AI创业的特点,以“监管沙盒”等方式为OPC实践预留合理试错空间;完善AI安全治理体系,帮助个体创业者厘清数据安全、版权保护等合规边界。更关键的是,加快完善适配OPC创业者的社会保障体系,探索建立更灵活的社保缴纳机制,畅通社保关系转移接续渠道,切实解除个体创业者的后顾之忧。【思想者小传】 姚建华,复旦大学新闻学院教授、博士生导师,复旦大学新闻学院副院长,加拿大女王大学社会学系博士。长期致力于传播政治经济学、数字劳动、数字游民等研究。主持和参与国家级、省部级研究课题20余项。主编“当代马克思主义与媒介化社会研究丛书”等。学术成果曾获教育部高等学校科学研究优秀成果奖和上海市哲学社会科学优秀成果奖。(作者照片由本人提供)原标题:《思想者|姚建华:AI智能体浪潮下,“一人公司”究竟改变了什么?》栏目主编:王珍文字编辑:王珍本文作者:姚建华题图来源:上观题图图片编辑:徐佳敏编辑邮箱:shhgcsxh@163.com -
为全球科技繁荣发展贡献中国方案 本报记者 孔 歌 2026中关村论坛年会现场,一名外国嘉宾正在了解智能巡检机器人。 本报记者 孔 歌摄 3月25日至29日,以“科技创新与产业创新深度融合”为主题的2026中关村论坛年会在北京举行。年会设置了论坛会议、成果发布、技术交易、前沿大赛、配套活动五大板块。来自100多个国家和地区的嘉宾齐聚一堂,分享创新成果、展望国际科技合作前景。大家表示,近年来,中国持续优化创新生态,推动前沿技术与产业深度融合,不断拓展与各国科技合作的深度与广度,为全球科技繁荣发展贡献了中国方案。 “我们看到了科技创新驱动社会发展的成果” 机器人舞者与机器人乐队同场演出,一首首悠扬的乐曲引人驻足;餐吧里,机器人默契协作,奉上地道京味小吃和中式茶饮;舞狮机器人踏着利落节拍灵动起舞,四足机器人在技术人员操控下自如穿梭……走进中关村国际创新中心,仿佛步入一场未来生活秀。不少外国嘉宾主动咨询前沿科技产品,纷纷打卡体验、拍照留念。 世界知识产权组织副总干事王彬颖在开幕式致辞中表示,人工智能等新技术正在全球广泛传播,重塑创新格局,催生新机遇。中国是世界上首个国内有效发明专利数量突破500万件的国家,创新成就举世瞩目。北京拥有深厚的创新底蕴,世界知识产权组织将致力于深化与北京的合作。 “中国政府立足长远制定科技创新战略,在科研领域持续投入,取得的科技成果不仅深刻改变了中国社会,也对世界产生了重大影响。”国际科技园与创新区域协会主席萨尔瓦托雷·马约拉纳说,“中国的科技水平处于世界领先行列。在这里,我们看到了科技创新驱动社会发展的成果。” 欧洲科学院院士、中国工程院外籍院士、东南大学机械学院教授彼得·大卫·路德表示,近年来,中国不断加大科创投入,在研发创新领域持续深耕,科技进步成绩斐然。依托坚实的人才储备与高效的技术转化能力,中国已跻身全球科技创新前列。“中国明确在‘十五五’时期将强化国际科技创新中心策源功能。关注中国科技发展,与中国深化合作,对各国来说都意义重大。” “下一个曼海姆”是德国曼海姆市科技企业孵化器,旨在为城市创新和初创企业提供服务和支持。该机构总经理克里斯蒂安·索默认为,应对全球气候变化、能源转型等挑战,是关乎人类发展的头等大事,中国推动绿色转型的实践堪称典范。 “中国是开展科技创新的理想国家” 北京(京津冀)国际科技创新中心支持政策、《开放科学国际合作行动计划》、2025年度“中国科学十大进展”、《2025全球工程前沿》等重磅出炉;20余场技术交易对接活动汇聚500余个项目,百余名京津冀技术经理人开展产学研对接;60场平行论坛,聚焦具身智能、量子科技、6G等前沿赛道……一场场发布活动,一次次务实交流,为2026中关村论坛年会的创新合作底色写下生动注脚。 今年,全新升级的人工智能翻译系统将服务语种拓展至8种,让来自不同国家的嘉宾能够无障碍交流。斯里兰卡渔业、水产与海洋资源部副部长拉特纳·伽马吉对记者表示,借助中关村论坛年会这一平台,各方共同探讨全球科技发展形势,有助于增进互助、友谊与合作。 “每次来中国都能看到新的变化!”活动现场展示的具身机器人,给莫斯科国立大学科技园总裁奥列格·莫夫谢斯扬留下深刻印象。他表示,中国在科技领域发展迅速,其关键在于对青年人才的培养和对科创项目的大力扶持。“全球的科研工作者、创新者与企业家在这里互动交流,有助于实现互利共赢。” 大学技术经理人协会东盟委员会主席、国际技术转移经理人联盟东盟顾问查勒姆波尔·图钦达是第一次参加中关村论坛年会。在他看来,中国拥有完整的工业体系,能够为科创企业提供发展所需的各类资源。“论坛年会上讨论的议题十分前沿。期待中国的先进技术与东盟国家的应用需求持续碰撞出合作火花,以合作促进技术的落地转化。” “京津冀科技创新联动发展是一项富有远见的规划。”意大利机器人国家能力中心(ARTES 4.0)首席科学家保罗·达里奥认为,中国在鼓励科技创新方面作了很多努力,在产业协同方面取得了显著成效,在技术落地应用上也表现出色。“中国是开展科技创新的理想国家,我非常看好中国的发展前景。” “十四五”时期,北京市牵头制定国际标准超500项,在京单位承担国际标准组织技术机构秘书处54个。国际标准化组织秘书长塞尔吉奥·穆希卡说,中国在发展国际标准体系方面展现了卓越的领导力。“作为国际科技创新中心,未来北京将在国际标准化方面发挥更加重要的作用。” “互学互鉴、合作共赢是走向成功的必由之路” 当今世界变局与挑战交织,但合作共赢仍是时代主流。中国始终秉持开放包容、互利共赢的理念,促进科技创新成果互惠互享,携手构建全球科技共同体。 “中国始终秉持开放姿态,愿意分享理念,让各方共享科技进步红利,我十分赞赏这种开放的态度。”英国皇家工程院院士、中国工程院外籍院士、尧山实验室荣誉首席科学家苏蒂斯认为,封闭保守、技术垄断,不可能取得长足进步,唯有开放包容,才能实现真正的蓬勃发展。 俄罗斯科学城发展联盟主席、科威俄罗斯公司总经理维克多·希德涅夫认为,科技进步从来离不开开放合作与交流互鉴。科技创新的多学科交叉属性,决定了多方协作是必然选择。“中国在高科技领域处于国际领先地位。我们期待与中国不断深化合作。” 墨西哥冶金工程专家、中国政府友谊奖获得者阿尔伯托·科内霍·纳瓦表示,独自攻关时,我们看问题往往会囿于单一视角;而开展协作,我们便能从多个维度审视问题,进而拓宽认知边界,这正是国际合作的意义所在。 “各国国情不相同,不存在放之四海而皆准的统一规则。”法国科学院院士、斯特拉斯堡大学名誉教授埃里克·韦斯特霍夫说,中国根据其他国家的意愿与实际需求,开展国际合作,这对各国都很有借鉴意义。 近年来,施普林格·自然与中国机构合作出版期刊200余种。“本次论坛年会将世界带到北京,也让北京有机会与全球互动交流,这正是国际合作的价值所在。”施普林格·自然科研总裁史蒂文·印驰库姆告诉记者,中国在科研领域处于全球领先地位,“我们希望继续把中国的科研成果推广到世界,同时也把世界其他地区的科研成果引入中国,从而推动全球科技创新的高水平合作。我们坚信,互学互鉴、合作共赢是走向成功的必由之路。” 《 人民日报 》( 2026年03月29日 03 版) -
词元狂飙拉爆算力需求,三大厂商火速涨价30% 央视网这几天,“Token”,也就是“词元”火了。数据显示,从今年2月下旬开始,“Token”这个词的搜索量明显攀升,最高一天达到7.7万次,比去年日均搜索量高出1850%。词元调用量爆发,加大了对背后算力支撑的需求,也直接拉动了算力相关服务的价格。3月,国内三大云厂商接连提高AI算力产品价格,十天之内涨价30%左右。全民热议“Token”专业技术名词走进大众视野从全民热议,到官方定名,Token为何在短时间内被广泛关注?词典应用后台数据显示,从今年2月下旬开始,“Token”这个词的搜索量明显攀升,最高一天达到7.7万次,比去年日均搜索量高出1850%。社交平台上,3月1日至3月20日,有将近60万人参与了关于Token的讨论。 这个原本更多在技术圈流通的词,为什么突然闯进了大众视野?有的人把它看成一种货币。也有人觉得,它更像一种会被消耗掉的“燃料”或者“食物”,还有人更注重它的功能性。 大家对它的理解五花八门。那从专业角度看,Token又该怎么解释? 腾讯研究院教授级工程师 王鹏:未来Token会成为某种意义上的基本计量单位,尤其是衡量智力、衡量工作量的单位。我今年这一个月消耗的(Token)可能比我去年一年消耗的还要多很多。在业内,大家知道这个是我们的日常,已经成为像水电一样正常的事了。 网易有道词典市场负责人 郭靓:看到后台这么大用户量对于“Token”这个词的查询,其实意味着大家真正开始去了解AI到底是什么,以及AI真正的能力。 人们讨论Token的中文名字,其实都在做同一件事:试着用生活的语言,去理解一个新技术词。而官方定义“词元”,也象征着这个过程走到了一个新阶段:一个技术名词,从专业圈层走向大众理解,最终进入正式表达。也许有一天,聊起AI时,你会自然地脱口而出“词元”——就像今天我们说“流量”“扫码”一样。智能体催热词元经济引发算力涨价潮当下,围绕词元的调用、分发与结算,一套新的价值体系正在加速演进形成,并成为人工智能产业商业化的重要路径。词元经济为何突然“出圈”?又释放了哪些信号?国家数据局发布的数据显示:2024年初,中国日均词元Token调用量为1000亿;至2025年底,跃升至100万亿;今年3月,已突破140万亿,两年增长超千倍。 词元调用量爆发,加大了对背后算力支撑的需求,也直接拉动了算力相关服务的价格。3月,腾讯云、阿里云和百度智能云,国内三大云厂商接连提高AI算力产品价格,十天之内涨价30%左右。 同济大学经济与管理学院教授 阮青松:从产业链来看,涨价最先受益的是上游的芯片、服务器这些硬件厂商,而下游使用AI的应用和终端成本压力加大,价格也会传导到用户,这也倒逼企业要么优化效率,要么用国产算力替代、减少成本,所以这轮涨价可能会加速国产算力的替代进程,推动整个行业在技术创新上更进一步。 需求一下子爆发了,但供给却没能跟上,这是本轮算力涨价最直接的原因。专家认为,算力正从企业的“成本项”变成决定竞争力的“战略资源”。涨价只是表象,真正的变化在于行业开始重新定义算力的价值。 同济大学经济与管理学院教授 阮青松:要缓解这种供需失衡,短期内价格涨了,自然会吸引更多企业加入供给;长期还是要让国产算力卡多起来,同时把模型效率提上去,用更少的Token(词元)干最多的活。只有当供给跑得比需求快,算力才能真正从“紧俏货”变成像水电一样随取随用的基础设施。本 期 编 辑 邹姗 -
机器人开源革命:“免费大脑”背后的四派力量与博弈 撰稿|Vicky 今年2月前后,小米、蚂蚁、阿里达摩院、宇树纷纷发布机器人开源模型。再之前,英伟达在CES上发布了GR00T N1.6,把自家号称“世界首个开放人形机器人基础模型”又再度升级。这些消费电子公司、互联网巨头、芯片帝国,最近都一股脑把机器人的“大脑”拿出来,免费给全世界用。机器人开源模型的生态中,有什么样的心机和万亿美元押注的博弈呢? 本篇文章我们继续机器人系列,之前我们分析了如今具身智能通用的VLA模型,拆解了特斯拉、Figure这些闭源巨头的不同路线,以及他们如何用硬件和数据优势构筑护城河。而这篇文章,我们与全球顶尖具身智能实验室的研究人员深聊之后,来扒一扒开源算法路线中的核心玩家和关键的技术领军人物们。同时我们来试图回答这三个问题:第一:这些开源模型分别走了什么技术路线,为什么能挑战巨头?第二:开源的动机是什么?什么是“真”开源,什么是“假”开源?第三:开源模型生态是什么样的?面对特斯拉这样的对手,开源社区拿什么打?(本文为视频改写,欢迎大家收看以下视频)01开源模型全景 谁在做,走什么路?在开源模型派别中,VLA模型仍然是主流。简单来说,就是让机器人“看到”周围环境,“听懂”你的指令,然后“做出”正确的动作。 目前,开源VLA模型大致可以分成四股力量:1. 学院派:参数不大,但能以小博大,代表模型是OpenVLA和Octo。2. 巨头生态派:不只做模型,还布局整套工具链,代表是英伟达的GR00T N1和谷歌的Gemini Robotics。3. 创业公司与中国力量:自变量、OpenMind、小米、蚂蚁等等。4. 技术极致派:追求极致精度和泛化能力,代表模型是Physical Intelligence的π₀。1.1:学院派的理想主义OpenVLA的一战成名,发生在2024年6月。这个只有70亿参数的开源模型,在29项机器人操作任务中,全面击败了“顶流”谷歌DeepMind的RT-2-X。RT-2-X有550亿参数,是OpenVLA的8倍大,背后站着整个谷歌的算力和数据资源。但结果是:OpenVLA的成功率比RT-2-X高出16.5%。 OpenVLA以小博大,凭的是一个很聪明的架构设计:两个视觉编码器加大语言模型。对比谷歌RT-2-X,因为它只用了一个视觉编码器,你可以想象成一个超聪明但什么都自己做的人:能力很强,但信息处理效率更低。而OpenVLA用了两个视觉编码器,相当于有“两双眼睛”。第一双眼睛叫“DINOv2”,负责理解空间关系;第二双眼睛叫“SigLIP”,专门理解语义和常识。然后再由当时的开源大语言模型Llama 2充当“大脑”,把空间信息和语义信息融合起来,处理指令和推理。 简单来说,OpenVLA像一个三人小团队协同作战,把两类信息物理隔离、各自优化,再统一决策,整体反而更强。大家大概可以理解成“三个臭皮匠,顶个诸葛亮”。这个架构证明了:在具身智能领域,单纯的“大”并不代表“聪明”。OpenVLA还有一个数据集的优势,叫做“Open X-Embodiment”,这也是开源生态的一个非常厉害的优势,后文会详细展开。另外,OpenVLA还在动作表示方式和训练策略上做了优化。所以它这次对谷歌的胜利靠的是“数据+架构+训练策略”的综合结果。而且,OpenVLA在胜出之后彻底开源:代码、模型权重、训练脚本全部公开。这样的开放姿态让整个行业都非常兴奋,开始各种后续的优化、推理加速和微调。 这就是一个非常典型的开源故事,能用创新方式去“以小搏大”,撬动整个技术领域的后续工作。我们再说说另外一个比较典型的开源路线“Octo”。如果说OpenVLA代表“规模化开源”,Octo就是“普及型开源”。我们知道,机器人算法的“泛化性”是个很大的挑战,之前的标准做法是需要针对特定机器人用特定数据集来训练策略,但你换一个机器人、换一个环境,就要全部重新来训。而一些开源社区的大牛们就希望实现“通用机器人模型”,通过zero-shot这样的技术将模型扩展到广泛的机器人和场景中。这样的路径被称为“通用机器人策略”,Octo就是其中的代表。 Octo只有数千万参数,比OpenVLA的规模更小。它是一个基于Transformer的扩散策略模型,设计强调灵活性和可扩展性,支持多种机器人平台和传感器配置,并能够通过微调快速适应新的观察和动作空间。这使得Octo可以广泛应用于不同的机器人学习场景。Octo的定位不是最强,而是人人可用,希望给开源社区提供一个更轻量、可快速适配的通用策略基础模型。 1.2 巨头生态一条龙2025年3月的GTC大会上,黄仁勋亲自站台,发布了GR00T N1,号称“世界首个开放人形机器人基础模型”。到2026年1月CES,已经迭代到了N1.6版本。 GR00T N1采用双系统架构:一个基于视觉语言模型的“System 2”负责慢思考,理解环境、解读指令、做出规划;一个基于扩散Transformer的“System 1”负责快思考,以高频率把规划转化为精确的关节动作。两个系统端到端联合训练,紧密耦合。22亿参数,模型权重和代码都公开了,不少头部人形机器人公司都获得了早期使用权。而且英伟达不只给了模型,还给了整套生态:用Omniverse做数字孪生,用Isaac Sim生成合成训练数据,用Cosmos生成视频数据,用Newton物理引擎做仿真,整个一条龙服务。 Google在机器人通用策略上也在持续布局。早期的RT-1开源了代码和数据,但后续更强大的RT-2以及之后的RT系列就变成闭源模型了,并没有对外开放。最近Google也在加速。2025年发布了Gemini Robotics系列模型,还挖来了前波士顿动力首席技术官Aaron Saunders担任硬件工程副总裁。DeepMind CEO Demis Hassabis把这个愿景称为“机器人界的安卓”,做通用的机器人操作系统,让Gemini成为各种机器人的“大脑”。 在2026年CES上,波士顿动力和Google DeepMind宣布了战略合作,将Gemini Robotics模型整合到Atlas人形机器人中,联合研究即将在两家公司的实验室展开。Google从开源到闭源、再到想要打造“机器人界的安卓”,赛道转换有点快、野心有点大,但它绝对是机器人行业的最重要玩家,我们也拭目以待它的下一步动向。1.3 创业公司与中国力量 中国在开源具身智能领域的参与正在加速,而且态势在从单纯的“跟跑”向“参与定义规则”转变。 小米在2月12号刚发布的Xiaomi-Robotics-0,47亿参数,用MoT混合架构——把“大脑”(视觉语言理解)和“小脑”(动作执行)分开,改善了VLA模型普遍存在的推理延迟问题。模型开源,在消费级GPU上就能跑。蚂蚁集团的LingBot-VLA走了另一条路,强调跨形态泛化。这个模型在9种不同的双臂机器人上预训练了2万多小时的真机数据,目标是做到“一个大脑控制所有类型的机器人”,有点像我们之前提到的“通用机器人策略”路线。 清华AIR和上海AI实验室联合推出的X-VLA,刷新了五大仿真基准,代码、数据、权重全部公开,可以说是学术界最彻底的开源范本之一。星海图开源了真机数据集,以及旗下最新的G0 Plus VLA模型;智元机器人的GO-1已经部署到了真机上执行任务;星动纪元的ERA-42也在探索自己的路线。另外,自变量机器人是一家聚焦于通用机器人“大脑”研发的中国具身智能创业公司,CTO王昊在之前与硅谷101播客的采访中谈到了开源的初衷。 王昊 自变量机器人CTO 我们是持续地发扬开源精神,也吸收了很多经验,用了大概几万小时的真实世界的数据,基于已经训练好的基础的视觉语言模型去做扩展,让它具备比较强的视觉理解、空间推理、多语言的指令遵循能力,同时它的动作的生成精度也比较高。我们也希望这次开源能够对具身智能行业有比较好的补充。在硅谷的初创公司中,我们采访了由斯坦福教授Jan Liphardt创立的OpenMind。他在接受我们采访时说,希望为不同厂商的人形机器人构建一个通用的软件层。OpenMind推出的OM1平台强调开源与跨硬件兼容,希望打破当前机器人系统各自封闭的局面,让不同设备可以共享能力与生态。他们也从一开始就以开源为核心理念来打造具身智能平台,代表了一种纯粹的开源路线。 Jan Liphardt OpenMind创始人 我们真正想做的,是让任何人、在任何地方,都能轻松打造出能够完成各种有用任务的机器人。而这一切,只需要通过修改提示词就可以实现。1.4 复仇者联盟:PI(π₀)目前开源界最受瞩目的模型π₀,是Physical Intelligence推出的VLA模型,属于数十亿参数级别。π₀代表的是另一条思路:把“连续控制”做到极致。在动作生成部分,π₀使用了flow matching(流匹配)思路,直接生成连续的关节轨迹。这意味着模型输出的是一段平滑的控制信号。Physical Intelligence研究员、也是π₀、π₀.₅论文作者柯丽一鸣在接受硅谷101播客采访的时候就告诉我们,π₀控制频率约为50Hz,也就是每秒更新约50次动作。这种高频连续控制带来了一个质的飞跃:π₀能做折纸、玩扑克牌这种需要极高精度的任务——而这些是OpenVLA和Octo都很难胜任的。 柯丽一鸣(Kay Ke) Physical Intelligence研究员,π₀、π₀.₅论文作者 当时是有一些内部的讨论,要不要再多一点和短一点。但是可能对我们来说更重要的是,想让模型一口气输出一个长度,大概在一秒左右的计划,这一秒刚好是50赫兹,所以是这么一个选择。从设计理念上看,π₀更强调“控制质量”和“动作连续性”。相比把动作当作语言token预测,它更接近传统控制系统的形式,只不过控制信号由大模型生成。这一选择带来的好处是,在折叠衣物、抓取柔性物体、操作细小零件等任务中,动作更加流畅,减少了抖动和迟滞。 同时,π₀的代码与权重通过OpenPI项目对外开放,使研究社区可以在它的基础上复现与扩展。这种做法在商业公司中并不常见,也成为开源阵营的重要力量。更令人关注的是π₀的迭代节奏。初版论文发布后不久,Physical Intelligence通过OpenPI项目公开了模型权重与代码。随后数月内,团队陆续发布更新版本,持续改进泛化能力与控制稳定性。随后引入强化学习机制以进一步优化策略表现,同时强调在开放环境中的适应能力。在机器人领域,这种快速迭代与持续公开更新并不常见,也成为π₀受到关注的重要原因之一。 柯丽一鸣(Kay Ke) Physical Intelligence研究员,π₀、π₀.₅论文作者 把π₀.₅模型放到一个移动机器人里,再把这个移动机器人放到不同的、没有见过的家里,这些都不在模型的数据集里面,模型可能不知道会怎么反应,然后我们观察它会怎么做。在这个过程中我们发现,要做到泛化性还是比较有希望的,虽然机器人的表现不是很完美,但它好像展现出了一点像人类的特性,比如拿东西,换到别的家场景里还是能拿。1.5 开源阵营人物关系不同阵营背后的主导核心人物也并非对立关系,他们的关系紧密且错综复杂。而更有意思的是,曾经主导闭源模型的多位顶级科学家,后来成为了机器人开源社区的领导者。他们又被称为机器人界的“复仇者联盟”。 OpenVLA来自斯坦福和伯克利的联合团队,核心人物是这个领域的明星人物Chelsea Finn。她MIT本科毕业,又在伯克利拿到博士学位,师从机器人学习教父级人物Pieter Abbeel和Sergey Levine。2019年她加入斯坦福任教,随后一路拿奖到手软。她同时还是Physical Intelligence的联合创始人,横跨学术和商业两个世界。可以说,Chelsea Finn一人就串起了开源和闭源阵营的半壁江山。 在Finn教授以外,我们可以看到OpenVLA的作者名单上除了斯坦福和伯克利的一众研究人员,还有丰田研究院、Google DeepMind、Physical Intelligence、MIT的科学家。这说明,OpenVLA并不只是一个闭门造车的实验室产物。Octo和OpenVLA可以说是“同门师兄弟”,同样来自伯克利,由Chelsea Finn和Sergey Levine的团队联合出品。 Sergey Levine是机器人强化学习领域公认的开创者之一,他是伯克利教授、Google Brain前研究科学家,后来也成了Physical Intelligence的联合创始人和首席科学家,他跟Finn是博导和博士生的关系。有趣的是,Levine和Finn在Google时期参与了RT-1、RT-2这些闭源项目,离开后又推动了Octo和OpenVLA这些开源工作。这个领域中的同一批人,可以说既造了闭源的堡垒,也打开了开源的大门。PI的创始团队堪称是机器人AI领域的“复仇者联盟”,联合创始人们各个都是来自学术界或者科技公司的大佬。其中,Karol Hausman是Google DeepMind机器人方向的资深研究科学家,也是RT-1、RT-2和SayCan等标志性机器人大模型工作的核心作者之一。Brian Ichter同样来自Google Brain,深度参与了这些项目的研发,是那一代机器人基础模型的重要推动者。Sergey Levine长期与Google Brain合作,在机器人学习和强化学习领域处于世界前沿,是这条技术路线的关键思想源头之一。我们前面提到好几次的Chelsea Finn也是PI的联合创始人之一,她也参与了RT系列研究,在机器人泛化与自监督学习方向做出了重要贡献。 2024年初,这几位参与Google机器人基础模型路线的核心成员陆续离开Google,并共同创办了Physical Intelligence(PI)。此外,团队成员还包括前Stripe高管兼知名投资人Lachy Groom,以及前Anduril工程副总裁Adnan Esmail。说白了,是闭源阵营里最懂技术的一帮人,决定跳出来换一种方式做事。但π₀的身份很“纠结”,它来自一家刚成立、融资就超过10亿美元、估值56亿美元的商业公司。这样一家公司,为什么要把最核心的模型开源?这就要说到我们的第二个核心问题:“真”开源和“假”开源。02开源的“真”与“假” 免费背后的商业心机2.1 Physical Intelligence:最“心机”的开源Physical Intelligence2024年成立,投资人包括Jeff Bezos、OpenAI、Sequoia Capital、Khosla Ventures。2024年11月融了4亿美元,2025年11月又融了6亿美元,估值达到56亿美元。 一家这么有钱的公司,为什么要把核心模型免费放出来?答案是:这可能是Physical Intelligence最有“心机”的商业策略。第一,开源建立标准。当全世界的机器人开发者,无论是学术实验室、创业公司或者工业客户,都在π₀的框架上构建应用,PI就成了事实标准的定义者。别人的每一次使用,都在巩固π₀的生态地位。第二,开源吸引人才。最优秀的研究者想去能发论文、能影响行业的地方,PI开源π₀之后,他们的openpi GitHub仓库就成了机器人领域最热的项目之一,这比任何招聘广告都有效。 第三,开源加速数据飞轮。社区使用你的模型,发现问题、做出改进、贡献数据,这些都回流给PI,让下一代模型更强。 柯丽一鸣(Kay Ke) Physical Intelligence研究员,π₀、π₀.₅论文作者 我觉得能和业界、社区分享一下模型,并且能够帮助到大家很快地上手,可能也是在变相地降低机器人模型研究的一个入门门槛吧。其实在公司内部,开源也是一种(研发的)过程,就是从决定要开源,然后抽调大家把刚刚发表的研究去重构代码,然后做测试,再和社区的一些开发者沟通看能不能跑得起来。这是一项不简单的工作,但是真的看到我们的模型,在一些我们自己都没想到的机器人上面跑起来了、别人能用我们的模型做很多不同的实验,还是很开心的,现在大家都很乐意去开源,我觉得是很好的氛围。但要注意,π₀不是100%开源。模型权重和推理代码公开了,但完整的训练流程和PI内部采集的数万小时专有数据没有公开。这是一种精心设计的“开源引流、闭源变现”策略,也就是用开源的模型吸引开发者进入你的生态,用闭源的数据和训练能力保持竞争优势。也就是说社区可以用它的模型,但想要最好的版本,还得来找它。2.2 英伟达GR00T N1:“开放”不等于开源 我们前面提到,英伟达不只给了模型GR00T N1,还给了整套生态,包括生成合成训练数据的工具、物理引擎等等。听起来非常“开放”,但为什么有人说GR00T N1是“伪开源”?因为模型虽然开放了,整个流程都在英伟达的生态里:训练深度绑定英伟达的硬件生态,用H100集群训练,在Omniverse平台上做仿真,用Isaac Sim生成合成数据,最后部署在Jetson Thor芯片上。 对比纯粹的社区开源,比如OpenVLA和Octo没有任何硬件绑定,没有生态锁定,在任何GPU上都能跑。这也许是“开放”和“开源”之间的根本区别。但行业如此早期,也许根本没有什么选择是正确或错误的。学术开源追求的是知识共享和科学可复现性,商业开源追求的是生态控制和市场标准,而战略开放追求的是平台锁定和硬件销售。 王昊 自变量机器CTO AI的研究我觉得跟大模型之前有很大不一样。过去,我们可以看到研究是非常离散的,在真正形成一个社区之前,可能做研究的只有两、三个人,大家疯狂地研究一个算法,更多是以论文发表作为第一要务,目的是占据技术的主动权。但有了社区和整个开源体系之后,大家更在乎的是,怎么在一个工程化的体系下,把这个工程基础打好,让这个社区更加繁荣?个人是通过什么方式给社区做贡献?大家的荣誉反而来自于这样的事情。这样也就会促使开源模型的技术不停地发展。所以我觉得开源是一个非常好的事情,既可以从中学习到新的东西,也可以看到你的东西可能对别人帮助。03生态的力量 模型+数据+工具的“组合拳”特斯拉有自己的工厂、自己的机器人、自己的数据闭环。英伟达有全世界最强的算力。谷歌汇聚了最顶尖的人才。开源社区一帮大学教授和创业团队,凭什么能跟这些巨头掰手腕?答案是:生态。单看任何一个开源模型,都不如闭源巨头。但模型、数据、工具三层生态叠加,形成的“组合拳”力量,就让故事不一样了。 Jan Liphardt OpenMind创始人 要让一台人形机器人表现良好,软件和硬件之间必须进行非常精细的协同。哪怕是一些看起来很基础的问题,比如不同类型的传感器、电压管理、电压调节器、散热控制、系统稳定性等等,这种协同必须非常紧密。 但根据我从不同机器人公司听到的情况,如果一家公司在完全封闭的环境里独自开发技术,往往会遇到一个问题:那些只在自己实验室里构建、从未经过外部验证的技术,其实很难真正落地使用。 不点名地说,我听说有一家非常知名的公司,为人形机器人自研芯片。听起来这当然是个很棒的想法,他们甚至掌握了完整的芯片架构。但问题在于,因为没有其他人参与使用和测试,这套架构实际上存在大量bug。也就是说,闭源看似安全,但没有社区帮你测试和改进,反而可能变成一个人闷头造车。3.1 数据基石:Open X-Embodiment 目前开源生态的第一个优势就是数据集。我们前面提到,OpenVLA横空出世,就是用了Open X-Embodiment的数据集。 Open X-Embodiment是开源阵营最宝贵的优势:一个跨平台、跨实验室的机器人数据公共资源,它的规模和组织方式在机器人领域前所未有:超过20个研究机构共同贡献,包括斯坦福、伯克利、MIT、CMU、Google DeepMind等顶级实验室;22种不同的机器人本体,从单臂机械臂到双臂协作、从桌面操作到移动导航再到人形机器人;超过100万条真实轨迹,覆盖527种技能。特斯拉的数据可能更大,但全是Optimus一种机器人在特斯拉环境里的数据。Figure的数据也只有Figure 01和02的操作。而Open X-Embodiment是几十种不同形态的机器人,在厨房、实验室、仓库、办公室等完全不同的场景里采集的数据。为什么数据的多样性比数据量更重要? 用训练RT-X模型的实验结果来说明:RT-1-X在小数据域的表现比单独训练的模型高了50%,RT-2-X甚至涌现出了原模型没有的空间推理能力,是RT-2的3倍,能理解“on”和“near”这种细微的语言差异,这意味着它开始理解语言中的空间语义,知道“on”意味着物体之间要建立接触和支撑关系,而“near”只是空间邻近。除此之外,它还能执行训练时从未见过的技能组合。这直接证明了:只要数据够多样,就算模型不是最大的,性能也能有大幅提高。 柯丽一鸣(Kay Ke) Physical Intelligence研究员,π₀、π₀.₅论文作者 在π₀的时候,我们做了一个比较简单的统计:π₀使用的数据,比谷歌研究院收集的所有数据加起来还要多,即使π₀发表的时候,PI还是一个很年轻的初创企业。 我觉得其实这是说明了两件事:第一就是那个时间点采集的数据量确实是非常大,而且之后一直有往里面增加数据,而数据的成本、数据的量是在实时变化的。在谷歌研究院在开始探索的时候,要花很大的功夫才收到这些数据,但后来渐渐的有了经验,PI或者其他公司再收就会越来越简单,成本应该也是能够得到控制和降低的。更值得一提的是数据格式的标准化贡献。以前最头疼的问题是每个实验室的数据格式都不一样:伯克利是一种格式,斯坦福是另一种,MIT又是第三种。想用多个数据集一起训练?先花几个月写转换代码。 而Open X-Embodiment定义了统一的数据格式,涵盖视觉观察、本体感知、动作序列和语言注释,所以在产业中有了一个统一的标准,这个很重要。再说一句数据的问题,因为这是目前机器人领域最大的挑战,我们的嘉宾之间分歧也很大,一派认为大语言模型已经包含了足够的物理常识,只需少量机器人数据微调,而另外一派认为物理世界的细节必须用真实的机器人数据来学习,互联网视频远远不够。这里面的门道和技术可以挖得蛮深,不同的任务、不同的精度要求,需要不同的数据策略。所以,关于数据,我们之后还会单独做一期机器人系列的深度内容。3.2 工具层的野心 光有数据不够,还需要工具把数据变成可以训练的模型,这就是LeRobot和Genesis的角色。 LeRobot是Hugging Face从特斯拉挖来的工程师Remi Cadene带队打造的开源项目。Cadene之前在特斯拉参与过Autopilot和Optimus人形机器人项目。他带着这些经验来到Hugging Face,目标是“让训练机器人像训练语言模型一样简单”。LeRobot做了三件关键的事:1. 定义了LeRobotDataset统一数据格式。2. 一键集成了多种主流策略模型,你不需要去读论文改代码,直接调用就行。3. 打通了数据采集、模型训练、到真实机器人部署的全流程,以前这三步可能需要三套不同的工具链。LeRobot的GitHub已经超过2万星,成为了开源机器人训练的标准之一。但Hugging Face的野心不止于软件。 2025年他们收购了法国的Pollen Robotics,推出了7万美元的Reachy 2开源人形机器人,已经在康奈尔和CMU等顶尖实验室使用,还推出了250美元的Reachy Mini桌面机器人。更早之前,他们和The Robot Studio合作推出了SO-100机械臂,成本只要100美元,任何人都可以在家3D打印DIY一个。由此可见,Hugging Face正在把“硬件加软件加社区”打包,构建一个完整的开源机器人生态。而2024年12月发布的Genesis则尝试优化仿真训练的问题。这是由CMU卡内基梅隆大学主导、联合MIT、斯坦福、英伟达等20多个研究实验室共同参与的开源项目,只需在仿真中运行数小时,就能生成相当于现实世界中多年训练的样本数据,大幅降低了训练时间和硬件成本。 比如说,Genesis号称在一张RTX 4090显卡,模拟一个Franka机械臂的速度是每秒4300万帧。这是实时速度的43万倍。在Genesis里训练1小时,相当于在真实世界训练超过49年。这带来的改变是,以前只有大公司能负担的大规模仿真训练,现在一个研究生在家用一张消费级显卡就能做。值得注意的是,英伟达也和Google DeepMind、Disney Research联合开发了一个开源物理引擎Newton,跟Genesis形成了直接竞争,所以仿真工具领域本身也是一个充满竞争的领域。 但无论如何,一部分勋章应该要给到Hugging Face,LeRobot管真实世界,学界主导的Genesis管虚拟世界,两个工具一起,把“训练机器人”的门槛从百万美元降到了几百美元。3.3 为什么生态能赢 总结一下,模型、数据、工具,这三层叠加,就是开源阵营的“组合拳”。单看任何一层,开源都不如闭源巨头:论人才密度和算力,不如谷歌;论数据量,不如特斯拉;论工具链的完整度,不如英伟达。但三层联动产生的化学反应,释放出了巨大的能量。 一个研究者可以用Open X-Embodiment的数据,在LeRobot框架上训练OpenVLA,用Genesis做仿真验证,然后部署到100美元的SO-100机械臂上。整个流程全部开源,全部免费,全部可复现。这里有一个很关键的观察:在大语言模型领域,开源是追赶者。OpenAI、Anthropic和Google先行,开源后追,晚一到两代。但在机器人领域,开源和闭源几乎是同时起跑的。OpenVLA在2024年6月就击败了RT-2-X,这个时间差的原因很简单:机器人还在非常早期的阶段,没有任何一家公司建立了压倒性的数据或算法优势。这是开源难得的“公平竞赛”窗口,如果错过这个窗口,等闭源公司积累了足够的数据飞轮,开源可能就很难追上了。而且,开源和闭源之间的边界远比想象的更模糊。RT-2-X是谷歌的“闭源”模型,但它的训练数据有一部分来自Open X-Embodiment这个开源数据集。Chelsea Finn同时是Octo这个开源项目的核心作者,也是RT系列闭源工作的推动者,还是PI的联合创始人。而英伟达的GR00T N1介于开源和闭源之间。所以,这场竞争不是两个阵营的对决,而是一个光谱上的多方博弈。 而说到底,开源vs闭源,表面是技术路线之争,本质是生态之争,争的还是谁来定义机器人行业的基础设施层。 Jan Liphardt OpenMind创始人 互联网本身就是建立在开源代码之上的,Android也是开源的。当然,有些公司希望掌控一切,从软件到硬件,再到云服务,比如非常优秀的苹果。但我们也看到,像三星、Google这样的公司,同样体量巨大,却很乐于使用开源软件来构建自己的手机系统。他们之所以选择使用开源软件,原因也很简单。每家公司都必须决定,自己的时间和资金应该投入在哪里。04开源的挑战与未来 算力、数据质量、工程化差距与安全但对于生态来说,必须要直面一个现实:开源面临的挑战依然很大。首先是算力门槛,虽然有Octo这样的轻量模型,但训练一个顶级开源模型仍然需要不小的投入。OpenVLA用了64张A100跑了15天,这跟特斯拉、谷歌的算力相比是小巫见大巫,但对普通研究者来说仍然是一笔不小的开支。其次是数据质量,Open X-Embodiment虽然大,但不同来源的数据标注标准参差不齐,有的实验室标注非常细致,有的比较粗糙。特斯拉的数据可能在多样性上不如开源,但在一致性上更强,毕竟都是同一套系统采集的。第三是工程化差距,开源模型在论文里表现出色,但从demo到产品之间有一道巨大的鸿沟。闭源公司有完整的工程团队做优化、做测试、做售后,开源社区更擅长创新探索。但把一个模型打磨成稳定可靠的商业产品,往往需要闭源公司来完成。第四是安全问题,如果人人都能训练机器人,如何防止被用于危险用途?物理世界的AI比虚拟世界的大语言模型风险更高,聊天机器人说错话最多是尴尬,但物理机器人做错动作可能造成伤害。OpenMind的Jan Liphardt提出了一个大胆的方案: Jan Liphardt OpenMind创始人 我们把规则写进以太坊区块链。我们这样做的原因是以太坊是不可变的,不能被改变。当机器变得聪明时,我们应该预料到机器可能会试图隐藏它们在做什么,或者想改变历史,或者想要比它们应该拥有的更多的控制权。在这种情况下,将规则写在公共场所、不能被更改的地方是非常重要的,作为额外的安全措施。用区块链来约束机器人行为,这个想法很前卫,也确实在业界也引发了一些争议。但它至少说明,开源社区正在认真思考安全问题。开源能发展到什么程度?自变量CTO王昊给出了一个时间线预测: 王昊 自变量机器人CTO 现在我们是明确的知道、而且看到了这种规模化带来的提升,所以对于我们来讲,路径和目标更加明确、更加唯一,所以我预测会在1~2年的时间,我们完全可以达到GPT-3的这个水平。GPT-3的水平意味着机器人会从“能完成简单指令”跳跃到“能理解复杂意图并灵活执行”,这将是一个分水岭。 在LLM时代,我们见证了OpenAI从“开放”走向封闭。一个以“Open”命名的公司,变成了一家市值千亿的闭源商业帝国。在机器人时代,同样的故事可能重演,但也可能不会。因为机器人领域有一个大语言模型时代没有的东西:从一开始就足够强大的开源生态。最后,OpenMind创始人Jan Liphardt从一个父亲的角度解释了为什么他支持开源,这个回答还蛮有人味儿的: Jan Liphardt OpenMind创始人 因为我是一个父亲,我有两个孩子。如果我去想象未来的世界是什么样子,我不希望有一天他们打开家门,一台人形机器人站在门口,说:“你好,我是你的新机器人,但我运行的系统你无权查看。” 像机器人这样重要的技术,必须是公开透明的。我相信,透明本身就会带来更高的安全性。我希望我的孩子能够给身边的机器人添加功能,能够参与到这个世界的建设中,而不是只能买回一个盒子里的产品,打开之后它自己展开,然后告诉你:“我已经设置好了,但我的工作方式是保密的。” 这归根到底关乎信任,也关乎安全。而作为一家创业公司,我们也发现,社会对这种开放透明的期待,比我们最初预想的还要强烈。这就是具身智能开源模型生态的现状。这篇文章详细聊了四个派系:学院派,巨头,包括了中国公司在内的创业派,以及单独拎出来讲的Physical Intelligence。大家出于不同的目的、在不同程度上参与了开源生态的搭建,确定的是,这样的生态正在帮助我们进一步突破技术和创新的边界。注:部分图片来源于网络【本期节目不构成任何投资建议】【视频播放渠道】国内:B站|腾讯|视频号|西瓜|头条|百家号|36kr|微博|虎嗅海外:Youtube联系我们:video@sv101.net 【创作团队】监制|泓君 陈茜撰稿|Vicky编辑|陈茜 王梓沁主持 |陈茜剪辑|橘子动效|踹运营|孙泽平 王梓沁 -
上观时评 | Sora关闭,国产视频生成大模型还有未来吗? 1两年前横空出世的Sora,曾给AI业界和全球网民带来巨大的震撼。到2026年,它突然退场,没能再掀起那样大的波澜。从商业决策的角度看,这其实早就是意料之中的事。极高的视频生成成本、少得可怜的付费用户,加在一起的结果就是——Sora让OpenAI每天亏掉上千万美元。比起Sora自身的命运,人们更关心的是,它所开创的视频生成大模型赛道,还有没有未来?再进一步想,是不是所有跑不通盈利模式的AI技术,无论技术有多超前、效果有多惊艳,都终将走进死胡同?2先来看看Sora为什么赚不到钱。直白地说,市场侧根本找不到付费使用Sora的理由。对B端客户(企业)来说,它远远达不到影视级制作的严格要求。对C端客户(个人)来说,也许可以做一些恶搞小视频尝尝鲜,可如果要为此月付几十美金?那还是算了吧。但Sora赚不到钱,并不代表其他视频生成大模型都赚不到钱。快手的可灵AI,单月收入超过2000万美元。字节的Seedance、昆仑万维的SkyReels、MiniMax的海螺等大模型,也正逐步产生可观的营收。视频生成大模型为什么“西方不亮东方亮”?从技术的视角看,Sora的领先优势早已不在。在物理逻辑、一致性和时长等关键指标方面,一些国产大模型已经实现赶超。更关键的因素,在于下游市场生态的差距。甚至可以说,从诞生的第一天起,国产视频生成大模型就没怎么担心过下游引流与价值转化。在B端,蓬勃发展的微短剧产业正加速拥抱AI。尤其是对逻辑、演技、美感等无甚要求的下沉爽剧来说,AI生成的画面已经完全够用,无需再耗时耗力地实拍,制作周期和成本得以压缩数倍。在C端,国内大厂往往都拥有“自产自销”的能力。Seedance有抖音,可灵有快手,用户生成完的视频可以丝滑地一键传播。数亿日活用户代表着庞大的视频内容创作需求,能为视频生成大模型源源不断“输血”。其实OpenAI一直想给Sora打造一个视频分享社区,以构建起完整的商业飞轮。但当市场上已经有TikTok时,谁还会点开一个同质化严重、缺乏真实视频、推荐算法不成熟的新平台呢?所以说,不是视频生成大模型缺乏商业价值——关键还是要看,它所处的环境有没有需求的土壤。3当前的人工智能竞争,中美是毫无疑问的第一梯队。总体来说,中国的优势,更多在于应用。很多人对现状这样理解:中国AI产业的底层逻辑就是务实导向的,市场有什么需求,大模型厂商就做什么。由是产生了一种焦虑:中国AI发展,会不会在基础理论方面永远落于人后?但Sora和其他视频生成大模型的不同命运,或许提示了另一种近乎相反的逻辑。或许,无论大模型厂商研究出什么新技术,都能找到对应的市场需求?现实当然没那么夸张,但中国的确拥有全球规模最大、门类最齐全的生产制造体系;拥有14亿消费者共同支撑起的巨大市场,且数字化程度领先。这些共同构成了最具竞争力的需求侧生态——新的AI技术,只要能切中用户哪怕微小的痛点或痒点,大概率能在最短时间内找到场景和市场,迅速验证并迭代商业模式。而来自真实世界的、复杂多样的需求压强,反过来又成为倒逼技术找准价值点、快速迭代的最强大力量。还有一个比较容易被忽视的“场外因素”。中国的电价便宜,绿电价格大概是美国电价一半,归功于中国的电网体系建设以及“东数西算”战略,大幅降低了AI企业的成本压力。这也是中国AI生态综合优势的重要部分。AI的价值,终究还是要在AI之外体现。反过来也是同样,AI之外千行百业的发展状况,也在决定AI产业本身能否发展得更快、更好。理解了这一层,自然无需再担心中国AI是否始终在“跟跑”。4不过,Sora的关停仍敲响了一记警钟。诺基亚从全球销量第一到停产,前前后后一共十多年,而Sora的全生命周期一共就只有两年——AI时代的更迭实在太快了。现有的优势随时可能被颠覆,维持领先地位,需要长期持续的努力。对中国AI产业而言,一方面仍要继续发挥技术与产业快速结合的优势,在推动传统产业改造升级,开辟战略性新兴产业和未来产业发展新赛道过程中,把AI应用于解决更多实际问题,以迭代技术、创造价值、积累数据与资本。这是一条效率更高、风险相对可控,能快速形成产业规模和经济效益的路线,但不能停留在舒适区中,而要运用应用端产生的高质量行业数据,反哺训练出更具专业性和实用性的垂直大模型;运用商业成功积累的资本,加大对芯片、框架、算法等底层技术的自主投入。更进一步,运用丰富的场景经验,参与并主导全球AI治理框架和标准规范的制定。另一方面,突出应用导向的同时,仍要为那些看似“无用”的自由探索创造空间。这些年科学界的许多故事已经提醒人们,哪怕短期应用前景不明、哪怕只是为了“好玩”的创新技术,都随时可能成为催生颠覆性变革的温床。全局视野下,中国AI产业有这么大的应用优势,自然也有更多的容错空间。营造鼓励长期主义、容忍风险、宽容失败的大环境,更有利于实现基础理论和关键核心技术的进一步突破。由此看,对那些暂时跑不通盈利模式的AI技术——无论最终会不会走进死胡同——或许都可以让它先“走走看”。原标题:《上观时评 | Sora关闭,国产视频生成大模型还有未来吗?》栏目主编:简工博本文作者:解放日报 胡幸阳 -
遭中国学界"拉黑"后,这家AI顶会低头道歉 在中国科学技术协会、中国计算机学会、中国自动化学会相继发布声明宣布“抵制”后,人工智能学术会议NeurIPS低头道歉。 3月27日,NeurIPS通过社交平台“X”发布了一份声明,就征稿指南中的不当内容公开致歉,并宣布撤销政策变动。 在最新声明中,NeurIPS宣称,“这一错误源于NeurIPS基金会与我们的法律团队之间的沟通失误……这一错误的责任在于我们组织本身。对于此次沟通失误给社区带来的恐慌和影响,我们深表歉意。” NeurIPS还称,目前已更新了链接并澄清了政策文本,“与往年一样”欢迎所有符合合规要求的机构和个人提交论文。 此次事件的导火索,是前几天,AI三大顶会之一NeurIPS新增了条款,禁止美国财政部实体清单上的机构OFAC制裁名单上的机构投稿,连评审、编辑等学术服务也被一并切断。 在公开名单范围内,中芯国际、海康威视、中科曙光、大疆,以及中国移动、中国联通、中国电信三大运营商,连同华为、商汤、旷视科技等一批AI公司与研究机构,均在影响范围之内,相关制裁名单条目已达到873条。 对此,中国计算机学会、中国自动化学会、中国图象图形学学会、中国科协等相继发表声明批评,并以不认可成果、移出推荐目录等作为反制手段。 据悉,NeurIPS是机器学习和计算神经科学领域的国际会议,与ICML、ICLR并称“机器学习三大顶会”,是博士毕业、教职申请、基金评审中分量最重的学术成果标签之一。 过去几年,中国机构在NeurIPS上的表现持续攀升。在NeurIPS2024上,中国高校占据了论文录用数量前20名中的8个席位,浙江大学超过MIT成为录用论文最多的机构。到了2025年,NeurIPS收到的有效投稿达到21575篇,其中来自中国的比例持续增长。 本文系观察者网独家稿件,未经授权,不得转载。 -
电商女装AI模特"长了三只手"图片被下架 平台:将严罚 3月27日,有消费者在社交平台发帖称,自己在淘宝一女装店铺浏览时,发现一款运动背心的展示模特竟出现了“第三只手”。当她向店铺咨询是否为AI设计疏漏时,AI客服却给出了“拍摄角度导致视觉错位”的回复。这番经历令发帖人哭笑不得,也迅速引发网友对于电商平台“全链路AI 化”的热议。 该商品主图AI模特出现“三只手”。网络截图“三只手看起来怪怪的,好吓人。”有网友吐槽称,这是“买背心送恐怖故事”。有消费者直言,如今网购充斥着AI设计、AI模特和AI客服。“除了花出去的钱,已经不知道还有什么是真的了。”不少质疑声音提到,过去真人模特拍摄都难免存在货不对板的问题,如今商家直接用AI生成商品图,缺乏基本的实物审核,产品的真实质量根本无法得到保障。 部分消费者热议。网络截图针对这一情况,记者27日上午查看该涉事店铺并核实,该背心的主展示图确实存在“三只手”的AI生成痕迹。面对询问,店铺工作人员解释称,该商品为近期上新产品,目前展示的是前期AI设计效果图,仅为方便消费者了解产品款式与外观。该客服承认商品模特图和设计均由AI生成,但强调“并非AI随意生成”。 AI客服曾回复,“三只手属于视觉错位”。网络截图对于此前AI客服“视觉错位”的回复,该工作人员澄清,店铺人工客服晚间23点下班,消费者夜间咨询时触发了AI客服自动回复。店员就商品页面展示图出现的纰漏致歉,承诺已将问题反馈给店铺运营,会尽快替换为实拍图。27日中午,记者注意到,该商品已被店铺下架处理。 现在平台出现“疑似AI图”的商品问题反馈。记者截图作为平台方,淘宝客服核实记者提供的商品图后,确认其为AI生成图片。平台将此事定性为商家产品与服务问题,表示后续会对涉事店铺采取严厉处罚措施,并进行重点监控。客服明确表示,若消费者因商家AI配图遭受损失,平台将依据规则切实维护消费者权益;同时建议用户,浏览页面时若发现类似情况,可长按图片选择“疑似AI”功能进行反馈举报。此类商家行为是否违规,也成为舆论关注焦点。涉事店铺发货地位于北京,记者致电北京市市场监督管理局。相关职能部门工作人员确认该电商纠纷属其管辖范围,并表示将根据记者提供的企业主体信息,对该商家使用AI图片开展商业宣传的合规性展开进一步核查。针对电商使用AI生成图的法律界定,北京航空航天大学法学院副教授赵精武曾向媒体指出,商家未显著提示便使用AI生成图作为宣传主图,存在合规风险。事实上,2025年9月1日起实施的《人工智能生成合成内容标识办法》,已为AI生成内容的商业使用划定红线。赵精武表示,依据该规定,平台方负有核验AI内容标识的法定责任,对未标注标识的相关素材,需标注“疑似AI生成”提示公众。若商家拒不改正,监管部门可责令其停止违法行为、消除影响;情节严重的,还可能面临罚款等行政处罚。此外,赵精武提示,未标明标识的AI商品宣传主图若构成广告,则违反《广告法》相关规定,市场监管部门可责令商家停止违法行为,并处20万元至100万元罚款;情节严重的,甚至可吊销营业执照。上游新闻记者 周荞 -
推广视频涉嫌侮辱消费者,罗技中国致歉 中新经纬3月27日电 3月26日晚间,罗技中国在官方微博发布声明,就“罗技G官方旗舰店”发布违规内容致歉。 来源:“罗技中国”微博账号 中新经纬注意到,此前有报道称,3月26日,罗技官方旗舰店账号发布产品推广视频,配文“当我一降价 你还不是像狗一样跑过来”,视频内容被认为涉嫌贬低、侮辱消费者。 对此,罗技中国在声明中提到,对于抖音平台“罗技G官方旗舰店”发布的极其不当内容,罗技中国感到震惊与痛心。其完全理解并感同身受每一位玩家的失望与愤怒,对此向广大用户致以最诚挚的道歉。 声明称,“罗技G官方旗舰店”由罗技中国授权上海百事得电子有限公司运营,负责罗技产品在抖音渠道的销售。 声明提到,经调查,此次违规内容系上海百事得电子有限公司员工个人跳过了罗技中国的营销材料审核流程擅自发布,严重违反了罗技中国的品牌准则。罗技中国将深刻检讨对授权店铺营销行为的管理力度,坚决杜绝此类事件再次发生。 上海百事得电子有限公司3月26日晚间也发布声明称,为日前在账号发布的严重不当内容诚恳道歉。 来源:“罗技”抖音账号 声明称,那条关于降价的视频表述,是对大家感情的严重伤害。这一视频内容完全违背了罗技品牌所倡导的尊重、专业、以用户为中心的价值观,也对公众情感造成了严重伤害。该公司在此郑重承诺:绝不将责任推诿于任何个人或单一团队,将正视并承担店铺在管理、监督与价值观传导上的全部责任。 该公司声明提到,这是公司在内部管理上的漏洞,也辜负了大家长期以来对罗技G的信任。该视频已被永久删除,团队已被严肃处理。罗技品牌方已直接介入,监督公司严格管理账号运营、彻底整改内容发布流程、加强全员培训,杜绝此类事件再次发生。(中新经纬APP) -
AI正在制造“第二次大分流” 人工智能已成为全球科技竞争的核心战场,各国纷纷将AI发展纳入国家战略。2026年初,生成式AI技术持续迭代,多模态模型、智能体应用加速落地,算力基础设施大规模扩张。在此背景下,美国白宫经济顾问委员会于2026年1月发布名为《人工智能与大分流》的报告,系统梳理了美国AI发展的各项指标,并详细阐述了特朗普第二任期的AI政策框架。 这份报告的核心意图十分明确:通过投资、性能、采用率三大维度论证美国在AI领域的“领先地位”,并为特朗普政府放松监管、能源扩张、实施技术出口管制等政策提供依据。报告中关于中美AI领域竞争的分析、对“美国占据AI主导地位”的战略规划,直接关系到未来全球AI产业格局走向,对中国读者理解美国政策动向具有参考价值。 需要指出的是,报告多处表述带有明显的竞争对抗色彩,将中国定位为“战略对手”,部分数据选取和结论推导存在服务于政策论证的倾向。读者在阅读时应注意到,中美AI产业发展各有优势,中国在应用场景、产业配套、市场规模等方面具有独特优势,报告所述的“美国领先”并非定论。 观察者网全文翻译这份美国白宫经济顾问委员会撰写的报告,供读者批判性阅读,译文不代表观察者网观点。 《人工智能与大分流》报告封面 【翻译/鲸生】 1.引言 几个世纪以来,世界大多数经济体的增长速度都同样缓慢。然而,工业革命引发了一场“大分流”,使工业化国家的增长速度远超世界其他地区。人工智能(AI)是一项具有潜在变革性的技术,常被比作工业革命。 然而,我们清楚地看到,各国在人工智能的投资、表现和采用指标上已出现明显的领先者。特朗普政府正在为美国的人工智能主导地位奠定基础,通过加速创新、基础设施建设和放松管制,同时借助技术出口确立全球主导地位。如果人工智能革命真的像工业革命那样具有变革性,我们是否应该预期这将导致第二次大分流?当然,人工智能的未来影响尚不确定,因此本文重点关注当下可见且可衡量的实证数据。 我们首先回顾人工智能驱动经济增长的潜力分析(第2节),然后讨论人工智能对国内生产总值(GDP)和劳动力的影响估算。鉴于这些影响存在不确定性,需要持续监测。我们在第3节重点介绍追踪人工智能投资、表现和采用迅猛步伐的各项指标。随后讨论各国在这些指标上的表现(第4节)。变化速度之快怎么强调都不为过;许多指标每隔几个月就翻一番,每年增长数倍。这意味着未来的人工智能可能与今天的人工智能截然不同。最后,我们回顾特朗普总统为确保美国继续引领人工智能发展所采取的行动(第5节)。正如总统所说:“美国是开启人工智能竞赛的国家。作为美国总统,我今天在此宣布,美国将赢得这场竞赛。” 2.未来展望 过去25年见证了经济发展的大趋同,世界最富裕国家的增长速度慢于许多发展中国家。然而,基于大语言模型(LLMs)的生成式人工智能的出现,将在美国掀起新一轮深刻的经济转型,有望显著提升生产力和增长。随着人工智能技术更深入地融入工作场所,经济学家正在重新评估GDP的长期预测。 然而,这一创新时期并非没有复杂性。本报告侧重于长期结构性趋势分析,因为并非所有人工智能相关的投资都会盈利,而且短期总是存在大幅波动的可能。 2.1 人工智能背景 过去几年,人工智能能力和相关术语都迅速爆发,因此我们首先回顾人工智能领域的几个关键术语。 人工智能可以指各种各样的计算机系统,从像“深蓝”这样的国际象棋计算机,到像ChatGPT这样的生成式人工智能。在人工智能发展的大部分历史中,它只能在相对有限的选项范围内做出决策。最近人工智能兴趣的激增与“生成式”人工智能的兴起同时发生,之所以这样称呼,是因为它们能够“生成”文本、图像或视频。“大语言模型”是能够创作文本的生成式人工智能。它们之所以“大”,是因为拥有数万亿个参数;之所以称为“语言”,是因为它们使用大量自然语言书写的文本进行训练。“AI智能体”(Agentic AI)是生成式人工智能的一个子集,它们超越单纯的内容创作,能够执行行动以达成目标。 理解人工智能智能程度的框架可从两个维度来看:(1)执行不同任务的能力:从写文章、识别图片中的物体、编写计算机代码,到解决数学问题;(2)人工智能在该任务上的能力与人类智能水平的比较。当今的人工智能系统具有“专用”(或“狭义”)智能,因为尽管它们在某些特定任务上可能超越人类(没有人能像计算器那样快速乘法运算),但人工智能无法执行人类能做的所有任务。人类能够执行各种各样的不同任务。因此,我们说人类具有“通用”智能,而当前的人工智能(包括ChatGPT和代理式人工智能)具有“专用”智能。 通用人工智能(AGI)将是一种假设性的人工智能,能够执行人类能做的所有智力任务,但AGI的确切定义存在激烈争议,有些定义只要求AGI能够执行“许多但非全部”的人类任务。超级人工智能(ASI),有时简称为“超级智能”,是指智能超越人类的人工智能。AGI与超级智能之间的界限同样存在争议,部分原因是这些术语涵盖人工智能的不同方面:“AGI”和“专用人工智能”描述人工智能可执行任务的通用性,而“超级智能”描述人工智能在这些任务上的能力水平。然而,如果一个“单纯”的AGI能够以计算机速度执行人类的所有任务,它实际上已经是超级智能了。不过,抛开语义分歧不谈,值得注意的是,OpenAI、Anthropic、xAI、Meta和谷歌都致力于创造通用人工智能或超级智能。 这就引出了本报告分析的一个重要限制:对人工智能进行经济分析的局限性。正如汉森(Hanson,2001)指出的,如果人工智能能够执行所有人类任务,将导致爆炸性增长,世界将变得与今天截然不同。因此,通用人工智能(AGI)的影响(包括经济影响和其他方面)是一个值得深入研究的重要课题,但基本上超出我们当前分析的范围,因为我们重点关注的是“狭义”或“专用”人工智能。 2.2 人工智能对GDP的影响 经济学家通常认为,一个经济体的生产力来自三个因素:劳动力数量、资本数量和全要素生产率(TFP)。全要素生产率是衡量经济体效率和技术进步的指标。全要素生产率上升意味着经济体用同样数量的劳动力和资本生产出更多商品和服务,或用更少的投入获得同样的产出。这种效率提升是长期经济增长和生活水平提高的关键驱动力。对于美国这样资本存量已经很高的富裕国家来说,经济增长主要来自全要素生产率的提升。 全要素生产率带来的生产力提升最终会转化为更高的整体经济产出,即GDP。然而,新技术带来的影响存在时间上的滞后效应,因为企业必须先成功采用新技术并调整运营。1990年代的大部分生产力提升来自1970年代和1980年代的技术投资。大萧条时期的类似技术投资则在1950年代和1960年代开花结果。因此,虽然全要素生产率是一个重要指标,但它并不是人工智能影响美国经济的前瞻性指标。相反,人工智能研发支出和人工智能企业的产出才是技术进步的先期指标。例如,早在创新被广泛采用并产生宏观经济影响之前,人工智能相关的研发已经在很久以前就开始了。 近期多项研究试图量化人工智能对GDP水平的影响。这些研究的估算结果差异很大:人工智能可能使美国GDP增长1%到45%以上。如此大的范围反映了人工智能经济特征的高度不确定性。但值得注意的是,仅2025年上半年,人工智能相关投资就使GDP年化增长率提高了1.3%,让人联想到工业革命时期铁路投资的规模,这似乎排除了最低的几种估算。 对人工智能影响GDP的中位估算包括来自多家公司的数据:牛津经济研究院(8年后增长1.8%至4%)、麦肯锡(长期增长2.4%至4.1%)、高盛(10年后增长7%)。高位估算包括普华永道(10年后增长8%至15%)以及阿尔达索罗等人(Aldasoro et al.)的国际清算银行学术工作论文(假设经济所有部门都至少受到人工智能一定程度影响的情况下,10年后增长20%至45%)。阿隆索等人(Alonso et al.)的估算范围更广(4.7%至19.5%),这反映了对人工智能将更多替代熟练劳动力还是非熟练劳动力存在着不确定性(如果是后者,将导致大分化,从而产生对美国增长估算的高位值)。作为对比,信息技术与创新基金会(ITIF)2010年的一项研究表明,信息技术革命使美国GDP增长了约14%。 这些估算都假设人工智能可以部分但不能完全替代人类劳动力:如果人工智能能够完成所有人类任务,资本将成为劳动力的替代品,经济增长将提高到每年45%(参见汉森,2001)。 表一 不同机构及经济学家对人工智能产业影响GDP水平的评估(分为美国和全世界,10年、8年及长期) 图自:《人工智能与大分流》报告,下同 2.3 人工智能出现前的国际经济增长 即使在人工智能出现之前,不同国家也可能处于不同的增长轨道上:美国的潜在GDP增长正在加速,而欧洲和中国的增长正在放缓。就欧洲与美国相比,这主要归因于结构性因素,如美国更强的生产力增长(尤其是在科技领域)和更优越的商业环境。就中国而言,经过数十年的快速增长后,现在增速正在放缓,更接近新兴市场的水平。 人工智能驱动的增长对中国可能尤为重要,因为其曾经的高增速近年来已放缓至与其他新兴市场相当的水平。与中国类似,人工智能驱动的增长对欧洲也可能尤为重要。虽然中国在21世纪的经济崛起是时常被提及的地缘政治故事,但另一个较少被讨论、却可能同样重要的故事则是欧洲的衰落。欧盟占世界GDP的比重已从1980年的27%降至2025年的14%。这不仅是因为新兴市场的高增长率,也是因为德国和许多欧盟国家的增长率低于其他发达经济体。这一趋势在人工智能领域仍在延续,欧盟在各种人工智能发展指标上落后于美国和中国。例如,2013年至2024年间,美国私营部门对人工智能的投资累计超过4700亿美元,而所有欧盟国家合计仅约500亿美元。 认识到人工智能对未来增长的关键作用,美国与许多盟友通过促进“硅基和平”(Pax Silica)——美国在人工智能供应链上的国际合作伙伴关系——的实现而联合起来。“硅基和平”的成员范围广泛,从日本等上游半导体设备制造商,到卡塔尔等下游的数据中心投资者。这个多元化群体因对人工智能和科技发展的前瞻性视野而团结在一起。因此,“硅基和平”成员的增长速度超过其他国家的两倍也就不足为奇了:从2022年第四季度ChatGPT发布到2025年第三季度的最新数据,其平均实际GDP增长率为2.5%,而七国集团(G7)国家平均仅为1.1%。 2.4 人工智能对劳动力的影响与杰文斯悖论 目前的证据显示,人工智能对就业的影响喜忧参半。布林约尔松等人(Brynjolfsson et al.,2025)的研究表明,在计算机编程和客户售后服务等易受人工智能影响的职业中,处于早期职业生涯阶段的工作者就业率正在下降。其他研究发现,人工智能暴露度与当前失业率之间没有相关性。还有一些研究发现,虽然在人工智能可以直接替代人类劳动力的部门就业率有所下降,但在依赖人工智能提供能力支持的部门,人工智能暴露度实际上增加了就业(约翰斯顿和马克里迪斯,Johnston and Makridis,2025)。尽管人工智能目前产生了影响,但截至2025年12月,美国总体失业率仅为4.4%。 短期内,如果人工智能提高了劳动力效率,就会减少创造一定产出所需的劳动力数量,从而可能减少就业。但历史先例表明,效率提升往往可以增加(而不是减少)该项资源的总使用量——这一现象被称为杰文斯悖论(Jevon's Paradox)。当技术进步减少了某些特定应用所需的资源(如劳动力)数量时,就会出现杰文斯悖论。这实际上会导致该资源的整体使用量增加,因为使用范围扩展到了新的应用领域。 要使杰文斯悖论发生,进而带来采用人工智能之后的就业岗位增加,必须满足三个条件:第一,人工智能必须显著提高劳工的生产力;第二,由此产生的成本节约必须转化为更低的价格;第三,更低的价格必须使消费者需求的增速快于效率提升,导致单位劳动力需求降低的速度。 虽然这些条件看起来要求很高,但杰文斯悖论已在许多不同领域被观察到。杰文斯于1865年首次描述了这一悖论:当时煤炭在铸铁发动机中的使用效率提升,实际上增加了对煤炭、铁和其他资源的需求。在农业中,灌溉效率的提高可能会增加用水量。节能照明的改进既增加了灯泡的需求量,也增加了照明用电量。杰文斯悖论甚至出现在看似与生产无关的领域:道路通行能力的提升会带来道路上的驾驶员数量增加。具体到人工智能和就业,放射科医生可能正在经历类似的情况:这个职业曾被预测将被人工智能取代,但现在的就业率却达到历史高位。 从长期来看,关键问题是将人工智能与以往的颠覆性技术进行比较和对照。历史类比表明,颠覆性技术(蒸汽动力、电力、计算机、互联网等)最终会带来更多的就业和收入。但如果人工智能技术发展出自主性(使其能够像人类一样独立工作),或者大幅提高劳工生产力却不产生新的劳动力需求,那么人工智能可能成为例外(Ayres, 1990; Donaldson, 2018; Feigenbaum and Gross, 2024)。而过去技术变革的一般先例是,它们会创造各种新领域或行业。1860年,美国43%的就业人口集中在农业,而2015年这一比例仅为1.2%。在此期间,大量新职业被创造出来,其中许多依赖于新技术的发明。现在,美国大多数劳工从事的是自1940年以来创造的工作岗位,范围从“风力涡轮机技术员”到“软件开发人员”,从“纺织化学家”到“心理健康咨询师”。 3.需要追踪的关键指标 要理解人工智能,最重要的关注点之一是进步和变化的速度。用于训练人工智能模型的算力不仅仅是每年翻一番:自2010年以来,平均每年增长约4倍。同样,顶级人工智能公司的收入每年增加两倍,预计未来增长速度将超过谷歌、亚马逊或微软在高速增长阶段的表现(见图5和图7)。由于许多指标每隔几个月就翻一番,每年增长数倍,这意味着人工智能带来的变化可能非常迅速。 就像市场分析师通过监测住房开工率或制造业产出来预测更广泛的经济健康状况一样,一组特定指标可以揭示人工智能在美国经济中日益增长的影响力。人工智能对GDP的影响体现在全要素生产率的变化上,因此我们首先强调这一指标。但是,由于全要素生产率是滞后指标,我们还需要考虑其他可作为人工智能影响先行指标的数据。这些指标追踪人工智能相关投资规模的扩大、人工智能能力的加速提升以及人工智能采用率的上升,共同构成人工智能革命的经济晴雨表。这些指标相互关联:投资直接表明公司正在投入资源推进技术发展,这会带来模型性能提升和单位成本降低。更低成本下的更强能力推动人工智能使用量扩大,这最终反映在人工智能公司的收入上。 我们首先讨论美国的这些指标,然后转向跨国分析。 3.1 全要素生产率 人工智能对增长如此重要,是因为它对全要素生产率的潜在影响。但以往的科技革命与生产率的关系相当复杂。计算机曾经是占据整个房间的大型机,现在却能放进口袋。1987年,经济学家罗伯特·索洛有句名言:“计算机时代随处可见,唯独在生产率统计数据中看不到。”对计算机看似缺乏影响的解释涵盖了从时间滞后性、经济学家无法衡量其实际收益,到声称计算机实际上并未提高生产率等种种说法。因此,虽然人工智能对全要素生产率的影响可能是关键问题,但我们也需要依赖其他指标。 3.2 投资 人工智能生态系统的投资规模巨大,既包括模型本身,也包括相关基础设施。 3.2.1 人工智能模型 人工智能模型表现出一种可预测的趋势:随着开发者增加模型参数数量、训练数据集规模和用于训练模型的算力,模型性能会提升。这被称为“缩放定律”(Scaling Laws),这些经验式关系使得模型开发者能够不单纯依赖基础科学领域的突破,而是通过投入更多资源来提升人工智能模型的性能。其他领域也可见类似的经验关系,例如摩尔定律——集成电路上的晶体管数量每两年翻一番。由于缩放定律本身不是自然法则,而是观察到的经验关系,它们总有一天可能终结。但它们概括了当前所处的深度学习时代,自2012年以来,用于训练计算机模型的算力增长了超过10亿倍(见图1)。 图1 训练不同模型所需的算力 满足这些需求需要巨额投资。2024年,全球企业界对人工智能投资达到2520亿美元。仅生成式人工智能就同比增长19%,达到340亿美元。这些投资集中在美国,2024年美国私营部门人工智能投资为940亿美元(见图2)。 图2 对私营AI公司的外部投资(自上而下:世界、美国、欧洲、中国),仅统计150万美元以上的私募资金,单位:10亿美元 2016年至2024年,训练(构建)人工智能模型的能源和摊销硬件成本平均每年增长2.4倍,而云计算成本(见图3)平均每年增长2.5倍。由于近十年来的成本每年翻倍,2025年7月发布的人工智能模型Grok 4的训练成本约为4.9亿美元。 图3 训练不同AI模型的云计算成本,单位:2023年美元 尽管成本不断上升,对模型训练的投资仍然持续不断,这表明了开发更强大、更复杂人工智能系统的决心。许多投资指标在全球范围内都可公开获取,因此有关投资的进一步讨论请参见第4.1节的跨国比较。 3.2.2 人工智能基础设施 除了模型训练投资外,2025年数据中心及相关设备的投资也因人工智能技术的日益普及而激增。2025年上半年,美国信息处理设备和软件投资年增长率达28%,高于2024年的5.5%。换句话说,2025年第二季度,这项投资(按年度计算)已比2024年底高出1250亿美元以上。信息处理设备和软件占美国全部投资的四分之一。一个原本就很大的门类以如此快的速度增长,意味着人工智能正在推动美国GDP出现投资驱动型激增(而非由消费或不可持续的政府支出驱动的激增)。 3.3 性能 对人工智能的持续投资提升了人工智能模型的性能,包括解决不同任务的能力、可成功执行任务的长度,以及降低人工智能模型生成的每个词元(token)的成本。我们考虑两种性能衡量标准:基准测试得分和每个词元的成本。 3.3.1 基准测试得分提升 基准测试是一套标准化任务,旨在评估特定的人工智能能力,如推理、编程或语言理解。随着大语言模型变得更强大,它们在旧基准测试上取得接近完美的分数,这一现象被称为“基准测试饱和”。例如,2023年至2024年,人工智能在计算机编程基准测试SWE-bench上的表现从4%跃升至72%。 类似现象也出现在研究生水平问答、高级数学和各种其他学术科目的基准测试中。 然而,虽然前沿人工智能在许多考试和任务上的表现远超人类,但当前最好的AI智能体往往难以将更长的行动序列串联起来。因此,它们目前无法独立执行实质性项目,甚至无法完全替代以计算机为基础的低技能工作,如远程行政助理。但这意味着,模型可完成任务的长度是一个理解人工智能能力的有用视角。人工智能能够成功完成的任务长度也在增加,过去6年里每7个月翻一番。这意味着人工智能正变得能够更好地独立管理越来越大的项目,从而完成日益复杂的任务。 图4 不同AI历年来能以50%成功率完成的软件工程任务长度,单位:对人类工程师而言的任务长度(小时) 3.3.2 每个词元成本下降 “词元”(token)是大语言模型输入的基本单位,例如单个单词或数字。每个词元成本的下降使人工智能变得更加实惠。这可能是因为更小、更高效的模型(软件)或更好的硬件。根据模型不同,价格每年至少下降了9倍,而最高可达900倍。 3.4 采用和使用 由于人工智能能力提升和成本下降,人工智能的使用已遍布整个美国经济。这可以通过前沿人工智能公司的收入、人工智能在商品和服务生产中的使用,以及越来越多的美国人在工作场所使用人工智能等指标来追踪。 3.4.1 收入 人工智能公司经历了快速但并非前所未有的增长,但其未来增长可能超过所有历史先例。初创公司经常会出现爆炸性增长,截至2024年下半年,OpenAI、Anthropic和谷歌DeepMind的年化收入增长均超过3倍(见图5)。 图5 各公司面向公众的AI产品销售利润,OpenAI(蓝)、Anthropic(红)、谷歌DeepMind(黄),单位:百万美元 这远快于市场平均水平:2024年最后一个季度,标普500公司的收入混合同比增长率为10.3%。但迄今为止,人工智能公司的增长与谷歌和优步等顶级科技独角兽企业在其初始高增长阶段的表现相当(见图6)。因此,虽然这种增长令人印象深刻(亚马逊只有两年达到这种收入增长水平),但并非前所未有。 图6 OpenAI实际收入相较于其他企业的历史性收入快速增加 单位:10亿美元;横轴:距离年度收入达到10亿美元的年数 然而,人工智能公司的未来收入增长可能是前所未有的。例如,尽管存在质疑,但OpenAI声称,其2026年至2028年每年收入将大致翻一番。为了尝试理解这一说法,将其与此前大型科技独角兽企业的历史性增长进行比较会有帮助;OpenAI的这种收入增长将远高于这些此前大型科技独角兽的增长率(见图7)。 图7 OpenAI预计收入相较于其他企业的历史性收入快速增加,单位:10亿美元;横轴:距离年度收入达到100亿美元的年数 3.4.2 企业使用 各类组织对人工智能的使用率从2023年的55%跃升至2024年的78%。特别是,在商品和服务生产中使用人工智能的企业比例,从2023年的不足4%增至2025年9月的约10%(见图8)。 图8 商品及服务生产中使用AI的美国公司占比 购买人工智能付费订阅服务的企业比例增长更快,从2023年1月的7%升至目前的45%。美国劳动者的情况类似,目前约有40%的人在工作中使用生成式人工智能(见图9)。 图9 在工作中使用生成式AI的美国劳工占比 3.4.3 关键矿产 许多矿产资源是人工智能供应链的关键组成部分。硅是大多数半导体芯片的主要基础材料,而镓和锗是另外两种关键成分。国际能源署估计,到2030年,仅数据中心就可能消耗超过当前全球镓供应量的10%。 4.跨国比较 有多种方式评估各国的人工智能发展水平,许多机构都开发了自己的指数。我们从投资、性能和运用三个维度比较各国的情况,确定谁在人工智能领域领先。我们发现,总体而言,美国在大多数指标上排名第一,中国第二,欧盟第三。 4.1 投资 追踪人工智能总体投资较为困难,因为投资分散在人工智能供应链的各类公司中——从芯片到数据中心再到人工智能实验室——资金来源也涵盖各种公共和私人渠道。 从研发总支出来看,2022年以色列的研发支出占其GDP的6.0%,这一比例高于全球任何其他国家和地区。紧随其后的是韩国(5.2%)、中国台湾(4.0%)、美国(3.6%)和日本(3.4%)。相比之下,中国大陆为2.6%,欧盟为2.1%。 在私营投资方面,美国私营公司在人工智能研发方面处于领先地位。2024年美国私营领域的人工智能投资为1090亿美元,而排名第二的中国私营领域投资仅为90亿美元,英国、瑞典和加拿大位列前五(见图10)。因此,美国在生成式人工智能初创企业的公开风险投资中占比约75%,也就不足为奇了。 图10 2024年各国对AI私营领域投资,单位:10亿美元 然而,对私营人工智能公司的私营领域投资并非唯一的投资类型。其他国家也在努力追赶,政府或主权财富基金进行了各种人工智能专项投资(见图11,列出了部分重大公告)。除了欧盟和中国等预料之中的参与者外,几个中东国家也在大力投资人工智能。中国公共部门对人工智能的支出规模庞大,2025年估计为560亿美元。沙特阿拉伯公共投资基金成立了一家新的人工智能公司Humain,并设立了100亿美元的风险基金。同样,阿联酋正与OpenAI、英伟达及其他美国公司合作,作为“星门”(Stargate)项目的一部分建设各种数据中心。 图11 各国及主权财富基金关于直接AI投入的重要声明,单位:10亿美元 美国以外的人工智能投资,其性质可能截然不同,发展中国家尤其如此。例如,这些国家在建立国家电话网络时,许多选择跳过了固定电话、直接进入移动通话时代。发展中国家的人工智能使用也可能出现类似现象:数据中心可能面临电力可靠性的问题,而人工智能的主要平台可能是智能手机。 4.2 性能 鉴于美国在人工智能领域的庞大投资,美国在性能方面领先并不令人意外:2024年,美国拥有154个规模与GPT-3相当的人工智能系统,约占全球总数331个的一半。然而,由于人工智能的进步速度极快,各国最佳模型之间的性能差距相对较小。根据微软的一份报告,“只有七个国家——美国、中国、法国、韩国、英国、加拿大和以色列——有模型进入前200名,而前沿(美国)与其中最后一名(以色列)之间的差距现在仅为11个月。” 图12 各国大规模AI系统的累计数量 4.3 采用和使用 由于大量投资,截至2025年5月,美国拥有全球约74%的人工智能算力(见图13),而且许多外国人工智能硬件最初由美国公司制造。例如,几乎所有中国人工智能模型都在美国硬件上训练(见图14)。 图13 各国GPU集群(基于集群表现调整权重)的占比,深蓝为美国、红色为中国 图14 中国AI模型的硬件源头 使用情况分布更为广泛,以色列和新加坡在Claude人工智能模型的人均使用量上最高。OpenAI也呈现类似趋势,美国仅占ChatGPT流量的19%。总体而言,中等收入经济体的生成式人工智能使用量相对于其经济规模而言不成比例地高,2024年合计占全球人工智能使用量的50%,而低收入经济体占比不足1%,部分原因是缺乏电力。总体而言,人工智能采用率与GDP高度相关,发达国家的采用率明显高于发展中国家。推动这种分化的关键因素是对人工智能“基础要素”的获取差异,包括电力、数据中心、互联网接入、语言和数字技能。 5.特朗普革命 特朗普政府正在推行多项政策,以改善美国在每一项指标(投资、性能、采用)上的地位,许多政策同时改善多个指标。放松管制降低了数据中心基础设施的建设成本,激励人工智能投资。《大而美法案》更方便美国人进行投资,贸易协定正在吸引外国投资。所有这些投资带来了供美国人工智能占据主导地位所需的性能,而美国的能源主导地位提供了满足了人工智能日益增长的需求所需的电力。 5.1 投资 《大而美法案》。《大而美法案》(公法119-21,2025年7月4日签署)恢复并扩大了合格投资的全额、即时费用扣除,并延长了亲投资的商业条款,将税后门槛利率调整为有利于立即建设。联邦企业所得税率保持在21%,该法保留并完善了一系列面向国际的条款,并在各种人工智能倡议上投资了超过10亿美元。经济顾问委员会分析预测,该法案将在通过后的四年内使美国GDP年增长超过1%,并使每位劳动者的实际工资提高4000至7200美元。 与人工智能繁荣特别相关的是,《大而美法案》恢复了信息技术基础设施和数据中心设备的100%奖励折旧。经济顾问委员会估计,总体而言,该法案将使投资增加7%至10%,激励数据中心、电力基础设施和芯片制造的建设。 贸易协定。作为贸易协定和其他协议的一部分,特朗普总统已从外国获得数万亿美元的投资承诺。欧盟在其贸易协定中明确承诺购买400亿美元的美国人工智能芯片,阿联酋也明确提及,其1.4万亿美元的对美投资将把人工智能作为关键领域之一。 5.2 性能 《人工智能行动计划》。特朗普政府的人工智能政策在其2025年《人工智能行动计划》和几项相关行政命令中概述。该政策侧重于通过快速建设数据中心、促进和加速创新、维护人工智能模型中的言论自由来实现美国在人工智能领域的国际主导地位。 为实现这些目标,《行动计划》概述了具体步骤。例如,关于数据中心的快速建设,该计划建议根据《国家环境政策法》(NEPA)为数据中心建立新的类别排除,以加快许可流程。为促进和加速创新,该计划建议各联邦机构直接投资人工智能技术,并建立“人工智能卓越中心”,激励研究人员和初创企业在承诺开放共享数据和结果的环境中快速部署和测试人工智能工具。关于维护言论自由,该计划建议更新联邦采购指南,强制规定美国政府只与确保其系统客观且无自上而下意识形态偏见的人工智能开发者签订合同。 放松监管。过度监管会通过增加成本、抑制竞争和创新、提高消费者价格来损害经济活动。这会减少经济增长、初创活动和就业创造,并提高贫困率,对小企业的影响尤为严重。 7月23日,特朗普总统签署了一项行政令,加速数据中心及其基础能源和制造基础设施的许可流程。随后,12月11日,特朗普总统又签署了一项行政令,减少州一级的障碍。 正如经济顾问委员会此前研究的那样,特朗普政府的放松管制努力旨在改善这些问题,为人工智能部门以及经济其他部门带来好处。经济顾问委员会估计,这些放松管制努力能够带来有意义的生产力提升,转化为未来二十年内每年额外0.3至0.8个百分点的GDP增长——到2045年的累计增长约6%至17%。 5.3 采用和使用 能源主导地位。特朗普总统已将占据能源主导地位作为其政府的优先事项之一。本届政府已采取重要行动刺激国内生产并降低成本,包括恢复能源开发的联邦租赁、签发液化天然气出口终端的新许可证、支持先进核能开发等。不计放松管制的影响,经济顾问委员会估计,支持美国能源主导地位的政策到2035年可使美国GDP提高至少0.3%至1.2%,这尚未计入与人工智能的协同效应。 与传统数据中心相比,生成式人工智能的数据中心尤其耗电,预计人工智能数据中心占美国电力需求的比例,将从2023年的4%增至2028年的7%至12%。为应对这一需求增长,《人工智能行动计划》包括与建设能源电网相关的具体政策行动。特别是,该计划建议探索电网管理技术和输电线路升级,以优化和稳定现有电网,同时优先建设并使用各种能源的新发电厂接入电网。截至2025年4月,美国能源部已确定16个具备能源基础设施的潜在选址,可供快速建设数据中心。 6.结论 人工智能革命与工业革命相似,呈现出一个深刻的经济转折点,有可能显著提高拥抱这一技术的国家的GDP增长。我们正目睹各国在人工智能投资、性能和使用指标上出现了明显的领先者。通过特朗普政府全面的《人工智能行动计划》及相关行政命令,美国正在推行一项专注于加速创新和基础设施发展、通过技术出口和放松管制建立全球主导地位的战略,以此为美国的人工智能主导地位奠定基础。 本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。 -
ChatGPT独占时代终结!传苹果(AAPL.US)拟向外部AI助手开放Siri iPhone或变身“AI入口平台” 智通财经APP获悉,据知情人士透露,苹果(AAPL.US)计划向外部人工智能(AI)助手开放Siri,此举旨在强化iPhone作为AI平台的地位。知情人士称,苹果正准备将这一变化作为即将发布的iOS 27操作系统更新中Siri重大升级的一部分。目前,Siri已可通过与OpenAI的合作调用ChatGPT,但苹果将允许Siri接入其他竞争性产品。这些变化是苹果试图扭转其在AI领域颓势的一部分。苹果在这一领域一直落后于硅谷同行。让近15年前首次推出的Siri焕然一新是这项翻身计划的核心。知情人称说,苹果正在开发新工具,使通过App Store安装的AI聊天机器人应用能够与Siri助手整合。这些聊天机器人还将与一款即将推出的Siri应用以及Apple Intelligence平台中的其他功能协同工作。这意味着,例如,如果用户安装了谷歌(GOOGL.UQ)的Google Gemini或Anthropic的Claude,他们将能够通过Siri语音助手向这些服务发送查询,就像自2024年Apple Intelligence推出以来他们使用ChatGPT一样。这种做法还将使苹果能够通过App Store从第三方AI订阅中获得更多收入。此举将终结ChatGPT在苹果软件中的独占角色。从一开始,苹果内部就曾围绕OpenAI是否是合适合作伙伴展开争论。前苹果AI负责人John Giannandrea曾质疑这家初创公司的持续发展能力,并倾向于与谷歌达成合作。在选择ChatGPT作为Apple Intelligence发布合作伙伴之前,苹果曾在内部对多个AI聊天机器人进行过评测。在一段谈判期后,公司最终选择了OpenAI的产品,并称其为当时最佳可用选项。新的策略将消除像ChatGPT那样一次性整合协议的必要性。这意味着苹果可以更快地引入多个外部AI服务,并可能在无需展开商业谈判的情况下扩大AI在其操作系统中的应用范围。目前,用户可以通过明确请求OpenAI服务,将Siri查询转接至ChatGPT。在新系统下,用户将改为为每一次查询指定要使用的AI服务。其他主要AI平台也已作为应用提供在苹果平台上,包括Perplexity、亚马逊(AMZN.US)的Alexa、Meta(META.US)的Meta AI、xAI的Grok以及微软(MSFT.US)的Copilot。目前尚不清楚苹果是否会允许任何AI应用被加入Siri、还是会设立特定审批流程。在开发Apple Intelligence期间,苹果曾设想Siri可连接多个AI服务,并举例说明可以接入专用聊天机器人,例如面向医生的聊天机器人。苹果在2024年表示正在推进Gemini整合,但该项目从未真正落地。在新的策略下,苹果可以通过从其设备上推广的竞争AI服务付费订阅中抽取分成来扩大服务收入。当前,苹果通过在用户注册更高级别 ChatGPT订阅时提供其支付系统来获得收入。这一变化与苹果正在与谷歌合作、利用Gemini模型重建Siri的工作是分开的——后者涉及Siri的底层苹果技术。而与此同时,所谓的新“Extensions(扩展)系统”将允许用户通过实际的Gemini服务处理请求——前提是谷歌允许其应用支持该功能。测试中的Extensions系统将允许用户通过iOS 27、iPadOS 27和macOS 27设置面板中的Apple Intelligence和Siri菜单,启用或禁用希望在Siri内部运行的服务。根据即将发布操作系统测试版本中的一条提示信息:“扩展功能允许来自已安装应用的代理与Siri、Siri应用以及设备上的其他功能协同工作。”用户还将通过该菜单进入App Store的一个新专区,以添加更多AI服务。此外,开放Siri只是多项正在推进的AI计划之一。据报道,苹果正在准备推出一个Siri应用以及全新界面。公司还在将Siri与Spotlight搜索功能进行整合,并新增如“Ask Siri”和“Write with Siri”等入口开关。苹果计划于6月8日在全球开发者大会上宣布其最新软件,在此之前这些功能可能仍有变化或推迟发布。这家iPhone制造商在其网站上承诺,将在活动上介绍“AI进展”的细节。 -
AI时代如何真诚分享与守护社区?小红书举办开放日活动 3月26日,小红书在上海举办“要来就来‘真的’——AI时代的真诚分享与社区守护”开放日活动。作为“清朗浦江·2026”网络生态治理旬开放日的重要活动之一,本次活动围绕《小红书社区公约2.0》与AIGC(人工智能生成内容)治理展开,通过现场互动、主题分享和交流讨论等形式,回应AI时代内容真实性、创作者责任和平台治理边界等现实议题,进一步凝聚平台、机构、创作者等多方共同守护真实社区生态的共识。上海市委网信办副主任杨海军,黄浦区委常委、宣传部部长钟璟等参加活动。活动现场设置了暖场互动环节,主持人展示了多组图片和内容案例,邀请观众判断哪些是来自现实世界的真实记录,哪些带有明显的AI生成痕迹。从食物、人物到画作,现场嘉宾一边观察细节、一边交流判断,气氛轻松活跃。一场“乱讲PPT” 讨论AI会把内容带向哪里开放日现场设置了“乱讲PPT小赛”环节。来自不同领域的科技博主、行业从业者和内容创作者随机抽取页面、即兴讲解,围绕AI与内容创作、账号运营、用户互动之间的关系展开讨论。 现场观点既有对AI能力边界的观察,也有对内容同质化、互动失真、账号托管等问题的追问:当AI越来越深地参与选题、发布、互动,甚至开始代替人经营账号,内容表达会不会变得更高效,人与人之间的连接会不会反而变得更疏离。现场既有充满想象力的表达,也有不少来自创作者一线的真实感受。博主“爱女孩的面条”就在分享中称自己是“古法博主”,比起AI生成的内容,还是更喜欢“手搓”一点的创作方式,也引发了现场不少共鸣。该环节结束后,上海市委网信办副主任杨海军结合现场讨论作了点评。他表示,面对AI快速发展带来的新变化,平台在鼓励技术应用的同时,更要守住真实底线和用户信任,把AI更多作为提升效率的工具,而不是替代真情实感。正如他所说,“真实比炫技更能打动人,真诚比深沉更能吸引人”。围绕《社区公约2.0》和AIGC治理 进一步明确平台态度和社区边界主题分享环节,小红书AI治理负责人刘星围绕平台对AIGC内容的基本态度和治理思路进行了介绍。他表示,面对AIGC快速发展,平台治理的重点不是工具本身,而是“用AI替代真实、消解真实”的行为。对于能够辅助真实表达、提升创作效率的AI应用,平台持开放态度;对于缺乏真实经验支撑、可以被批量复制、削弱用户真实感知和信任基础的内容,平台将持续加强识别、标注和治理。 随后,小红书社区体验负责人汪喆围绕《小红书社区公约2.0》作了分享,对“真实分享、友好互动、有序经营”等社区倡导进行了进一步解读。她表示,技术不断发展,内容形态持续变化,但社区治理始终要回答一个核心问题:如何让用户看到更真实的内容,建立更可信的连接。无论是AIGC,还是其他新技术应用,平台都鼓励创作者善用工具,但也明确反对虚假人设、不当营销以及破坏社区信任关系的行为。 小红书平台AI创作者代表“映峰大叔”也结合自身创作经历,分享了对AI辅助内容生产的理解与感受。他表示,AI确实为创作者带来了便利,也拓展了内容表达的空间,但真正能够打动用户、建立连接的,仍然是创作者自身的观察、经历和判断。技术可以帮助创作提效,却很难替代真实生活带来的感受力和表达欲。原标题:《AI时代如何真诚分享与守护社区?小红书举办开放日活动》栏目编辑:杨玉红 题图来源:采访对象提供 图片来源:采访对象提供来源:作者:新民晚报 金志刚 -
OpenAI关停Sora,另一边是中国军团的崛起 【文/观察者网 心智观察所】 3月24日,一个令全球科技界震动的消息传出:OpenAI正式关停其视频生成应用Sora,同时终止与迪士尼价值10亿美元的合作协议。这款曾在2024年初以惊艳效果震撼整个行业的AI视频产品,从横空出世到黯然退场,仅仅走过了两年多的生命周期。 对于OpenAI而言,这无疑是一次“断臂求生”。CEO山姆·奥特曼向员工宣布这一决定时,给出的理由是公司将战略重心全面转向企业业务与编程功能,为最快于今年第四季度进行的IPO铺路。Sora团队将转向机器人技术等长期投资领域,而那个曾经让无数创作者兴奋的“文本生成电影级视频”的梦想,就此画上句号。 但这个故事的另一面,正在大洋彼岸悄然上演。就在OpenAI选择“撤退”的同时,中国AI视频赛道正以前所未有的速度狂飙。年初字节跳动Seedance 2.0带来惊艳的震撼后,最新的全球AI基准测试平台Artificial Analysis榜单显示,中国模型已经登上了世界之巅——昆仑万维的SkyReels V4在“文本生成视频(含音频)”类别中拿下全球第一,超越了谷歌Veo 3.1和快手可灵3.0。而在图生视频赛道,爱诗科技的PixVerse V5.6位列全球第四,紧随xAI的grok-imagine-video和快手的可灵系列之后。 一扇门在西方关闭,另一扇更大的门却在东方轰然打开。Sora的关停,远非一个产品的终结,而是全球AI视频格局重塑的号角。当OpenAI为IPO精简业务、为算力成本焦头烂额时,中国厂商正凭借独特的数据优势、工程师红利和商业模式创新,在这场“视频大模型”的全球竞赛中完成弯道超车。 IPO焦虑下的“战略撤退” Sora的关停并非突如其来。复盘其短暂的生命周期,我们可以清晰地看到一条从高光到黯淡的轨迹。 2024年初,OpenAI首次推出Sora时,整个科技界为之震动。这款能够根据文本提示生成高质量、媲美电影长片视频的软件,直接促使众多竞争对手加速推出各自的AI视频生成模型。2025年9月,OpenAI创建了独立的Sora应用程序,试图围绕作品分享打造一个AI时代的社交网络。 然而,好景不长。据TechCrunch报道,到2026年1月,Sora的下载量已暴跌45%。运营视频生成服务需要消耗庞大的计算资源和电力,这对任何企业而言都是一笔巨额开支。媒体报道称,Sora的运营已经对其他团队的算力分配造成了明显影响。而在本月早些时候的全员会议上,OpenAI应用主管Fidji Simo明确表示,员工们不能被“侧线任务”分散精力。Sora,正是那个被抛弃的“侧线任务”。 算力成本只是表层原因。更深层的驱动力,是OpenAI为IPO所做的战略精简。与迪士尼10亿美元合作协议的终止,更像一个象征性的注脚——这家曾经被视为“AI颠覆好莱坞”象征的公司,主动退出了视频生成这个充满想象力的赛道。迪士尼发言人对此回应称,尊重OpenAI退出视频生成业务并转移重心的决定。 Sora的关停暴露了视频生成赛道的残酷真相:这是一个算力消耗的无底洞。生成一段15秒的高质量视频,背后是庞大GPU集群的超高负荷运转。据测算,字节跳动Seedance 2.0的定价约为“1秒钟1块钱”,而这个价格尚不足以覆盖真实算力成本。对于OpenAI这样需要向资本市场证明盈利能力的公司而言,维持一个高投入、低回报、充满版权争议的消费者产品,显然不是明智的选择。 中国军团的崛起 与OpenAI的撤退形成鲜明对比的,是中国AI视频厂商的集体冲锋。字节Seedance、快手可灵、爱诗科技PixVerse、昆仑万维SkyReels……中国力量正在重塑全球AI视频的竞争格局。 这种崛起并非偶然。爱诗科技创始人王长虎在接受采访时,道出了关键所在:“依托抖音、TikTok等平台积累的大规模数据处理能力和深度学习算法经验,我们在视频生成领域具备独特优势。这些平台帮助我们积累了丰富的用户行为数据和内容理解能力,使得我们在模型训练和优化上更具竞争力。” 这段话揭示了中西方AI视频竞争的本质差异:中国厂商拥有全球最大的短视频应用场景和数据积累。抖音、快手、TikTok这些日活数亿的平台,不仅是中国AI视频模型的“训练场”,更是其商业化落地的“试验田”。当一个中国AI视频模型在抖音上火起来时,它立即能获得海量用户的真实反馈,这种“数据-模型-应用”的闭环迭代速度,是任何西方厂商难以比拟的。 这种优势在最新的全球排名中得到了充分体现。在Artificial Analysis的图生视频排行榜上,快手可灵系列占据了第二和第三的位置,爱诗科技PixVerse紧随其后位列第四。而在更具挑战性的“文生视频+音频”赛道,昆仑万维SkyReels V4直接登顶全球第一。这些成绩的背后,是中国工程师在技术和产品上的双重突破。 更重要的是,中国厂商正在走出一条差异化的商业化路径。与OpenAI纠结于消费者订阅模式不同,中国公司采取了更灵活的“To C+To B”双轮驱动策略。爱诗科技从成立之初便选择“先To C后To B、优先海外再拓国内”的路线,以全球普通用户为核心,积累超过1亿用户后,再向互联网营销、电商等B端场景延伸。昆仑万维则直接打造了AI版Netflix——短剧平台DramaWave,截至2026年1月,其MAU已突破8000万,年化流水ARR破4.8亿美元。 在AI的许多领域中,一个个“技术→产品→商业化”闭环正在中国形成。而支撑这一切的,是黄仁勋所描述的“工程师文化”与“类开源”的创新生态。 英伟达CEO黄仁勋最近在与Lex Fridman的对话中,给出了一个深刻的解释。他指出,全球大约一半的AI研究人员是中国人,而且大部分还在中国本土。中国的科技产业出现在移动互联网和云计算时代,那个时代的核心是软件,而中国的优势正好在这里——有大量科学和数学基础非常扎实的年轻人,教育体系很强,这一代人是在软件时代成长起来的。 但更关键的是文化因素。黄仁勋观察到,中国人的排序大概是家庭第一,朋友第二,公司第三。这导致人与人之间的信息交流非常频繁。某种程度上,中国人一直处在一种“类开源”的状态。工程师之间的关系是交织的,朋友在别的公司,亲人在别的公司,很多还是同学。“同学”这个概念,是一辈子的关系。在这种情况下,知识传播速度非常快。既然很难真正保密,那干脆开源。开源社区反过来又进一步放大了创新速度。这也是中国AI领域能够在短短两三年内从追赶到领先的重要原因。 IPO进度条:中国企业的“先手棋” 值得玩味的是,就在OpenAI为IPO“瘦身”的同时,中国AI企业已经在资本市场上抢占了先机,形成了一道令硅谷侧目的风景线。 在Sora团队为算力分配捉襟见肘时,中国的大模型公司正在获得资本市场的持续输血。仅2026年3月,爱诗科技就完成了3亿美元的C轮融资,刷新了亚洲AI视频生成领域的最大单次融资纪录。 2026年1月8日,被誉为“中国OpenAI”的智谱在港交所挂牌上市,成为全球首家以通用人工智能(AGI)基座模型为核心业务的上市公司。这家源自清华大学技术成果转化的公司,凭借原创的GLM算法架构,成为国内罕有在原创技术路线上与全球顶尖水平保持同步的厂商。 仅仅一天之后,总部位于上海的MiniMax也紧随其后在香港上市,成为史上IPO规模最大的AI大模型公司。上市短短两个多月后,MiniMax股价一路飙升至1200港元,市值直奔4000亿港元大关,涨幅接近10倍。创始人兼CEO闫俊杰持有公司25%股份,个人身价已接近千亿港元,被网友戏称为“百度史上最强实习生”。 继智谱和MiniMax之后,AI视觉算法与大模型解决方案提供商极视角通过港交所聆讯,计划于3月30日在港交所上市。这家由三位“90后”创办的企业,从1月20日递表到3月19日通过聆讯,仅用了不到两个月时间。 与此同时,更多中国AI企业正在排队登陆资本市场。市场消息显示,阶跃星辰正计划在港交所IPO,力争年内完成上市,有望成为大模型第三股。这家成立不到三年的公司,已在2026年1月完成50亿元B+轮融资,刷新了过去12个月中国大模型赛道单笔最高融资纪录。 相比之下,OpenAI的IPO计划仍在“筹备中”。尽管公司为冲刺最快于今年第四季度进行的IPO而做出了关停Sora的艰难决定,但具体的时间表仍充满不确定性。这场IPO进度的竞赛,中国AI企业已经跑在了前面。 这种“资本先行”的态势,正在改变全球AI产业的竞争格局。中国AI公司通过IPO获得更多资金弹药,可以在研发投入、人才引进、市场拓展上获得更大的主动权。而OpenAI为了上市而“瘦身”的战略选择,某种程度上也是在承认:与其在多个战线同时作战,不如聚焦核心优势,将视频生成这个战场拱手让人。 全球资本市场正在用脚投票,投资者对中国AI企业的信心正在转化为真金白银的投入,中国AI企业在资本市场上正形成一个令人瞩目的上市矩阵。在OpenAI还在为IPO做“瘦身”准备时,它的中国同行们已经在全球资本市场的舞台上,奏响了自己的序曲。 行业终局:没有“全都要”,只有“第一” Sora的关停,揭示了一个深刻的行业规律:在AI这个需要无限算力投入的赛道里,没有一家公司能够“全都要”。 AI行业的终局,并非单一巨头通吃,而是“多极化”的格局。在十个大方向(如文本、图像、视频、代码、机器人、科学计算等)中,每个方向的第一名将获得远超第二、第三名的价值。即使是平台级公司,也无法保证在所有方向上都占据第一。资源是有限的,算力是有限的,顶尖人才也是有限的。 OpenAI主动放弃视频生成这个“大方向”,本质上是为了集中所有资源,确保自己在“通用人工智能”或“机器人世界模拟”等自己认定的核心方向上,成为无可争议的第一。这是战略上的明智,但也是格局上的收缩。 而对于中国AI视频厂商而言,这恰恰是一个历史性的机遇。全球最具知名度的AI公司主动退出视频赛道,这个市场的话语权和定义权,正在向东方转移。 站在2026年春天回望,Sora浪潮之后,全球AI视频的竞争格局已经发生了根本性变化。中国厂商不再只是追赶者,而是开始引领技术方向、商业模式和行业标准。SkyReels V4登顶全球第一,PixVerse用户突破1亿,DramaWave月流水突破4000万美元——这些数字背后,是一个正在崛起的中国AI视频产业。 Sora的关停,将是一场全球资源重新配置的开始。OpenAI选择“断臂求生”,而中国AI视频军团正在书写属于自己的规则。 本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。 -
阿里离职风波后,林俊旸首发长文回顾Qwen技术哲学,并探讨“智能体式思考” 3月26日,被誉为“阿里最年轻P10”的千问(Qwen)大模型灵魂人物林俊旸,在月初离职风波舆论渐息之际,在X平台发布长文《从“推理式思考”到“智能体式思考”》,系统阐述了他对AI技术范式演进剖析。通过这篇文章,林俊旸不仅总结了过去,更清晰地指向了AI未来竞争的真正战场——一个超越单一模型比拼、关乎系统、环境与协同的智能体新时代。文章清晰地勾勒出一条AI能力进化的路线图。林俊旸将2024-2025年定义为“推理思考”阶段,以OpenAI o1和DeepSeek-R1为代表,其核心成就是证明了“思考”可以作为一种可训练、可交付的一流能力。这一阶段的本质,是通过强化学习(RL)在数学、代码等可验证领域获得确定性反馈,从而让模型“为正确而优化,而非为合理”。然而,这背后是巨大的基础设施挑战——推理RL已从轻量级微调附件,演变为需要大规模部署、高吞吐验证的系统工程问题。不过,真正的难题远不止于此。文章第二部分深入探讨了“思考模式”与“指令模式”融合的实践困境。这一分析也映照了商业现实:阿里在Qwen3尝试融合后,后续的2507版本中Instruct与Thinking版本独立呈现,因为大量客户在批量操作中仍需要高性价比、高可控的指令行为。文章明确提出“智能体式思考”(Agentic Thinking)是下一代AI的核心范式。这标志着训练核心从模型本身转向 “模型-环境”系统。智能体思维的核心是“为行动而思考”,它必须处理纯推理模型无需面对的难题:决定何时行动、调用何种工具、处理环境的不确定反馈、在失败后修订计划、在多轮交互中保持连贯。林俊旸认为,在推理时代,优势源于更好的RL算法和反馈信号;而在智能体时代,竞争优势将建立在更优质的环境设计、更紧密的训练-服务一体化架构、以及更强大的智能体协同工程之上。环境本身成为一等品,其稳定性、真实性、反馈丰富度和抗过拟合能力至关重要。同时,多智能体组织架构——由规划者、领域专家和执行子代理构成的系统——将成为核心智能的来源。这篇文章可以看做是林俊旸关于技术理念的完整阐述,将他任职期间推动Qwen发展的技术哲学系统化输出。或许,这也是一份个人未来的宣言,文章中对“智能体时代”基础设施、环境工程重要性的强调,暗示了他看好的下一个创业或研究方向。 全文由千问Qwen翻译: From "Reasoning" Thinking to "Agentic" Thinking 从“推理式思考”到“智能体式思考” The last two years reshaped how we evaluate models and what we expect from them. OpenAI's o1 showed that "thinking" could be a first-class capability, something you train for and expose to users. DeepSeek-R1 proved that reasoning-style post-training could be reproduced and scaled outside the original labs. OpenAI described o1 as a model trained with reinforcement learning to "think before it answers." DeepSeek positioned R1 as an open reasoning model competitive with o1.过去两年重塑了我们评估模型的方式以及对模型的期望。OpenAI的o1证明,“思考”可以成为一种一流的技能——一种需要专门训练并面向用户开放的能力。DeepSeek-R1则表明,推理风格的后训练方法不仅能在原始实验室之外重现,还能实现规模化应用。OpenAI将o1描述为一种通过强化学习训练而成的模型,它能够在回答问题前“先进行思考”。DeepSeek则将R1定位为一款与o1相媲美的开放式推理模型。That phase mattered. But the first half of 2025 was mostly about reasoning thinking: how to make models spend more inference-time compute, how to train them with stronger rewards, how to expose or control that extra reasoning effort. The question now is what comes next. I believe the answer is agentic thinking: thinking in order to act, while interacting with an environment, and continuously updating plans based on feedback from the world.那个阶段很重要。但2025年上半年主要聚焦于推理思维:如何让模型在推理时花费更多时间。计算,如何用更强烈的奖励来训练它们,如何暴露或控制那种额外的推理努力。现在的问题是:接下来该怎么做?我认为答案是代理思维:即思考——为了 在与环境互动时采取行动,并根据来自外界的反馈不断更新计划。1. What the Rise of o1 and R1 Actually Taught Uso1和R1的崛起实际上教会了我们什么 The first wave of reasoning models taught us that if we want to scale reinforcement learning in language models, we need feedback signals that are deterministic, stable, and scalable. Math, code, logic, and other verifiable domains became central because rewards in these settings are much stronger than generic preference supervision. They let RL optimize for correctness rather than plausibility. Infrastructure became critical.第一波推理模型告诉我们,若想在语言模型中规模化应用强化学习,我们就需要具备确定性、稳定性和可扩展性的反馈信号。数学、代码、逻辑及其他可验证的领域因此成为核心,因为在这些场景中,奖励信号远比一般的偏好监督更为有力。它们使强化学习能够专注于追求正确性,而非仅仅追求合理性。与此同时,基础设施也变得至关重要。Once a model is trained to reason through longer trajectories, RL stops being a lightweight add-on to supervised fine-tuning. It becomes a systems problem. You need rollouts at scale, high-throughput verification, stable policy updates, efficient sampling. The emergence of reasoning models was as much an infra story as a modeling story. OpenAI described o1 as a reasoning line trained with RL, and DeepSeek R1 later reinforced that direction by showing how much dedicated algorithmic and infrastructure work reasoning-based RL demands. The first big transition: from scaling pretraining to scaling post-training for reasoning.一旦模型经过训练能够推理更长的轨迹,强化学习便不再只是监督微调的一个轻量级附加组件。它……变成 一个系统性问题。你需要大规模部署、高吞吐量验证、稳定的策略更新以及高效的采样。推理模型的出现,其背后既涉及基础设施建设,也关乎建模本身。OpenAI 将 o1 描述为一种通过强化学习训练的推理模型,而 DeepSeek R1 后来进一步印证了这一方向,展示了——多少 针对基于推理的强化学习,需要专门的算法和基础设施工作。第一次重大转变:从扩大预训练规模转向扩大后训练规模以实现推理能力。2. The Real Problem Was Never Just "Merge Thinking and Instruct"真正的问题从来不仅仅是“融合思考与指令”。 At the beginning of 2025, many of us in Qwen team had an ambitious picture in mind. The ideal system would unify thinking and instruct modes. It would support adjustable reasoning effort, similar in spirit to low / medium / high reasoning settings. Better still, it would automatically infer the appropriate amount of reasoning from the prompt and context, so the model could decide when to answer immediately, when to think longer, and when to spend much more computation on a truly difficult problem.2025年初,我们Qwen团队的许多成员心中都描绘了一幅雄心勃勃的蓝图。理想的系统是将实现思维与指令模式统一,并支持可调节的推理力度,其理念类似于低/中/高三种推理设置。更棒的是,该系统能够根据提示和上下文自动推断出恰当的推理量:模型既能即时作答,也能选择深入思考,甚至在面对真正棘手的问题时,投入更多计算资源进行细致求解。Conceptually, this was the right direction. Qwen3 was one of the clearest public attempts. It introduced "hybrid thinking modes," supported both thinking and non-thinking behavior in one family, emphasized controllable thinking budgets, and described a four-stage post-training pipeline that explicitly included "thinking mode fusion" after long-CoT cold start and reasoning RL.从概念上讲,这是正确的方向。Qwen3是最清晰的公开尝试之一。它引入了“混合思考模式”,在一个模型家族中同时支持思考和非思考行为,强调可控的思考预算,并描述了一个明确包含“思考模式融合”的四阶段后训练流程,该流程位于长思维链冷启动和推理强化学习之后。But merging is much easier to describe than to execute well. The hard part is data. When people talk about merging thinking and instruct, they often think first about model-side compatibility: can one checkpoint support both modes, can one chat template switch between them, can one serving stack expose the right toggles. The deeper issue is that the data distributions and behavioral objectives of the two modes are substantially different.但融合比良好执行更容易描述。困难的部分是数据。当人们谈论融合思考与指令时,他们通常首先想到的是模型侧的兼容性:一个检查点能否同时支持两种模式,一个聊天模板能否在它们之间切换,一个服务栈能否暴露正确的切换开关。更深层的问题是,这两种模式的数据分布和行为目标存在本质差异。We did not get everything right when trying to balance model merging with improving the quality and diversity of post-training data. During that revision process, we also paid close attention to how users were actually engaging with thinking and instruct modes. A strong instruct model is typically rewarded for directness, brevity, formatting compliance, low latency on repetitive, high-volume enterprise tasks such as rewriting, labeling, templated support, structured extraction, and operational QA. A strong thinking model is rewarded for spending more tokens on difficult problems, maintaining coherent intermediate structure, exploring alternative paths, and preserving enough internal computation to meaningfully improve final correctness.我们在尝试平衡模型合并与提升训练后数据的质量和多样性时,并未完全做到尽善尽美。在这一修订过程中,我们还密切关注了用户如何实际参与具备思考与指导两种模式。在企业级任务中,例如重写、标注、模板化支持、结构化提取以及运营质量保证等重复性高、工作量大的场景,表现强劲的指导模型通常因其直接性、简洁性、格式合规性以及低延迟而受到青睐。而表现强劲的思考模型则因在解决难题时消耗更多标记、保持连贯的中间结构、探索多种备选路径,并保留足够的内部计算以切实提升最终结果的正确性而备受推崇。These two behavior profiles pull against each other. If the merged data is not carefully curated, the result is usually mediocre in both directions: the "thinking" behavior becomes noisy, bloated, or insufficiently decisive, while the "instruct" behavior becomes less crisp, less reliable, and more expensive than what commercial users actually want.这两种行为模式相互抵消。如果对合并后的数据不加以精心筛选,最终结果往往两头不讨好:所谓的“思考”型行为变得杂乱无章、臃肿不堪,或缺乏足够的决断力;而“指令”型行为则变得不够干脆利落、可靠性降低,且成本高于商业用户的需求。实际上想要。Separation remained attractive in practice. Later in 2025, after the initial hybrid framing of Qwen3, the 2507 line shipped distinct Instruct and Thinking updates, including separate 30B and 235B variants. In commercial deployment, a large number of customers still wanted high-throughput, low-cost, highly steerable instruct behavior for batch operations. For those scenarios, merging wasn't obviously a benefit. Separating the lines allowed teams to focus on solving the data and training problems of each mode more cleanly.分离在实践中仍颇具吸引力。2025年晚些时候,在Qwen3最初的混合框架之后,2507版本推出了独立的Instruct和Thinking更新版本,其中包括分别针对30B和235B参数量的变体。在商业部署中,大量客户仍然希望在批量操作中实现高吞吐、低成本且高度可操控的指令行为。对于这些场景,合并显然并不具备优势。将各条线分开,能让团队更清晰地专注于解决每种模式的数据和训练问题。Other labs chose the opposite route. Anthropic publicly argued for an integrated model philosophy: Claude 3.7 Sonnet was introduced as a hybrid reasoning model where users could choose ordinary responses or extended thinking, and API users could set a thinking budget. Anthropic explicitly said they believed reasoning should be an integrated capability rather than a separate model. GLM-4.5 also publicly positioned itself as a hybrid reasoning model with both thinking and non-thinking modes, unifying reasoning, coding, and agent capabilities; DeepSeek later moved in a similar direction with V3.1's "Think & Non-Think" hybrid inference.其他实验室则选择了截然不同的路径。Anthropic公开倡导一种集成式模型理念:Claude 3.7 Sonnet被定位为一种混合推理模型,用户可选择普通回复或深度思考模式,API用户还可设定思考预算。Anthropic明确表示,他们认为推理应当是一种集成化的能力,而非独立的模型。GLM-4.5同样公开将自身定位为一种混合推理模型,兼具思考与非思考两种模式,实现了推理、编码及智能体能力的统一;DeepSeek随后也朝着类似方向迈进,其V3.1版本推出了“思考与非思考”混合推理功能。The key question is whether the merge is organic. If thinking and instruct are merely co-located inside one checkpoint but still behave like two awkwardly stitched personalities, the product experience remains unnatural. A truly successful merge requires a smooth spectrum of reasoning effort. The model should be able to express multiple levels of effort, and ideally choose among them adaptively. GPT-style effort control points toward this: a policy over compute, rather than a binary switch.关键问题在于,这种融合是否是自然有机的。如果思维与指令仅仅被安置于同一个检查点内,却仍表现为两种生硬拼接的个性,那么产品的用户体验将依然显得不自然。真正成功的融合,需要实现推理努力的平滑连续变化。模型应当能够表达不同层次的推理强度,并且最好能自适应地在这些层次之间做出选择。GPT式的努力控制正朝着这一方向迈进:它采用的是对计算资源的策略性调控,而非简单的二元开关。3. Why Anthropic's Direction Was a Useful Corrective为什么Anthropic的方针是一种有益的纠正措施 Anthropic's public framing around Claude 3.7 and Claude 4 was restrained. They emphasized integrated reasoning, user-controlled thinking budgets, real-world tasks, coding quality, and later the ability to use tools during extended thinking. Claude 3.7 was presented as a hybrid reasoning model with controllable budgets; Claude 4 extended that by allowing reasoning to interleave with tool use, while Anthropic simultaneously emphasized coding, long-running tasks, and agent workflows as primary goals.Anthropic围绕Claude 3.7和Claude 4的公开表述是克制的。他们着重强调了整合推理、用户可控的思维预算、真实世界任务、代码质量,以及后期在长时间思考过程中使用工具的能力。Claude 3.7被定位为一种具备可控预算的混合推理模型;Claude 4则在此基础上进一步拓展,允许推理与工具使用相互交织。与此同时,Anthropic还特别强调了编码、长期运行任务以及智能体工作流作为其主要目标。Producing a longer reasoning trace doesn't automatically make a model more intelligent. In many cases, excessive visible reasoning signals weak allocation. If the model is trying to reason about everything in the same verbose way, it may be failing to prioritize, failing to compress, or failing to act. Anthropic's trajectory suggested a more disciplined view: thinking should be shaped by the target workload. If the target is coding, then thinking should help with codebase navigation, planning, decomposition, error recovery, and tool orchestration. If the target is agent workflows, then thinking should improve execution quality over long horizons rather than producing impressive intermediate prose.生成更长的推理轨迹并不会自动使模型变得更智能。在许多情况下,过多的显式推理信号反而会导致分配效率低下。如果模型试图以同样冗长的方式对所有内容进行推理,它很可能无法合理 prioritization,无法有效压缩,也无法采取行动。人类的 轨迹表明,一种更严谨的视角更为恰当:思考应以目标工作量为导向。如果目标是编写代码,那么思考就应有助于代码库导航、规划、分解、错误恢复以及工具编排。如果目标是代理工作流,那么思考的重点应放在提升长期执行质量上,而非追求令人惊艳的中间成果。This emphasis on targeted utility points toward something larger: we are moving from the era of training models to the era of training agents. We made this explicit in the Qwen3 blog, writing that "we are transitioning from an era focused on training models to one centered on training agents," and linking future RL advances to environmental feedback for long-horizon reasoning. An agent is a system that can formulate plans, decide when to act, use tools, perceive environment feedback, revise strategy, and continue over long horizons. It is defined by closed-loop interaction with the world.这种对目标导向型实用性的强调,指向了一个更为宏大的趋势:我们正从模型训练时代迈向智能体训练时代。我们在Qwen3博客中明确指出:“我们正在从一个以模型训练为核心的时代,转型为以智能体训练为核心的时代”,并把未来的强化学习进展与环境反馈相结合,以支持长时程的推理能力。所谓智能体,是一种能够制定计划、决定行动时机、运用工具、感知环境反馈、调整策略,并在长周期内持续运行的系统。它之所以与众不同,就在于其与外界之间形成了闭环互动。4. What "Agentic Thinking" Really Means“智能体式思考”的真正含义 Agentic thinking is a different optimization target. Reasoning thinking is usually judged by the quality of internal deliberation before a final answer: can the model solve the theorem, write the proof, produce the correct code, or pass the benchmark. Agentic thinking is about whether the model can keep making progress while interacting with an environment.“智能体式思考”是一种不同的优化目标。推理思维通常以最终答案之前的内部推敲质量来衡量:模型能否解出定理、写出证明、生成正确的代码,或通过基准测试。而“智能体式思考”则关注的是,模型在与环境交互的过程中能否持续取得进展。The central question shifts from "Can the model think long enough?" to "Can the model think in a way that sustains effective action?" Agentic thinking has to handle several things that pure reasoning models can mostly avoid: Deciding when to stop thinking and take an action Choosing which tool to invoke and in what order Incorporating noisy or partial observations from the environment Revising plans after failures Maintaining coherence across many turns and many tool calls Agentic thinking is a model that reasons through action. 核心问题从“模型能否思考足够长的时间?”转变为“模型能否以维持有效行动的方式进行思考?”。智能体式思考必须处理几件纯推理模型大多可以避免的事情: 决定何时停止思考并采取行动 选择调用哪个工具以及调用顺序 融入来自环境的噪声或部分观测数据 在失败后修订计划 在多次轮次和多次工具调用中保持连贯性 智能体式思考是一个通过行动进行推理的模型 5. Why Agentic RL Infrastructure Is Harder为什么智能体强化学习基础设施更难Once the objective shifts from solving benchmark problems to solving interactive tasks, the RL stack changes. The infrastructure used for classical reasoning RL isn't enough. In reasoning RL, you can often treat rollouts as mostly self-contained trajectories with relatively clean evaluators. In agentic RL, the policy is embedded inside a larger harness: tool servers, browsers, terminals, search engines, simulators, execution sandboxes, API layers, memory systems, and orchestration frameworks. The environment is no longer a static verifier; it's part of the training system.一旦目标从解决基准问题转向解决交互式任务,强化学习的架构便会发生变化。用于经典推理强化学习的基础设施已不足以应对这一需求。在推理强化学习中,你通常可以将采样轨迹视为大体自成一体的路径,并配备相对清晰的评估器。而在代理强化学习中,策略被嵌入一个更大的框架之中:工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API层、内存系统以及编排框架。此时,环境不再只是静态的验证者;它已成为训练系统的一部分。This creates a new systems requirement: training and inference must be more cleanly decoupled. Without that decoupling, rollout throughput collapses. Consider a coding agent that must execute generated code against a live test harness: the inference side stalls waiting for execution feedback, the training side starves for completed trajectories, and the whole pipeline operates far below the GPU utilization you would expect from classical reasoning RL. Adding tool latency, partial observability, and stateful environments amplifies these inefficiencies. The result is that experimentation slows and becomes painful long before you reach the capability levels you are targeting.这会创建一个新的系统要求:训练与推理必须实现更彻底的解耦。若缺乏这种解耦,模型上线的吞吐量将大幅下降。试想一下,一个编码智能体需要针对实时测试框架执行生成的代码:推理端会因等待执行反馈而停滞不前,训练端则因缺乏已完成的轨迹而陷入饥饿状态,整个流水线的运行效率远低于基于经典推理的强化学习所预期的GPU利用率。如果再叠加工具延迟、部分可观测性以及有状态环境等因素,这些低效问题便会进一步加剧。其结果是,实验进度缓慢且充满痛苦,甚至在你尚未达到目标能力水平之前,就已经陷入困境。The environment itself also becomes a first-class research artifact. In the SFT era, we obsessed over data diversity. In the agent era, we should obsess over environment quality: stability, realism, coverage, difficulty, diversity of states, richness of feedback, exploit resistance, and scalability of rollout generation. Environment-building has started to become a real startup category rather than a side project. If the agent is being trained to operate in production-like settings, then the environment is part of the core capability stack.环境本身也正成为一类一流的研究工具。在SFT时代,我们痴迷于数据的多样性;而在智能体时代,我们则应痴迷于环境的质量:包括稳定性、真实性、覆盖范围、难度、状态多样性、反馈丰富度、抗过拟合能力以及 rollout 生成的可扩展性。环境构建已开始成为一个真正的创业领域,而不再仅仅是副业项目。如果智能体正在接受训练,以适应类似生产环境的运行场景,那么环境便成了核心能力栈的重要组成部分。6. The Next Frontier Is More Usable Thought下一个前沿是更易用的思维 My expectation is that agentic thinking will become the dominant form of thinking. I think it may eventually replace much of the old static-monologue version of reasoning thinking: excessively long, isolated internal traces that try to compensate for lack of interaction by emitting more and more text. Even on very difficult math or coding tasks, a genuinely advanced system should have the right to search, simulate, execute, inspect, verify, and revise. The objective is to solve problems robustly and productively.我的预期是,智能体式思考将成为思考的主导形式。我认为它可能最终取代大部分旧的静态独白式推理思考:那种因缺乏交互而通过输出越来越多文本来补偿的、过长的、孤立的内部轨迹。即使在非常困难的数学或编码任务上,一个真正先进的系统也应该有权进行搜索、模拟、执行、检查、验证和修订。目标是稳健且高效地解决问题。The hardest challenge in training such systems is reward hacking. As soon as the model gets meaningful tool access, reward hacking becomes much more dangerous. A model with search might learn to look up answers directly during RL. A coding agent might exploit future information in a repository, misuse logs, or discover shortcuts that invalidate the task. An environment with hidden leaks can make the policy look superhuman while actually training it to cheat. This is where the agent era becomes much more delicate than the reasoning era. Better tools make the model more useful, but they also enlarge the attack surface for spurious optimization. We should expect the next serious research bottlenecks to come from environment design, evaluator robustness, anti-cheating protocols, and more principled interfaces between policy and world. Still, the direction is clear. Tool-enabled thinking is simply more useful than isolated thinking, and has a far better chance of improving real productivity.训练这类系统时,最棘手的挑战便是奖励作弊。一旦模型获得了有意义的工具访问权限,奖励作弊便会变得愈加危险。具备搜索功能的模型可能会在强化学习过程中直接查找到答案;编码智能体则可能利用仓库中的未来信息、滥用日志,或发现一些能轻易绕过任务要求的捷径。如果环境中存在隐蔽漏洞,智能体看似表现得超凡脱俗,实则是在被训练去作弊。正因如此,智能体时代比推理时代更加微妙和复杂。更强大的工具让模型变得更加有用,但同时也扩大了虚假优化的攻击面。我们应预期,下一阶段的重大研究瓶颈将来自环境设计、评估器的鲁棒性、反作弊机制,以及策略与世界之间更具原则性的接口。尽管如此,方向已然明确:借助工具的思维模式远比孤立的思考更有价值,也更有可能切实提升生产力。Agentic thinking will also mean harness engineering. The core intelligence will increasingly come from how multiple agents are organized: an orchestrator that plans and routes work, specialized agents that act like domain experts, and sub-agents that execute narrower tasks while helping control context, avoid pollution, and preserve separation between different levels of reasoning. The future is a shift from training models to training agents, and from training agents to training systems.智能体式思考也将意味着对工程的驾驭。核心智能将越来越多地源自于多个代理的组织方式:一位负责规划与调度工作的统筹者,一群充当领域专家的专业代理,以及一群执行更具体任务、同时协助控制上下文、避免干扰并保持不同层次推理之间隔离性的子代理。未来,我们将从训练模型转向训练代理,再进一步从训练代理转向训练系统。Conclusion结语 The first phase of the reasoning wave established something important: RL on top of language models can produce qualitatively stronger cognition when the feedback signal is reliable and the infrastructure can support it.推理浪潮的第一阶段确立了一项重要发现:在语言模型之上应用强化学习,当反馈信号可靠且基础设施能够支撑时,可产生质量上更强大的认知能力。The deeper transition is from reasoning thinking to agentic thinking: from thinking longer to thinking in order to act. The core object of training has shifted. It is the model-plus-environment system, or more concretely, the agent and the harness around it. That changes what research artifacts matter most: model architecture and training data, yes, but also environment design, rollout infrastructure, evaluator robustness, and the interfaces through which multiple agents coordinate. It changes what "good thinking" means: the most useful trace for sustaining action under real-world constraints, rather than the longest or most visible one.深层次的转变是从推理式思维转向行动式思维:从更长时间的思考,转变为为了采取行动而进行的有序思考。培训的核心对象也随之发生了变化——如今,关注的焦点已不再是单纯的模型本身,而是“模型+环境”这一系统,更具体地说,是智能体及其周围的生态系统。这使得哪些研究成果最为关键也发生了改变:固然,模型架构和训练数据依然至关重要;但与此同时,环境设计、部署基础设施、评估器的稳健性,以及多个智能体之间协同互动所依赖的各类接口,也都变得同样重要。这也重新定义了“良好思考”的含义:在现实世界的约束条件下,最能持续推动行动的有效轨迹,而非单纯追求最长或最显眼的轨迹。It also changes where the competitive edge will come from. In the reasoning era, the edge came from better RL algorithms, stronger feedback signals, and more scalable training pipelines. In the agentic era, the edge will come from better environments, tighter train-serve integration, stronger harness engineering, and the ability to close the loop between a model's decisions and the consequences those decisions produce.它也改变了竞争优势的来源。在推理时代,优势来自更优秀的强化学习算法、更强的反馈信号以及更高的可扩展性。训练流水线。在智能体时代,优势将来自更优质的环境、更紧密的训练与服务一体化、更强大的模型约束工程,以及实现模型决策与其所产生后果之间闭环的能力。 -
OpenAI果断砍掉"成人模式",死磕生产力 财联社3月27日讯(编辑 牛占林)OpenAI已无限期搁置在ChatGPT中推出“成人模式”的计划,并将战略重心重新聚焦于核心产品。此前,公司内部员工及投资者对“AI色情内容”可能带来的社会影响表达了担忧。据多位知情人士透露,OpenAI首席执行官奥尔特曼原本已因内部讨论而推迟其所谓“成人模式”的发布,目前甚至在考虑是否彻底取消该计划。实际上,该功能的上线已被推迟过一次,从原定的12月推迟至今年第一季度。目前,ChatGPT的用户规模已超过9亿人。随着外界担忧升温,这一情色聊天机器人项目面临越来越多反对声音,包括其可能加剧用户对AI的情感依赖,以及使未成年人接触不当性内容的风险。OpenAI方面也确认,该成人模式目前已被搁置,且没有明确的推出时间表。这家估值达7300亿美元的AI公司表示,希望在产品开发过程中开展长期研究,评估性相关对话和情感依附的影响,并承认目前尚缺乏相关的“实证证据”。这一决定也标志着OpenAI进一步放弃公司高管所称的“支线任务”,转而集中资源打造生产力工具,推动将编程助手、ChatGPT等产品整合为一个“超级应用”。值得注意的是,将停止运营其曾风靡一时的Sora AI视频应用。该公司表示,此举旨在聚焦业务重心,并优化人力与算力资源配置。在当前背景下,该成人模式尤为敏感。与此同时,包括Meta在内的社交媒体公司正因其产品对未成年人的潜在伤害面临法律追责。此前,马斯克旗下的xAI曾大力推动成人内容以吸引用户,但其Grok模型因生成包括未成年人在内的真实人物虚假性图像而引发了全球范围的强烈反对。这一矛盾凸显出OpenAI所面临的双重压力:一方面需要在激烈竞争中提升用户活跃度、开辟增长空间;另一方面又必须应对伦理与声誉风险,尤其是在产品逐渐模糊工具属性与情感依赖边界的情况下。据两位知情人士称,OpenAI涉足成人模式的尝试曾引发部分投资者不安,因为此类产品风险较高、商业回报却相对有限。此外,该项目也在员工内部引发争议,一些人质疑,推动鼓励“类恋爱用途”的产品,是否背离公司“让AI造福全人类”的初衷。一位前高级员工表示:“AI不应取代你的朋友或家人,人类之间的真实连接才是关键。”该人士称,这一问题也是其离职原因之一。除社会影响方面的担忧外,该项目在技术层面也面临挑战。知情人士称,OpenAI在训练模型方面遇到困难——这些模型此前出于安全考虑被设计为回避相关内容,如今却需要生成明确的性内容。此外,使用包含性内容的数据集也带来问题,例如需要剔除非法行为等。 -
快手:1年赚了206亿 3月25日,快手发布2025年第四季度及全年财报。 2025年营收1427.8亿,同比增长12.5%;经营利润206.4亿,同比增长35%;经调整净利润206.5亿,同比增长16.5%。利润增速整体高于收入增速,说明快手的盈利能力在提升。 同时,快手的用户基本盘保持稳定,2025年日活4.1亿、月活7.2亿,但同比增幅均为个位数。不过,单个用户的变现效率有所提升,每个日活用户带来的营销收入同比上涨了17.3元。 分业务来看,三大业务表现不一: 线上营销服务仍是顶梁柱,贡献着57%的收入,同比增长12.5%,这一增速比上一年同期有所下降; 曾经的现金牛直播业务增长明显放缓,仅涨了5.5%,收入占比降至27%; 包括电商和可灵AI在内的其他服务业务是最大亮点,增速达到了27.6%,收入占比为15.5%。 具体来说,快手电商2025全年GMV突破1.6万亿,增长15%,2025年Q4动销达人翻倍,带货主播生态活跃度有所提升。 可灵AI则是本次财报中的最大亮点。Q4单季营收3.4亿,12月单月突破2000万美元,年化ARR达2.4亿美元。 作为较早落地的视频生成模型,可灵AI在技术迭代上节奏较快,但当前AI视频赛道竞争日趋激烈,其领先优势能否持续,仍存在较大不确定性。 至于其海外业务,虽然2025年的经营亏损从9.3亿收窄到0.76亿,接近盈亏平衡,但收入规模仅为国内的1/27,对整体大盘的贡献依然有限。 整体而言,快手的这份财报释放了一些好消息,AI业务也持续带来收入,不再停留在概念阶段。但直播业务放缓、海外盘子太小,叠加AI业务竞争加剧带来的不确定性,将影响其在2026年的整体表现。 (策划:王璐,制图:李昱慧) -
OpenAI关停Sora,AI开始“算账” 文 | 高恒说3月24日,OpenAI宣布关停AI视频生成产品Sora,这款上线仅6个月、曾登顶App Store的现象级应用,将连同App、API及原计划接入ChatGPT的视频能力一并下线。这件事的反常之处在于,Sora并不是一个失败产品:它上线10天下载破百万,峰值达到约333万,但整个生命周期内收入只有约210万美元。当一款“用户喜欢但赚不到钱”的AI产品,被一家刚完成1100亿美元融资、准备IPO的公司主动放弃,问题就不再是产品本身,而是增长逻辑开始发生变化。一个更清晰的信号正在出现:AI行业正在从“能力优先”,转向“变现优先”,不是所有看起来很先进的技术,都值得被继续投入。01:一款爆火产品,为什么被主动放弃 如果只看产品表现,Sora很难被归类为“失败案例”。2025年9月上线后,这款AI视频生成工具在极短时间内完成了冷启动:10天下载量突破100万,一度登顶App Store免费榜,峰值下载达到约333万次。从传播效果看,Sora几乎是继ChatGPT之后,OpenAI在消费者端最具话题性的产品之一。它的技术能力也没有明显短板。相比此前的文生视频工具,Sora在画面连贯性、真实感和叙事能力上都有明显提升,用户可以直接生成接近影视级质感的短视频,这也是它在上线初期迅速出圈的核心原因。OpenAI甚至一度为其引入内容生态资源,2025年12月与迪士尼达成10亿美元投资及角色授权合作,允许用户调用漫威、星球大战等IP进行创作,试图把Sora推向“AI内容平台”的位置。如果按传统互联网产品逻辑,这样的路径是成立的:技术突破→ 用户增长 → 内容生态 → 商业化。但Sora的问题恰恰出在最后一步。这款产品的商业模型几乎没有跑通。移动分析机构Appfigures的数据披露Sora整个生命周期内的应用内购收入只有约210万美元。而其背后的算力消耗却极其惊人,视频生成是当前最消耗计算资源的AI任务之一,单次生成成本远高于文本或图片,在用户规模上来之后,每天的算力支出可以达到数百万美元级别。这意味着一个非常直接的结果:用户越多,亏损越大。这种“增长反而放大亏损”的结构,使得Sora很难像ChatGPT那样,通过订阅或增值服务形成稳定现金流。即便它一度具备爆款特征,但商业上更接近一个“高成本的演示产品”,而不是一门可以规模化复制的生意。更重要的是,用户侧的热度也没有持续。移动分析机构Appfigures数据显示,Sora下载量在2025年11月达到333万次峰值后迅速回落,到2026年2月已降至约113万。同时,为了控制成本和合规风险,平台对生成次数进行限制,并加强对deepfake内容的管控,这在一定程度上进一步压制了用户活跃度。换句话说,Sora面临的是一个双向收缩:一边是成本无法下降,另一边是使用体验受限,用户增长开始失速。在这种情况下,OpenAI的选择就变得可以理解。公司不仅关停了Sora的独立应用,还同步取消API服务,以及原计划整合进ChatGPT的视频能力。这不是一次单点产品调整,而是一次明确的资源回收:把算力和团队,从一个“消耗大、回报慢”的方向,转移到更核心的业务上。一个细节可以说明这种转向的彻底性。据媒体报道,OpenAI CEO Sam Altman 在内部会议中表示,将把资源聚焦于核心业务,包括 ChatGPT、企业级工具、编程助手 Codex 以及计划中的“超级应用”,而非“分散注意力的副本任务”。原Sora 研究团队将转向“世界模拟研究”,重点支持机器人和真实世界物理任务,而非消费级视频生成。因此,Sora的退出,本质上不是一次产品层面的失败,而是一次典型的资源配置决策。02:OpenAI为什么必须“收缩”:不是选择,而是被逼的 Sora被关停本质上是OpenAI正在为过去一年的“扩张策略”付出代价。2025年,是OpenAI产品线扩张最激进的一年。除了视频生成模型Sora,公司还在推进AI浏览器Atlas、与Jony Ive合作的硬件项目、ChatGPT电商功能等多个方向。Altman曾把这种打法形容为“在公司内部押注一系列创业项目”,试图在AI时代的多个入口同时卡位。这套逻辑在当时并非没有道理。ChatGPT拥有9亿周活跃用户基础,OpenAI也具备领先的模型能力,从直觉上看,“多点开花”有助于扩大生态边界。但问题在于,AI行业的核心资源不是人力,而是算力,而算力在现阶段是高度稀缺且昂贵的。当多个项目同时推进,资源被不可避免地分散。据媒体报道,多位现任和前任员工反映,过多的并行项目导致战略方向模糊,算力资源在团队之间频繁调拨。组织架构也愈发混乱,比如Sora团队被放在研究部门下面,但它实际上在负责公司最受关注的产品之一。在这种情况下,“什么都做”很容易变成“每件事都做不深”。真正的转折,来自外部竞争的变化。过去一年,Anthropic在企业市场和编程场景的快速崛起,对OpenAI形成了直接压力。金融科技公司Ramp数据显示,截至2026年2月,在首次采购AI工具的企业中,Anthropic占据约73%的支出份额,而OpenAI仅约27%;在整体企业AI订阅市场,OpenAI虽然仍以34.4%领先,但Anthropic的增速明显更快,2026年2月其月环比增长为4.9%,同期OpenAI则出现1.5%的下滑。差距最明显的是Coding这一高价值赛道。根据Menlo Ventures报告,Anthropic的Claude Code已经占据约54%的编程市场份额,而OpenAI仅约21%。这款产品在发布六个月后就实现了10亿美元年化收入,到2026年2月已超过25亿美元。更关键的是,它不仅服务开发者,还在向非技术人群扩展,形成更广泛的生产力工具。对比来看,Anthropic的策略非常单一:不做视频、不做图像、不做硬件,只聚焦文本、代码和企业场景,把有限的算力全部投入到回报率最高的方向。而OpenAI在多个方向分散投入,反而削弱了在核心赛道上的优势。这意味着,竞争的逻辑已经发生变化。AI行业不再只是“谁的模型更强”,而是“谁能把模型变成稳定收入”。在这种背景下,OpenAI内部开始重新定义优先级。2026年3月16日,应用业务CEO Fidji Simo在全员会议上直言,“我们不能因为被副本任务分心而错过这个时刻,我们必须在生产力方面,特别是企业生产力方面做到极致。”如果说竞争压力改变了方向,那么资本压力则进一步压缩了选择空间。2026年2月,OpenAI完成总计1100亿美元的融资,投前估值7300亿美元,成为历史上融资规模最大的未上市公司之一。但高估值背后,是同样惊人的亏损。据外媒报道,2025年公司收入约131亿美元,但亏损约80亿美元;到2026年,预计亏损将扩大至250亿美元,预计最早在2030年代才能盈利,现金消耗率高达83.3%。与此同时,这轮融资附带大量条件,例如Amazon的350亿美元资金需要在实现AGI或完成IPO后才能到账。这使得OpenAI必须在短期内证明自身的盈利路径。在这样的约束下,资源配置的逻辑变得非常直接:优先支持能够快速产生收入、且可以规模化复制的业务。对比之下,Sora所在的视频生成方向,恰恰处于另一端:成本高、变现弱、合规复杂、且短期难以形成稳定现金流。因此,关停Sora并不是一个孤立决策,而是整个战略收缩的一部分。03:从Sora到Coding,AI行业开始进入“算账时代” 如果把Sora的关停放在更大的时间尺度里看,它真正标志的,不是一款产品的结束,而是AI行业运行逻辑的一次切换。过去两年,AI行业的核心叙事只有一件事:能力不断突破。从文本到图像,再到视频,多模态模型不断刷新上限,“能不能做出来”几乎是评价一切的标准。只要技术成立,哪怕成本高、路径不清晰,也会被视为值得投入的方向。Sora正是这种阶段的典型产物,它代表的是能力边界,而不是商业边界。但现在,一个更现实的约束开始显现:算力不再是可以无限投入的资源。无论是模型训练还是推理调用,AI系统的每一次输出,本质上都在消耗真实成本。和传统互联网产品不同,AI并不存在“边际成本趋近于零”的规模效应,相反,在高复杂度任务(如视频生成)中,边际成本反而显著上升。这意味着,不是所有用户增长,都能转化为利润增长。当这一点被反复验证之后,行业的评价体系开始发生变化:从“这个能力有多强”,转向“这项能力的单位成本能否被收入覆盖”。在这个新标准下,不同方向的分化开始迅速拉开。知名科技产业时评人彭德宇对我们分析到,一类是以视频生成、多模态内容为代表的方向,它们在技术展示上最具冲击力,但同时也最“烧钱”,对算力和带宽的消耗远高于文本类任务,且用户付费意愿相对有限。这类产品更容易成为爆款,却很难成为稳定业务。另一类是以编程、文档处理、企业自动化为代表的生产力场景,它们的技术形态看起来并不“惊艳”,但具有两个更关键的特征:一是使用频率高,二是可以直接嵌入企业流程,替代真实人力成本。这使得它们更容易形成清晰的付费逻辑,并在短时间内建立收入规模。这也是为什么,过去一年AI行业的重心,正在从“内容生成”转向“生产力工具”。前者解决的是“用户觉得有趣”,后者解决的是“企业愿意付钱”。当行业开始用同一套标准去衡量不同方向时,结果就会变得非常明确:不是最先进的能力获得最多资源,而是最先跑通商业模型的能力获得最多资源。这种变化,本质上意味着AI正在从“技术周期”进入“商业周期”。在技术周期中,核心问题是突破边界,允许试错,甚至鼓励冗余投入;而在商业周期中,核心问题变成效率,需要收敛,需要排序,也需要放弃。Sora的意义正在于此。它并不是一个个例,而更像是一种“被验证过但暂时不成立”的路径:技术上可行,需求上存在,但在当前成本结构下,不具备规模化盈利的条件。因此,它被放弃,并不意味着这个方向永远不重要,而是意味着,在当前阶段,它还不值得成为主线。如果把这一逻辑再往前推一步,可以看到一个更清晰的趋势:AI公司的竞争,正在从“谁的模型更强”,转向“谁能把算力变成收入”。在这个过程中,模型能力仍然重要,但它不再是唯一变量。真正决定胜负的,是如何在算力成本、产品形态和商业模式之间建立稳定关系。从这个角度看,Sora的结束,标志着一个更具体的变化:AI不再是一个只讲“可能性”的行业,而开始变成一个必须讲“账算不算得过来”的行业。而一旦进入这个阶段,类似的取舍不会只发生一次。 -
智能体互联网:雏形已现,新题待解 来源:光明日报 不久前,“AI点奶茶”登上热搜——用户只需一句话,选品页面自动弹出,下单瞬间完成。 它是如何工作的?这背后的逻辑又是什么呢?“不是某个App变聪明了,而是一群AI智能体(能够感知环境、自主决策并采取行动以实现特定目标。它不仅是工具,更是具备自主性、适应性、交互性和学习能力的“数字员工”。)在替你‘跑腿’:一个负责‘听懂’你的需求,一个去购物平台找商品,一个在支付系统里完成核验……它们是密切协作的一支团队,让你从重复琐碎的‘操作’中解放出来,只需给出指令,就能坐等结果。”在北京邮电大学计算机学院信息网络中心教授马严看来,“AI点奶茶”,正是“智能体互联网”的雏形。而在专家眼里,智能体互联网早已不是什么遥不可及的概念,在现实已有很多应用。互联网域名管理技术国家工程实验室副主任李洪涛打了个比方:“如果说过去的互联网连接的是人与人、人与信息,那么智能体互联网连接的,是一群能独立干活的‘数字员工’。”不过,这条路才刚刚开始。清华大学教授、中国教育和科研计算机网络中心副主任李星抛出了一个令人深思的问题——如果某个智能体突然做了一件奇怪的事,你怎么判断它是出现了幻觉,还是被黑客控制了?这道坎怎么迈过去?日前举办的国际互联网工程组织(IETF)第125届大会上,如何实现不同智能体互联互通,如何保证它们不越界,成为全球技术专家热议的焦点——而这,也是智能体能否真正走进我们生活的关键一步。万物互联新成员,“它们”和“我们”成了邻居如今,物联网已走进日常,冰箱可以提醒补货、洗衣机能够远程启动,物理设备接入网络,成了我们身边的小帮手。而ChatGPT、DeepSeek等生成式人工智能的出现,让互联网正式迈入智能体互联网的新阶段。智能体互联网不是推翻过去的互联网,而是在TCP/IP协议这个“通用语言”基础上的全新升级。互联网域名系统国家地方联合工程研究中心主任毛伟打了个通俗的比方:“TCP/IP协议是我们共同的语言,智能体互联网不是换一种语言,而是用这门语言创作新的文章。”它的核心,就是让“智能体”成为核心交互对象——可以和人沟通,能对接各类工具,还能和同类协同工作。而它最特别的地方,就是有自主思考、主动感知、自己动手执行的能力,像一个个靠谱的“数字员工”,既能自己独当一面,也能组队一起干活。这样的“数字员工”,早已走出实验室,实现跨平台、跨系统协作。位于南京的永宁青虾养殖基地,一套完整的数字化系统正自主运行:水下传感器实时感知水温、溶氧、pH值等关键指标,数据自动上传至“渔业云”平台;当溶氧值低于安全阈值时,系统无需人工干预,自动启动增氧机;无人机按规划路径完成精准投饵与水质巡检,效率较人工提升8至10倍,人力成本降低60%。从池塘到餐桌,加工仓储环节的温湿度监测、冷链物流车的轨迹与温湿度记录,全部纳入可追溯链条。这是智能体互联网在农业领域的一次落地。在这里,传感器、增氧设备、无人机、追溯系统等,都已不再是简单的工具,而是能够自主感知、决策、执行的“数字员工”。它们彼此协作,共同服务于终端消费者。“这是互联网领域的一场革新,工业、农业、交通、医疗等领域都将拥有全天候、高效率的AI助手。以前互联网的居民是‘我们’,现在互联网的居民还有‘它们’。”毛伟说。中国电信从2023年起研发网络大模型,现在已在内部网络运维场景部署了超过1000个“数字员工”——每个都是专为特定任务设计的AI智能体,有的负责专盯网络故障,有的优化流量,有的处理设备运维指令。“我们今年还将打造8个‘超级数字员工’,能调度多个普通数字员工,协作完成过去需要一整个专家团队才能处理的复杂任务。”中国电信首席专家、云网操作系统技术副总师孙琼说。各说各话的智能体,谁来当“翻译”“这下总该顺了吧?”北京国贸的一栋写字楼里,小李刚用智能体处理完订单数据,生成了一份备货清单。他想把清单迁移到另一个智能体上对接物流系统,结果弹窗提示:协议不匹配,无法协同。试了几次都不行,小李只好手动导出数据,一步步操作。“明明都是智能体,怎么就不能好好聊两句呢……”小李的经历是当下智能体协议标准不统一的真实写照。它们各有各的协议,都只适配自身的生态。以国内为例,百度、字节、阿里虽都布局了MCP(智能体与外部资源连接协议),但当跨平台协作时,总得额外开发适配。“这正是智能体互联网从单点应用走向规模化普及的掣肘因素之一。”李星直言,“智能体互联网目前还处于试错期,而试错的核心,就是探索一套能被全世界自愿采用的通用标准。技术过硬只是基础,能否被广泛认可、自愿采用,才是标准建立的关键。”好在,越来越多参与者投身到这场“试错”中。本届IETF大会上,华为就主导发起了一个“兴趣小组”,目标是推动不同厂商的智能体跨系统“互相打招呼”,建立一套通用的通信协作框架;中国电信也同步提出了物理智能体协议草案,研究智能体如何通过传感器、摄像头感知现实环境的接入协议。大家的探索直接指向了智能体互联网的核心特质——交互。“无论是智能体之间的跨系统协作,还是智能体与现实世界的连接,都离不开高效、规范的交互。而要交互,就需要统一的智能体标识。”中国互联网络信息中心高级工程师岳巧丽打了个比方,所谓智能体标识就像身份证,是实现交互的基础。为破解这一难题,我国领头推出了“智能体域名系统”。“该系统就像是给智能体配了‘身份证’‘许可证’和‘导航仪’。”李洪涛解释说,“身份证”是智能体的专属标识,以确保在海量智能体中能精准区分、不出现混淆;“许可证”则是规范智能体的“许可服务范围”,规定它能提供哪些服务、禁止哪些操作;“导航仪”就是明确它在网络中的位置,让其他智能体能够找到并调用它。这套系统的推出,为智能体的身份标识与规范交互,提供了切实可行的解决方案。AI能干活了,我们能信它几分智能体互联网的快速发展,让人们充满期待。可谁也没想到,最近火起来的“AI养龙虾”,反倒先给行业泼了盆冷水。这款AI智能体能主动连通QQ、微信等应用,还能自主操作,活脱脱就是专家口中智能体互联网的雏形。可热闹还没散场,问题就接二连三冒了出来——“银行卡被盗”“隐私泄露”“AI投毒”……热搜上的“养龙虾”,转眼成了“养风险”。一边是技术跑得飞快,一边是隐患悄悄跟上。不少人看着这场热潮,心里也开始犯嘀咕:这样的智能体互联网,到底能不能让人放心?“这是智能体互联网发展中,必须直面的情况。”李星分析,“智能体系统有‘幻觉’,它可能给出一个言辞肯定却完全错误的结果。而黑客完全可以利用这一特性,伪装成幻觉来干坏事。”更难的是,智能体的不确定性更高。“物联网的传感器出了问题,你很容易发现异常,它具有确定性。但智能体是‘黑箱’,能力强、不确定性高,所以这事儿带来非常大的挑战。”李星进一步解释。除了“AI幻觉”带来的攻击风险,隐私泄露也是智能体互联网时代的一大痛点。“隐私保护,不仅要靠技术,用户也要树立隐私意识。”李星说,“如果把每个智能体当成独立的外包人员,你把活外包出去,得清楚哪些信息能说、哪些不能说,像银行账号这种核心信息,肯定不能随便告诉AI。”技术漏洞与隐私风险的背后,还有一个更深层的问题——私有协议的壁垒。毛伟直言:“目前很多企业内部的智能体协作,用的都是私有协议,自成体系,出了自家门就无法对接。用户被困在一个个‘信息烟囱’里,没有选择空间。”当前的行业现状,是不同国家、机构都在探索自己的标准体系。李星认为:“要打破这些桎梏,需要在技术上实现可扩展、可开放、可过渡,最终达到标准的相对统一。”未来已来,想象加速2021年Facebook全球大断网,起因就是BGP(互联网核心路由协议之一)路由故障。以往,排查这类故障,需要好几个领域的专家耗很久才能弄明白。随着智能体的出现,中国科学院计算机网络信息中心搭建了一套多智能体协作系统,模拟专家协作流程:由一个“指挥智能体”统筹分析,调度多个专业智能体工作,经过200多个路由故障案例的模拟测试,系统诊断准确率约达87%,从头到尾分析只要3分钟。可见,虽然现在的智能体互联网,存在标准不一、安全待考、协议壁垒重重等问题,但它也蕴含着无限的潜在价值。在采访中,专家们一致认为,这是AI和互联网发展的必然趋势。“未来的智能体互联网,将打破所有场景壁垒,实现真正的全域无界协同。”马严说,以后,无论是工业车间的机械臂智能体、城市交通的调度智能体,还是医疗领域的诊断智能体,都能在通用标准框架下自主组队协作。他进一步畅想:“将来,智能体可以通过脑机接口感应脑电波,将指令输入系统中,就能像人一样通过摄像头这双‘眼睛’去感知现实空间,最终与人进行交互。”届时,科幻小说的情节将不再是天方夜谭:森林里的防火智能体能通过环境传感器捕捉温度、湿度变化,结合卫星影像识别火情隐患,自主调度无人机巡查并启动灭火装置;城市里的环保智能体能实时监测空气质量、水质数据,联动环卫智能体调整清洁路线,协同工厂智能体优化排污方案。“对智能体的想象,最终都指向同一个目标:让所有智能体真正互联互通,不管来自哪个平台、哪个领域,都能像人一样顺畅协作。当然,我们也要为智能体协作制定标准,规范智能体的行为。”马严说。或许未来,智能体还可以通过感知设备理解人类情感,实现意识层面的共情与交流……人类无需语言或操作,只需一个想法,就能让智能体捕捉并转化为行动——想探索深海秘境,海洋探测智能体能自主调度设备,将实时画面通过意识交互传递至人类脑海;想攻克科研难题,智能体能联动全域算力,将分析过程与核心思路直接植入人类意识……这条正在修建的“数字高速公路”,终将改变我们和世界交互的方式,开启一个全新的智能时代。(本报记者 崔兴毅 王美莹 本报通讯员 王舒禾)