中国团队造的AI会“摸”东西还会自己懂概念?
- AI
- 10小时前
- 9热度
咱平时用的AI,能认图、能聊天,甚至能写文章,但你要是问它“这东西为啥是杯子”,它大概率只会说“这是训练集里标过的杯子”,说不出半点儿实在道理。说白了,它只会“算”,不会“懂”,就像个死记硬背的学生,背会了答案,却没搞懂问题的本质。
最近中科院自动化研究所和北京大学的团队,搞出了个叫CATS Net的双模块神经网络,头一回让AI能从视觉、触觉这些原始感官经验里,自己琢磨出“杯子是啥”的概念,不用人提前给它贴标签。这事儿可太颠覆了,直接把AI从“只会模仿”拉向了“真正理解”的赛道,咱今天就唠唠这背后的门道,还有这技术能给咱生活带来啥改变。

AI为什么一直懂个表面却不懂啥意思
咱先说说AI的老毛病。现在最火的大语言模型,读了互联网上几乎所有关于“猫”的文字,可它从没真正“见过”一只猫,没摸过猫的毛,没听过猫的叫,所以它眼里的“猫”,不过是一堆文字符号的组合。一旦给它看一只没见过的品种,或者换个角度拍的猫,它就容易认错,这就是典型的“有智能无常识”。
这背后藏着AI领域最难啃的骨头——符号接地问题。简单说,就是AI的“概念”和真实世界脱钩了。它学的是人工标注的标签,比如“猫、狗、杯子”,但这些标签是人为定义的,不是它自己从经验里长出来的。就像咱教小孩认东西,光说“这是杯子”没用,得让他摸一摸、装装水、摔一摔,他才懂“杯子”是啥。可传统AI没人教它这么干,只能靠海量标注数据硬记,成本高还不灵活。
有数据能印证这一点。据相关研究统计,超80%的AI应用都依赖人工标注,一旦遇到没标注过的陌生场景,准确率直接暴跌。比如工业质检里,传统AI认熟稔的零件没问题,可换个新款式、新材质的零件,就容易把次品判成良品,把良品判成次品,根本原因就是它没“懂”零件的核心概念,只是记了外观特征。

中国团队有新招,让AI跟小孩似的自己从看和摸里琢磨概念
中科院和北大的团队,就是冲着这个死结来的。他们搞出的CATS Net,核心是两个紧密配合的模块:概念抽象(CA)模块和任务求解(TS)模块,整个设计完全模拟了人类从“感知”到“认知”的过程。
咱用大白话讲明白它咋干活。比如让AI认“杯子”,传统AI是咱先告诉它“这是杯子”,它记下来;但CATS Net不一样,它先让AI通过摄像头“看”不同形状、不同颜色的杯子,再通过触觉传感器“摸”杯子的重量、手感,把这些高维的感官数据喂给CA模块。CA模块就像AI的“小脑”,把复杂的视觉、触觉信息,压缩成一个个紧凑的概念向量,自己总结出“能装水、能手持、不漏水”这些核心特征,这就是它自己“长”出来的“杯子概念”。
这些“概念向量”就像一把把钥匙,交给TS模块。TS模块拿着这把“钥匙”,通过分层门控机制调节自己的活动,去干具体活儿——比如判断“这是不是杯子”“这个杯子能不能装热水”。整个过程没有人工标签,全靠AI自己从感官经验里提炼概念,再用概念指导行动,和咱小孩学东西一模一样。
团队做的实验,更能说明这事儿的厉害。他们让CATS Net和传统模型一起认“桌子”,给AI看各种桌子,有长桌、圆桌、木桌、金属桌,还让它摸桌子的桌面和桌腿。结果传统模型认陌生长桌的认错率高达35%,而CATS Net只有8%。更牛的是,CATS Net还能自己说出“桌面平、桌腿稳、能放东西”的概念,而传统模型只会报个“桌子”的名字,说不出半点儿道理。
这还不算完,CATS Net还有个绝活——跨系统概念交流。它能自己生成大量新概念,形成专属的“概念库”,当两个独立训练的CATS Net把概念库对齐后,不用重新学习,就能直接传递知识。比如一个训练过“工业零件”的CATS Net,和一个训练过“医疗器材”的CATS Net对齐概念后,就能互相理解对方的领域知识,这是传统AI根本做不到的。

这波突破不只是技术厉害更是AI真开窍了
咱得说句实在的,CATS Net不是对现有AI的小修小补,而是一场**认知范式的革命**。之前的AI,本质是“统计学习”,靠算海量数据找规律;而CATS Net,是“经验认知”,靠和世界互动提炼概念,这才是真正接近人类智能的路子。
对比国际进展,咱中国团队走在了前面。欧美很多团队还在搞单感官学习,或者依赖预训练的语言符号,而CATS Net实现了多感官自主概念生成,还解决了AI概念无法互通的难题。这项研究发表在国际顶级期刊《自然·计算科学》上,连arXiv上的同行都评价,这是“向通用人工智能(AGI)迈出的关键一步”。
从实际应用看,这技术能解决咱生活里很多“痛点”。比如工业质检,传统AI只能认固定零件,CATS Net能让机器人通过视觉+触觉,自主理解新零件的概念,哪怕是刚研发的新品,也能精准判断好坏,质检效率提升不说,还能减少误判;再比如智能家居,AI能自己理解“舒适温度”“安全水位”的概念,不是靠预设指令,而是根据咱的使用习惯、感官反馈自动调整,更懂咱的需求;还有医疗辅助,AI能通过患者的影像、体征数据,自主生成“病理概念”,辅助医生诊断,比传统AI更靠谱。
更重要的是,CATS Net让AI更“透明”了。传统AI的决策像个“黑箱”,你只知道结果,不知道它咋想的;但CATS Net的概念向量是可解释的,咱能看到它是从哪些感官特征里提炼出概念的,比如它说“这是危险物品”,咱能看到它是因为“体积大、材质硬、有尖锐角”这些特征,心里有底,不会被“忽悠”。
权威数据来源
