您的当前位置: 首页 >> 科普园地 >> 前沿科技

手机里的超级大脑:端侧AI和它的“读屏术”

来源:科普中国  发布时间:2026-05-09  浏览:158

你有没有碰到过这种诡异的情况:在地下车库想用手机导航,信号只剩一格,语音助手直接罢工;或者在网上看到一张不认识的植物照片,想搜是什么,却不知道该用什么关键词。

但你的手机,其实正在悄悄学会一种新本领——即使完全断网,它也能听懂你说的话、看懂屏幕上的内容,甚至帮你完成不少复杂操作。

这项本领的背后,是一个正在走进每一部智能手机的技术:端侧AI。而它最让人惊艳的能力之一,就是“看懂屏幕”。

让AI住进手机,为什么那么难?

要理解端侧AI,我们先从它名字里的“端”说起。

你平时用的大部分AI功能——比如和ChatGPT聊天、用AI生成一张图片——实际上都不是在你手机上完成的。你的手机只负责把问题打包发送出去,由远方某个巨大数据中心里的超级计算机群完成计算,再把答案传回来。这个流程叫“云端推理”。它的好处是背后算力雄厚,坏处也同样明显:需要联网、有延迟,而且你的每一次提问都会离开你的设备,流向别人的服务器。

端侧AI做的,就是把这个过程整个搬回你的手机里来。不再依靠远方的数据中心,而是直接用手机自己的芯片去做AI计算。

但这说来容易做来难。主流大语言模型动辄数百上千亿参数——你可以把“参数”想象成大脑里神经元的连接数量,数字越大,AI的认知能力越强,需要的算力也成倍增长。而一部手机的NPU(神经网络处理器,一种专门为AI计算设计的小型处理器芯片)算力通常在5到15TOPS之间,内存也不到8GB,整体功耗被严格限制在几瓦以内。让大模型在手机上跑,就像让一头大象挤进一辆小轿车——既要空间够、还得车不散架。

手机厂商和AI公司的策略,不是硬挤,而是把大象练成小马。这项技术叫做模型压缩:把大模型里不那么重要的参数“修剪”掉,只保留最核心的部分。比如智谱AI推出的GLM-Edge系列模型,把原本千亿级的参数压缩到了3至13亿级别,压缩后体积从几个GB变成了几百MB,推理速度反而提升了3倍多,同时在关键的评测中仍然保持了90%以上的准确度。

苹果也在做类似的事。它最新的端侧模型只有大约30亿参数,被封装成Foundation Models框架放进iOS系统里,对所有第三方开发者开放。这意味着,你手机上那些健身App、日记App、视频剪辑App,现在都能直接调用苹果内置的本地AI能力,而且你的数据全程不离开手机。

苹果还采用了一种叫“键值缓存共享”的创新架构来进一步提升端侧效率。简单说,就是让不同的AI任务共用一部分已经计算好的“中间结果”,避免重复计算。高通这边也不甘示弱——最新发布的第五代骁龙8至尊版中,NPU性能比上一代直接提升了37%,用手机就能在离线状态下跑通大语言模型。

那这些“压缩版”的AI坐在手机里,到底能干些什么?一个最直观的答案就是:读懂屏幕。

AI是怎么“看懂”你的屏幕的?

你可能用过手机上“智能识屏”或“提取图片文字”这类功能。但你仔细想想:传统方式下,手机其实并不“看”屏幕,而是通过App事先提供的元数据(相当于一份“屏幕说明书”)知道上面有什么。一旦App不给说明书,或者页面结构很复杂,手机就抓瞎了。

而现在的端侧AI,采用了一种更接近人类阅读习惯的方法——它直接“看”屏幕的像素画面。就像你肉眼一样,逐像素地识别上面的文字、图片、图标和整体布局。

这项技术背后,是一类被称为“屏幕视觉解析”的多模态AI系统。Google在2024年提出的ScreenAI就是一个典型代表——它能像真正的人类一样,用“眼睛”看屏幕上有什么,再用“语言系统”理解这些内容之间的关系,最终决定该做什么行动。

这套能力已经实实在在地落地了。2025年,Google把Gemini的屏幕分析整合到了安卓的“画圈搜索”功能中。你在屏幕上看到任何内容——不管是一张图、一段文字、一个按钮——只需要画个圈,Gemini会直接分析被圈起来的区域,识别对象、解读信息、回答你的后续问题,全程不需要切换App,也不需要手动复制粘贴。

不仅如此,Google还在测试一种更智能的模式:让AI助手自动判断当前屏幕上的内容是否与你提出的问题相关,如果相关,就自动截图分析,连画圈这一步都省了。

你可能会注意到一个重要细节:Google的这套“屏幕视觉解析”默认是调用云端Gemini来完成的。那么,能不能把这件事也交给端侧AI来做呢?

答案是:正在努力。随着手机NPU算力的持续提升和模型压缩技术的成熟,部分屏幕分析任务已经可以在本地完成。目前,端侧AI的核心优先方向之一就是“多模态”——让手机能同时处理文字、图像和语音等多种输入形式。终端设备天然自带摄像头和麦克风,端侧AI如果能直接“看懂”画面、“听懂”语音,就能做出更贴合场景的判断。屏幕视觉解析,恰恰是这条技术路线下最突出的应用之一。让手机读屏这件事,全程在本地完成,既快又保护隐私,是各大厂商正在靠近的目标。

不只是读屏:处处是“隐形AI”

屏幕视觉解析只是端侧AI的一个缩影。真正有意思的是,端侧AI的能力正在渗透到手机系统的方方面面,你却未必能感知到它在工作。

你有没有用过手机相册里自带的“智能分类”功能?拍了一大堆照片,相册能自动帮你按人物、地点甚至拍到的东西分组。过去这个过程需要把照片上传到云端分析,现在完全可以由端侧AI在本地完成。实测数据显示,集成端侧AI后相册分类准确率可以达到92%,而且全程不外传,比云端方案平均每天省下超过五分之一的电量。

再比如语音翻译。传统方式是录下来→上传→翻译→回传,整个过程通常超过一秒,对稍纵即逝的对话来说实在太慢了。端侧AI直接把翻译延迟压到了150毫秒以内——比人眼眨一下还快得多。你在地铁里想翻译一段英文菜单,没信号也没关系,手机自己就搞定了。

导航也是一个正在被端侧AI悄悄改变的领域。现在的手机导航主要靠GPS信号和云端地图匹配,可一旦进了高架桥底、地下通道或者信号盲区,导航就可能开始漂移。如果把道路识别和定位校正任务的一部分交给端侧AI,手机就可以直接在本地对摄像头拍到的环境画面进行分析,即使在离线状态下也不容易走错路。

强大归强大,但它并不是万能的

读到这里,你可能会觉得端侧AI简直无所不能。但它也有明确的软肋。

首先是算力天花板。尽管模型可以做压缩,但一部手机的芯片毕竟是有限的。现阶段,纯本地运行的端侧AI仍然无法处理那些极其复杂的任务——比如生成长篇深度文章、进行超高精度图像生成、分析上百页的PDF文档。这类“重活”还需要云端出手。因此,目前行业的主流方案是端云协同:简单清晰、对隐私敏感的任务交给本地端侧AI;复杂沉重、需要巨大算力的任务交给云端。

其次是功耗。AI计算非常耗电。如果端侧AI全天候不间断地盯着屏幕看、反复用NPU做推理,手机电量会掉得比你想象中快得多。这也是为什么端侧AI大多被设计成“按需唤醒”——只在用户触发相关功能时才启动,而不是像哨兵一样24小时站岗。

还有一个不能回避的问题:跨平台兼容性。不同手机品牌使用的芯片五花八门——高通、苹果、三星各有各的NPU架构和开发框架。这意味着,开发一个能在所有手机上流畅运行的端侧AI功能,至今仍是一桩麻烦事。好消息是,像Nexa AI这样的创业公司已经推出了统一的跨平台推理框架,可以在高通、苹果、英特尔等多种NPU芯片上运行,让开发工作从“适配一个平台”变成“写一次代码”。

隐私不靠承诺,靠标准

说到端侧AI最大的卖点——隐私保护,这里需要给出一个严谨的说明。

端侧AI确实把数据处理放在了你的设备上,信息不需要离开手机。但隐私不能只靠技术架构来“相信”,还需要标准来“约束”。

2025年,电信终端产业协会制定并发布了《端云协同人工智能服务用户数据保护要求》,专门针对“哪些事可以留给手机本地处理,哪些时候数据需要上传云端,以及上传前后应该采取怎样的加密措施”做出了详细规定。与此同时,团体标准《端侧AI模型隐私保护与数据安全技术要求》也正式发布,覆盖了AI模型从设计、开发到退役的整个生命周期中的隐私与安全标准。

这些标准的存在告诉所有人一件事:技术可以提高隐私的下限,但保护用户数据这件事,离不开明确的规则和监督。

AI不是无所不知,多问一句总没错

最后想和你聊聊一个容易被忽略的话题:在AI这么“懂”屏幕的时代,我们该怎样保持自己的判断力。

屏幕视觉解析再强,也只是在“识别”和“匹配”屏幕上出现的内容,而不是真正“理解”这个世界。比如你圈出一张花草图片问它这是什么植物,它给出的答案可能非常自信、措辞流畅,但如果你的图片拍得模糊,或者角度太偏,它也可能认错。

这不仅是屏幕AI的问题,而是所有生成式AI共有的特征:它们对语言表达很有信心,但对事实的准确性并没有内在的判断。所以,不论是端侧AI还是云端AI,养成“多查一个来源”的习惯,总不会错。

另外,如果端侧AI具备屏幕实时读取的能力,它在某些场景下其实能“看”到你屏幕上所有的信息——包括聊天记录、支付页面、密码输入框。目前,各大系统已经在技术上做了限制:敏感界面(如银行App、密码管理器)会自动屏蔽截屏和屏幕读取请求;端侧AI也默认只在用户主动操作(如画圈或提问)时介入,而不是持续“暗中观察”。

但当技术越来越强大,保护隐私这件事除了依靠系统设计,也取决于我们如何主动管理自己的权限。不随意给陌生App屏幕读取权限、不在不信任的应用里输入敏感信息,是随手就能做到的安全动作。

试着跟你的手机聊一句

端侧AI和屏幕视觉解析,正在把我们和手机的关系从“用手指操作”推向“用语言沟通”的新阶段。你不再需要知道“录屏”“提取文字”这些功能藏在哪个角落,只需要告诉手机你想要什么——它自己去找、去读、去做。

但不管技术怎么变,真正重要的,是你知道它正在被如何使用,以及你如何主动做出选择。

下一次在地下车库打不开导航,或者看到一张想搜却不知道怎么描述的照片时,你可以试试对手机说一句:“帮我看看这个。”

说不定,它已经准备好了。