前沿科技

手机里的超级大脑：端侧AI和它的“读屏术”

来源：科普中国　　发布时间：2026-05-09　　浏览：158次

你有没有碰到过这种诡异的情况：在地下车库想用手机导航，信号只剩一格，语音助手直接罢工；或者在网上看到一张不认识的植物照片，想搜是什么，却不知道该用什么关键词。

但你的手机，其实正在悄悄学会一种新本领——即使完全断网，它也能听懂你说的话、看懂屏幕上的内容，甚至帮你完成不少复杂操作。

这项本领的背后，是一个正在走进每一部智能手机的技术：端侧AI。而它最让人惊艳的能力之一，就是“看懂屏幕”。

让AI住进手机，为什么那么难？

要理解端侧AI，我们先从它名字里的“端”说起。

你平时用的大部分AI功能——比如和ChatGPT聊天、用AI生成一张图片——实际上都不是在你手机上完成的。你的手机只负责把问题打包发送出去，由远方某个巨大数据中心里的超级计算机群完成计算，再把答案传回来。这个流程叫“云端推理”。它的好处是背后算力雄厚，坏处也同样明显：需要联网、有延迟，而且你的每一次提问都会离开你的设备，流向别人的服务器。

端侧AI做的，就是把这个过程整个搬回你的手机里来。不再依靠远方的数据中心，而是直接用手机自己的芯片去做AI计算。

但这说来容易做来难。主流大语言模型动辄数百上千亿参数——你可以把“参数”想象成大脑里神经元的连接数量，数字越大，AI的认知能力越强，需要的算力也成倍增长。而一部手机的NPU（神经网络处理器，一种专门为AI计算设计的小型处理器芯片）算力通常在5到15TOPS之间，内存也不到8GB，整体功耗被严格限制在几瓦以内。让大模型在手机上跑，就像让一头大象挤进一辆小轿车——既要空间够、还得车不散架。

手机厂商和AI公司的策略，不是硬挤，而是把大象练成小马。这项技术叫做模型压缩：把大模型里不那么重要的参数“修剪”掉，只保留最核心的部分。比如智谱AI推出的GLM-Edge系列模型，把原本千亿级的参数压缩到了3至13亿级别，压缩后体积从几个GB变成了几百MB，推理速度反而提升了3倍多，同时在关键的评测中仍然保持了90%以上的准确度。

苹果也在做类似的事。它最新的端侧模型只有大约30亿参数，被封装成Foundation Models框架放进iOS系统里，对所有第三方开发者开放。这意味着，你手机上那些健身App、日记App、视频剪辑App，现在都能直接调用苹果内置的本地AI能力，而且你的数据全程不离开手机。

苹果还采用了一种叫“键值缓存共享”的创新架构来进一步提升端侧效率。简单说，就是让不同的AI任务共用一部分已经计算好的“中间结果”，避免重复计算。高通这边也不甘示弱——最新发布的第五代骁龙8至尊版中，NPU性能比上一代直接提升了37%，用手机就能在离线状态下跑通大语言模型。

那这些“压缩版”的AI坐在手机里，到底能干些什么？一个最直观的答案就是：读懂屏幕。

AI是怎么“看懂”你的屏幕的？

你可能用过手机上“智能识屏”或“提取图片文字”这类功能。但你仔细想想：传统方式下，手机其实并不“看”屏幕，而是通过App事先提供的元数据（相当于一份“屏幕说明书”）知道上面有什么。一旦App不给说明书，或者页面结构很复杂，手机就抓瞎了。

而现在的端侧AI，采用了一种更接近人类阅读习惯的方法——它直接“看”屏幕的像素画面。就像你肉眼一样，逐像素地识别上面的文字、图片、图标和整体布局。

这项技术背后，是一类被称为“屏幕视觉解析”的多模态AI系统。Google在2024年提出的ScreenAI就是一个典型代表——它能像真正的人类一样，用“眼睛”看屏幕上有什么，再用“语言系统”理解这些内容之间的关系，最终决定该做什么行动。

这套能力已经实实在在地落地了。2025年，Google把Gemini的屏幕分析整合到了安卓的“画圈搜索”功能中。你在屏幕上看到任何内容——不管是一张图、一段文字、一个按钮——只需要画个圈，Gemini会直接分析被圈起来的区域，识别对象、解读信息、回答你的后续问题，全程不需要切换App，也不需要手动复制粘贴。

不仅如此，Google还在测试一种更智能的模式：让AI助手自动判断当前屏幕上的内容是否与你提出的问题相关，如果相关，就自动截图分析，连画圈这一步都省了。

你可能会注意到一个重要细节：Google的这套“屏幕视觉解析”默认是调用云端Gemini来完成的。那么，能不能把这件事也交给端侧AI来做呢？

答案是：正在努力。随着手机NPU算力的持续提升和模型压缩技术的成熟，部分屏幕分析任务已经可以在本地完成。目前，端侧AI的核心优先方向之一就是“多模态”——让手机能同时处理文字、图像和语音等多种输入形式。终端设备天然自带摄像头和麦克风，端侧AI如果能直接“看懂”画面、“听懂”语音，就能做出更贴合场景的判断。屏幕视觉解析，恰恰是这条技术路线下最突出的应用之一。让手机读屏这件事，全程在本地完成，既快又保护隐私，是各大厂商正在靠近的目标。

不只是读屏：处处是“隐形AI”

屏幕视觉解析只是端侧AI的一个缩影。真正有意思的是，端侧AI的能力正在渗透到手机系统的方方面面，你却未必能感知到它在工作。

你有没有用过手机相册里自带的“智能分类”功能？拍了一大堆照片，相册能自动帮你按人物、地点甚至拍到的东西分组。过去这个过程需要把照片上传到云端分析，现在完全可以由端侧AI在本地完成。实测数据显示，集成端侧AI后相册分类准确率可以达到92%，而且全程不外传，比云端方案平均每天省下超过五分之一的电量。

再比如语音翻译。传统方式是录下来→上传→翻译→回传，整个过程通常超过一秒，对稍纵即逝的对话来说实在太慢了。端侧AI直接把翻译延迟压到了150毫秒以内——比人眼眨一下还快得多。你在地铁里想翻译一段英文菜单，没信号也没关系，手机自己就搞定了。

导航也是一个正在被端侧AI悄悄改变的领域。现在的手机导航主要靠GPS信号和云端地图匹配，可一旦进了高架桥底、地下通道或者信号盲区，导航就可能开始漂移。如果把道路识别和定位校正任务的一部分交给端侧AI，手机就可以直接在本地对摄像头拍到的环境画面进行分析，即使在离线状态下也不容易走错路。

强大归强大，但它并不是万能的

读到这里，你可能会觉得端侧AI简直无所不能。但它也有明确的软肋。

首先是算力天花板。尽管模型可以做压缩，但一部手机的芯片毕竟是有限的。现阶段，纯本地运行的端侧AI仍然无法处理那些极其复杂的任务——比如生成长篇深度文章、进行超高精度图像生成、分析上百页的PDF文档。这类“重活”还需要云端出手。因此，目前行业的主流方案是端云协同：简单清晰、对隐私敏感的任务交给本地端侧AI；复杂沉重、需要巨大算力的任务交给云端。

其次是功耗。AI计算非常耗电。如果端侧AI全天候不间断地盯着屏幕看、反复用NPU做推理，手机电量会掉得比你想象中快得多。这也是为什么端侧AI大多被设计成“按需唤醒”——只在用户触发相关功能时才启动，而不是像哨兵一样24小时站岗。

还有一个不能回避的问题：跨平台兼容性。不同手机品牌使用的芯片五花八门——高通、苹果、三星各有各的NPU架构和开发框架。这意味着，开发一个能在所有手机上流畅运行的端侧AI功能，至今仍是一桩麻烦事。好消息是，像Nexa AI这样的创业公司已经推出了统一的跨平台推理框架，可以在高通、苹果、英特尔等多种NPU芯片上运行，让开发工作从“适配一个平台”变成“写一次代码”。

隐私不靠承诺，靠标准

说到端侧AI最大的卖点——隐私保护，这里需要给出一个严谨的说明。

端侧AI确实把数据处理放在了你的设备上，信息不需要离开手机。但隐私不能只靠技术架构来“相信”，还需要标准来“约束”。

2025年，电信终端产业协会制定并发布了《端云协同人工智能服务用户数据保护要求》，专门针对“哪些事可以留给手机本地处理，哪些时候数据需要上传云端，以及上传前后应该采取怎样的加密措施”做出了详细规定。与此同时，团体标准《端侧AI模型隐私保护与数据安全技术要求》也正式发布，覆盖了AI模型从设计、开发到退役的整个生命周期中的隐私与安全标准。

这些标准的存在告诉所有人一件事：技术可以提高隐私的下限，但保护用户数据这件事，离不开明确的规则和监督。

AI不是无所不知，多问一句总没错

最后想和你聊聊一个容易被忽略的话题：在AI这么“懂”屏幕的时代，我们该怎样保持自己的判断力。

屏幕视觉解析再强，也只是在“识别”和“匹配”屏幕上出现的内容，而不是真正“理解”这个世界。比如你圈出一张花草图片问它这是什么植物，它给出的答案可能非常自信、措辞流畅，但如果你的图片拍得模糊，或者角度太偏，它也可能认错。

这不仅是屏幕AI的问题，而是所有生成式AI共有的特征：它们对语言表达很有信心，但对事实的准确性并没有内在的判断。所以，不论是端侧AI还是云端AI，养成“多查一个来源”的习惯，总不会错。

另外，如果端侧AI具备屏幕实时读取的能力，它在某些场景下其实能“看”到你屏幕上所有的信息——包括聊天记录、支付页面、密码输入框。目前，各大系统已经在技术上做了限制：敏感界面（如银行App、密码管理器）会自动屏蔽截屏和屏幕读取请求；端侧AI也默认只在用户主动操作（如画圈或提问）时介入，而不是持续“暗中观察”。

但当技术越来越强大，保护隐私这件事除了依靠系统设计，也取决于我们如何主动管理自己的权限。不随意给陌生App屏幕读取权限、不在不信任的应用里输入敏感信息，是随手就能做到的安全动作。

试着跟你的手机聊一句

端侧AI和屏幕视觉解析，正在把我们和手机的关系从“用手指操作”推向“用语言沟通”的新阶段。你不再需要知道“录屏”“提取文字”这些功能藏在哪个角落，只需要告诉手机你想要什么——它自己去找、去读、去做。

但不管技术怎么变，真正重要的，是你知道它正在被如何使用，以及你如何主动做出选择。

下一次在地下车库打不开导航，或者看到一张想搜却不知道怎么描述的照片时，你可以试试对手机说一句：“帮我看看这个。”

今天是：

本网站支持IPv6

您的当前位置：首页 >> 科普园地 >> 前沿科技

手机里的超级大脑：端侧AI和它的“读屏术”

来源：科普中国　　发布时间：2026-05-09　　浏览：158次

友情链接：

今天是：

本网站支持IPv6

您的当前位置： 首页 >> 科普园地 >> 前沿科技

手机里的超级大脑：端侧AI和它的“读屏术”

来源：科普中国 发布时间：2026-05-09 浏览：158次

友情链接：

您的当前位置：首页 >> 科普园地 >> 前沿科技

来源：科普中国　　发布时间：2026-05-09　　浏览：158次