苹果能引领端侧AI大模型时代吗?

news/2024/10/11 20:43:01/文章来源:https://blog.csdn.net/m0_64752471/article/details/142146382

苹果能引领端侧AI时代吗?

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

北京时间9月10日凌晨,苹果正式发布了iPhone 16,这是苹果第一款真正意义上的 AI iPhone。Apple Intelligence采用“端侧大模型+云端大模型”的方式,将为用户带来更丰富的智能体验。而这仅仅是端侧智能的开始,未来我们可以想象,一个由大模型带来的移动智能生态正在缓缓打开。

img

太长不看版:

1.技术:端侧模型短期能力有限,端云结合是长期状态

●手机大模型的瓶颈排序:

○电池容量和发热

○芯片计算速度

○现有架构下,8G+内存是最低要求

○内存读写速度可能需要进一步技术突破

●~1B量级模型能力有限,性能提升空间不乐观

●手机端侧模型有实际价值 -> ~10B模型塞到手机里 -> 估计3~4年

●云+端混合将是长期主流

○端侧模型 + 云上模型 的配合能力将是核心技术点之一

○从用户价值看,端侧模型并不是必要路径

○端侧模型存在合理性是1) 降低推理成本,2) 响应速度更快 3)更好保护隐私

2.产品:短期以小功能为先导,长期价值期待释放

●当前AI 手机以功能探索为主,用户价值有待更多释放;对于硬件,会有明确的产品价格提升,因此行业会坚定推进

○短期 = 新功能亮点提升产品售价+FOMO(Fear of Missing Out)

○长期 = 争夺新的流量入口

●LLM是端侧模型重点;多模态生成在端侧的用户价值有限,更大的价值在于多模态理解

●硬件粘性和价值 > 模型品牌吸引力

●未来具备用户价值潜力的新领域:AI原生OS

○理解用户 + 智能唤醒APP(siri升级)

○直接access APP内的数据和服务,可能绕过APP的UI,直接完成用户指令

○拆解指令,多APP共同完成任务(严重依赖AI Agent的能力提升)

○(optional)对于常用服务手捏个人APP

引子:

<问题1>从用户角度出发,“智慧手机”的“价值”是什么?

●从“智障”到“智能”

○从“物品”到“帮手”的转变

●是否会有全新的交互方式?什么是最“自然”的交互方式?

○翻阅式->搜索式->推荐式->服务式(秘书+陪伴)

<问题2>对于用户来讲,为什么要在端侧搭载模型?

●网络延迟+极端环境:端侧模型有优势,但场景很小,因为大多数生活场景对于大几百毫秒延迟可以接受

●数据隐私:端侧模型多了一层对于个人数据的保护

●个性化:在本地和云上都可以实现,但本地会更有数据优势

●从技术角度来看,端侧可能做到什么?

○~1B级别=“锦上添花”:P图,聊天,搜索支持……

○~10B级别 = 效果会更好,也有不确定性;要看哪些是这个级别也可以实现的新能力

○~100B级别 + AI Agent = AI原生体验的潜力

<问题3>从厂商角度出发,手机端侧模型的“价值”是什么?

●带来更多新功能、新体验,提升手机价值

●控制云上推理成本

●端云混合模式中,云上模型服务可以另收费

●获取新流量入口

一、苹果等手机厂商 纷纷推出端侧大模型

去年以来,各厂商已经推出了多款端侧大模型手机。

●参数量级:以1~3B为主,如Google Gemini 3.25B等

●是否自研:Google、苹果、华为等厂商推出了全自研模型

●价格区间:国内售价4000元+,即主流旗舰机价格

●总市场份额:2023年该细分市场出货量约2700万台,占国内安卓手机出货量约12%(苹果手机23年暂未部署端侧大模型)

苹果的新款iphone16搭载了更快的CPU、GPU,且在能耗上有更好的表现。以GPU为例,A18芯片是四前iphone 12的A14芯片速度的2倍。

img

相比去年A16芯片,在速度提升40%的同时,功耗下降了30%,为大模型的本地运算提供了更好的电源保障。

img

利用端侧大模型,iphone16 不仅可以生成、润色文字、总结文本、回复邮件等,还可以生成表情符号,搜索照片、视频等,并执行多种任务。

img

发布会中最为惊艳的功能之一,是视觉智能。比如,当你看到一家餐厅,你可以通过按压相机控制按钮拍下餐厅,然后就能通过 Apple Intelligence获得该餐厅的营业时间以及点评,并查看菜单或预订餐厅。

img

该功能也支持和第三方 APP 联动,比如,看到你喜欢的自行车,只需点击一下,即可快速Google到类似的自行车并购买。

img

除了苹果,去年以来,各大手机厂商已经陆续发布了其端侧大模型的产品:

img

二、如何评价 端侧模型的成熟度?

1.参数规模:“智商”水平至关重要,端侧模型任重道远

为什么“智商”重要?“锦上添花” vs “底层革命”

大参数+量化 vs 小参数:大参数+量化效果上优于小参数

当前量化已到极限:BF16量化基本安全;INT4量化是当前大多手机使用的方式,但经常出现过拟合和稳定性问题;当前在探索INT8量化的折衷方案

●FP32精度下,1B模型占用~4GB内存,而推理运行需要更多内存,这对目前8~16GB的手机主流内存是有挑战的

●Int4量化后,效果衰减10%,占用内存减少80%,同时推理速度提升~50%;但量化测试数据有overfitting的嫌疑

●目前高通、联发科已经支持INT4,Google已经支持INT8,实践中为保证效果还要使用混合精度,进一步提升空间有限

~10B模型是当前模型能力分水岭

●Phi3-3.8B等模型打榜结果还可以,但实测过拟合情况较为严重

●~1B量级模型在理解能力、稳定性上都和7-13B的模型有明显差距

●但并不能保证~10B模型在未来足以进化出接近人的智慧水平

提升参数规模的瓶颈包括计算、内存读写和能耗,其中能耗最难突破

●芯片计算速度:手机算力30~50TOPS,PC是手机的20~40倍

●内存读写速度:手机带宽40~80GB/S,PC是手机的10~20倍

●内存容量:手机内存已到16GB甚至更高,与PC可以相比;未来还有扩展的空间

●能耗:发热&续航:对标游戏运行,续航仅有3~4小时,且手机明显发热

img

2.推理速度:良好用户体验的基准是20token/s,目前刚刚达标

**现状推理速度:**最高达20token/s,刚刚达到可用门槛,仅有PC端的20%,差距明显

●miniCPM-2B Int4量化在部分主流机型上测试的推理吞吐速度,除iPhone外均在7token/s以下

img

●当前在英伟达RTX4090运行Llama 7B 4bit的推理吞吐速度为100tokens/s以上

●最新一代的高通或联发科芯片在芯片厂商的测试中Llama 7B INT4量化的推理速度能达到20token/s

推理加速技术+预判

●目前没有明确的SOC AI推理加速定量证据,我们采用NVIDIA数据中心B200(vs H200)作为参照,认为每代更新可以有50%+的功耗效率提升和10%+的推理速度提升

img

**●推理运算加速:**Google TPU的MXU(Matrix multiplication unit)Nvidia的Tensor Cores针对神经网络中大量的张量计算的加速;联发科针对transformer架构的Softmax+LayerNorm算子的加速;高通骁龙Gen3的微型区块推理单元,将大模型分解为可以独立执行的部分。

**●内存读写速度优化:**Google TPU使用大规模片上内存,减少数据在HBM(High Bandwidth Memory)和VEM(Vector Engine Memory)之间传输的次数;苹果探索通过窗口化(Windowing)和行列打包(Row-Column Bundling),在闪存中存储模型参数,并在推理过程中按需将这些参数加载到DRAM中。

**●其他技术进展:**联发科NeuroPilot Fusion基于低秩自适应(LoRA)融合技术,基于一个基础大模型,通过云端训练,在端侧完成多个功能的融合,从而赋予基础大模型更全面、更丰富的生成式AI应用能力。

AI agent的推理速度要求:50~100 tokens/s

●目前国内商用LLM API输入处理速度可达数千tokens/s,生成速度平均在30-50 tokens/s,最快可以达到70 tokens/s(如abab-6.5s和智谱GLM3.5-turbo)。

●用户体验角度,假设一次Agent操作要调用5次大模型,则需要速度达到100 tokens/s。

3.能耗:发热&续航表现短期不会大幅优化,是手机端侧大模型的主要瓶颈

**现状:**目前没有大规模测试端侧模型推理的功耗;以游戏运行为benchmark,功率大约在47W,续航时间仅为34小时

崩坏:星穹铁道最高画质各机型实测结果(by 小白测评数据库,续航时间基于标准输出电压3.7V估算)

img

电池容量增长分析预测:未来每年增长不超过5~10%

以iPhone和三星galaxy为例,近10年平均每年增长5~6%,尤其是21年以来,手机尺寸不再增大后电池容量也几乎没有增长

img

注:电池容量单位mAh, 每年取该系列电池容量最高的机型数据

制约手机电池电量增长的因素包括:

●电池体积:提升电池体积会影响产品重量和厚度

●电池材料进化:固态电池材料和半固态材料,目前仍在科学研究阶段,暂未看到大规模商用

●同样电池材料下实现能量密度提升:持续有小幅改善,但不明显

4.搭载~10B模型的时间预计 = 3~4年

●推理速度提升:每1~2年(每代)10%

●单位功耗提升:每1~2年(每代)50%

●电池容量提升:每年5~10%

img

3-4年后:

●推理速度x2是最低要求,可能需要x3-5倍速度才能支持简单Agent

●7B模型能力不一定可以支持Agent,有可能需要13B-30B规模

●算力做到x16(700TOPS)有很大不确定性;x8甚至x4是大概率事件;在这种情况结合推理加速x1.5,极限可以支持模型吞吐速度要求

●因此7-10B模型大概是可支持的极限,大量超越10B会比较困难

●在这些极限假设下,续航时间可以满足8-10h要求,并缓解发热问题

3年内看不到纯端侧模型驱动的AI原生OS,复杂任务都需要云上实现

5.端侧多模态大模型:端侧的价值主要在多模态理解,而不在多模态生成

●多模态生成不在端侧

价值有限:端侧多模态能完成的生成场景(例如修图),已有CV技术也能解决;新的生成功能(例如AI扩图)需要上云

吃算力:多模态模型的推理,占用的算力可能会数倍于大语言模型

●目前技术路线:端侧多模态 = LLM + 多模态理解

基于LLM-backbone,在输入端增加多模态编码器和输入投影,参数量增加~10%

以开源模型MobileVLM为例;1.4B和2.7B两个版本,输入投影20M,图像编码器300M

其中,1.4B版本INT4量化,在骁龙888(20年,RAM8GB,26TOPS)上速度21.54 tokens/s

●因此,端侧算力瓶颈,在LLM而不在多模态

●当前多模态理解的主要应用是录屏理解;不过这是个过渡方案,远期会被更直接的数据获取方式取代

录屏理解的目标是辅助用户进行手机操作,广义上属于操作系统的一部分

手机厂商通过合作等方式获取root授权,然后在APP内操作,这是更加AI原生的OS实现方式

具体节奏除了取决于技术进展,还取决于手机厂商和APP厂商的合作探索

长期端侧多模态模型的任务则退化为读取、 理解APP内部的图片、视频等信息(非截图),不一定需要重大技术突破

三、未来实现多功能调用 的关键技术 - AI Agent

AI Agent:正长期持续快速发展;但到达大学生智能的Agent还有距离

1.Agent = 通用-自动化-决策&执行 能力

●是对大模型能力的扩充,是在模型达到AGI之前的中间阶段

●不是一项单独的技术,而是多种技术的组合创新

●误解:“既然是Agent了,就应该什么都能做”

2.Agent需要包含哪些部分

Lilian Weng (OpenAI) 对Agent能力的拆解

https://lilianweng.github.io/posts/2023-06-23-agent/

img

●记忆问题是思考能力的源头,也是当前研发难点

●计划:决定“做什么”

●工具调用:找到“怎么做”

●执行

3.有关“记忆”

●感觉(视觉、听觉、触觉、其他sensor……)

●短期记忆(工作记忆)

●长期记忆

事实性记忆(概念、事实)

程序性记忆(事情的先后顺序)

非描述性记忆(骑自行车、潜意识)

当前处理“记忆”的主流方案https://arxiv.org/abs/2312.10997

img

img

img

但现状做法有很多“不自然”的地方:

●转Text导致的信息丢失 -> Unified Embedding (e.g. GPT4o)

img

●信息以prompt方式为主进入模型 -> 长期记忆+短期记忆的交互机制

img

4.Agent的发展阶段

1.Agent 1.0(现状)

●工具调用:趋于成熟,且可通过微调7B模型+retrieval,在端侧实现

前置工具描述数据集 + Retrieval做update

但受制于前置工具集的文档精确性、及时性;当前的成功的比例仍难以直接满足商用

大模型self-instruct指令生成工具调用数据集,对agent进行微调

●Planning:基本的给定范围内的拆解能力,成功率&稳定性需要提高

通过System prompt预先设定agent的角色、工作流程、能力栈等

基本的任务拆解(CoT)

通过Self-refine/Reflexion/ReAct增加可靠性

●短期记忆:各类RAG为主;知识图谱&前置分类器是上一代技术

●长期记忆:

Finetune作为一种方式,但目前成效有限

有思路认为通过“超长文本”,可以不解决长期记忆问题。“把人类一生的经历都用文本框输入,就不用记忆了”

2.Agent 2.0(未来1~2年)

●Planning:复杂任务拆解能力提升->成熟

●多Agent协作

目标线性拆解

群聊总结

3.Agent 3.0 (3+年)完全自主?

●长期记忆:自我学习构建“人格” (e.g. Auto-finetune)

●自我进化能力

●Agent创建Agent

●Agent管理Agent团队

img

四、端侧VS云上的应用场景展望

1.现状是云上为主,端侧为辅

img

●真正的大模型场景,是过去NLP/CV做不了、有了大模型才能做的场景;“假”场景则是过 去NLP/CV就能做的场景

●目前已成熟的“真”场景局限于:知识问答、聊天陪伴、总结、brainstorm图/文生图等,均 属于APP内应用

2. 端侧 & 云上的长期并存是大势所趋

**既定事实:**1)端侧模型能力<云上模型能力 2)手机模型训练/精调只能在线上

2.1 技术限制

a.算力:复杂任务(长Token,Agent等)需要依赖云上模型

b.电池能耗:复杂任务需要依赖云上模型

c.存储:需要读写大量数据的任务需要依赖云上

2.2用户价值

d.网络延时:离线模型可以提升网络不佳情况的效果

i.需要技术:线上任务 & 离线任务 热迁移

e.权限&隐私

i.APP内信息/服务access:可能端侧模型更容易访问;取决于APP与手机厂商的协商

ii.本地数据访问:本地设置了加密的数据,可以要求只有端侧模型能访问

iii.在线数据访问:不需要端侧模型

f.个性化

i.Prompt里加入个人信息可以“假装”个性化体验

ii.也可以用线上账号的方式实现;且训练/精调只能在线上

2.3 商业价值

g.流量/收数

i.AI原生OS是手机厂商与APP生态建设的重点

ii.AI OS的功能理论上可以通过云上模型解决,但端侧+云上的模式会是多方协商合作的结果

h.变现:

i.端侧模型 = 手机价格提升的增值

ii.端侧 + 云上搭配 = 云上服务可以收订阅费用

i.成本:端侧模型降低云上推理成本支出

五、小结与启示

●从技术的角度,端侧大模型不是孤立的技术,而是跟AI芯片(GPU/TPU等)、操作系统共同形成一个完整的技术体系。

●手机端侧模型在未来3~5年的天花板可能在~10B级别,这意味着仍然需要与云上大模型配合,才能实现通用Agent、复杂COT/TOT、超长文本等高级功能。

●从用户的角度,对硬件的粘性远超软件。端侧模型是否真正能为用户创造价值还有不确定性;与OS的结合似乎是必经之路。

●大模型(不管是端侧还是云上)都为生态带来了新的变量。以前的“APPx硬件”流量入口格局还要加上“模型”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ldbm.cn/p/441116.html

如若内容造成侵权/违法违规/事实不符,请联系编程新知网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Buzzer:一款针对eBPF的安全检测与模糊测试工具

关于Buzzer Buzzer是一款功能强大的模糊测试工具链&#xff0c;该工具基于Go语言开发&#xff0c;可以帮助广大研究人员简单高效地开发针对eBPF的模糊测试策略。 功能介绍 下面给出的是当前版本的Buzzer整体架构&#xff1a; 元素解析&#xff1a; 1、ControlUnit&#xff1a…

F12抓包06-4:导出metersphere脚本

课程大纲 metersphere是一站式的开源持续测试平台&#xff0c;我们可以将浏览器请求导出为HAR文件&#xff0c;导入到metersphere&#xff0c;生成接口测试。 metersphere有2种导入入口&#xff08;方式&#xff09;&#xff0c;导入结果不同&#xff1a; 1.导入到“接口定义”…

第143天:内网安全-权限维持自启动映像劫持粘滞键辅助屏保后门WinLogon

案例一&#xff1a; 权限维持-域环境&单机版-自启动 自启动路径加载 路径地址 C:\Users\Administrator\AppData\Roaming\Microsoft\Windows\StartMenu\Programs\Startup\ ##英文C:\Users\Administrator\AppData\Roaming\Microsoft\Windows\开始菜单\程序\启动\ ##中文…

CSS 常用元素属性

CSS 属性有很多, 可以参考文档 CSS 参考手册 1. 字体属性 设置字体 多个字体之间使用逗号分隔. (从左到右查找字体, 如果都找不到, 会使用默认字体. )如果字体名有空格, 使用引号包裹.建议使用常见字体, 否则兼容性不好. <style>.one {font-family:"Microsoft Ya…

读论文-《基于计算机视觉的工业金属表面缺陷检测综述》

文章目录 1. 背景1.1 工业需求1.2 传统方法的局限1.3 计算机视觉技术的优势 2. 技术流程2.1 光学成像2.1.1照明方式2.1.2 缺陷和背景特性 2.2 图像预处理2.3 缺陷检测2.4 结果分析和决策 3. 关键算法3.1 光学成像技术相关算法3.2 图像预处理相关算法3.2.1 图像增强3.2.2特征提取…

利用 Redis 实现延迟队列(点赞场景)

&#x1f308;点赞场景在前段时间有很多人都在争论&#xff0c;我也看了一些视频和文档&#xff0c;最后觉得b站技术的这篇写得很好 【点个赞吧】 - B站千亿级点赞系统服务架构设计 - 哔哩哔哩 &#x1f308;所以我也尝试用 Redis 的延迟队列来写一个点赞处理的 demo&#xff0…

2024年8月利用FYDI指数中国及周边部分亚洲国家干旱情况的监测统计分析

简介 本报告通过对2024年8月中国及周边部分亚洲国家干旱情况的监测统计分析&#xff0c;展示了我公司干旱监测产品的按区域持续精准监测以及未来预测能力。 本报告主要内容如下&#xff1a; 1、全国气象概况&#xff08;本月平均气温和降水量&#xff09;&#xff1b; 2、本…

如何将镜像推送到docker hub

前言 这一篇应该是最近最后一篇关于docker的博客了&#xff0c;咱来个有始有终&#xff0c;将最后一步——上传镜像给他写完&#xff0c;废话不多说&#xff0c;直接进入正题。 登录 首先需要确保登录才能推送到你的仓库中去&#xff0c;在终端输入docker login,输入用户名和…

iOS 知识点记录

王巍 博客地址&#xff1a;OneVs Den git地址&#xff1a;onevcat (Wei Wang) GitHub 江湖人称喵神&#xff0c;目前就职于line。喵神的博客涉及方面比较广, 有Obejctive-C, Swift, SwiftUI, Unity等等。博客内容很有深度&#xff0c;非常值得关注。 戴铭 博客地址&#xff1…

Kubernetes 之 kubelet 与 CRI、CNI 的交互过程

序言 当一个新的 Pod 被提交创建之后&#xff0c;Kubelet、CRI、CNI 这三个组件之间进行了哪些交互&#xff1f; Kubelet -> CRI -> CNI 如上图所示&#xff1a; Kubelet 从 kube-api-server 处监听到有新的 pod 被调度到了自己的节点且需要创建。Kubelet 创建 sandbo…

代码随想录27期|Python|Day51|​动态规划|​115.不同的子序列|​583. 两个字符串的删除操作​|72. 编辑距离

115. 不同的子序列 本题是在原来匹配子序列的基础上增加了统计所匹配的子序列个数&#xff0c;也就是dp数组的定义和更新公式和原来的有所区别。 1、dp数组的定义 dp[i][j]表示以i-1和j-1为末尾的字符串中&#xff0c;给定字符串s包含目标字符串t的个数。注意这里不是长度。…

物联网——USART协议

接口 串口通信 硬件电路 电平标准 串口参数、时序 USART USART主要框图 TXE: 判断发送寄存器是否为空 RXNE: 判断接收寄存器是否非空 RTS为输出信号&#xff0c;用于表示MCU串口是否准备好接收数据&#xff0c;若输出信号为低电平&#xff0c;则说明MCU串口可以接收数据&#…

使用了@Bean启动成功还能注入失败?秒级解决 定位分析

文章目录 Bean 断点跟不进去为什么需要多个同类型bean怎么友好处理同类型bean【任选一种】彩蛋 Bean 断点跟不进去 结论&#xff1a;你的其他代码 或者底层依赖&#xff0c;一定有改类型的自动注入代码&#xff0c;在Spring 机制中&#xff0c;默认拒绝Bean重写&#xff0c;你…

【C++ Primer Plus习题】15.1

大家好,这里是国中之林! ❥前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站。有兴趣的可以点点进去看看← 问题: 解答: main.cpp #include <iostream> #include "tv.h" us…

OpenCV结构分析与形状描述符(14)拟合直线函数fitLine()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 拟合一条直线到2D或3D点集。 fitLine 函数通过最小化 ∑ i ρ ( r i ) \sum_i \rho(r_i) ∑i​ρ(ri​)来拟合一条直线到2D或3D点集&#xff0c…

通过C# 裁剪PDF页面

在处理PDF文档时&#xff0c;有时需要精确地裁剪页面以适应特定需求&#xff0c;比如去除广告、背景信息或者仅仅是为了简化文档内容。 本文将指导如何使用免费.NET控件通过C#实现裁剪PDF页面。 免费库 Free Spire.PDF for .NET 支持在 .NET (C#, VB.NET, ASP.NET, .NET Core)…

QGis二次开发 —— 3、程序加载栅格tif与矢量shp文件可进行切换控制,可进行导出/导入工程(附源码)

效果 功能说明 软件可同时加载.tif栅格图片与.shp矢量图片、加载图片后可进行自由切换查看图层、可对加载的图片进行关闭 关闭后清空图层、可对加载的图片进行导出.qgs的QGIS工程、可对.qgs的QGis工程导入并导入后可进行自由切换查看图层。 源码 注意: 在加载tif栅格文件后会在…

苹果的“AI茅”之路只走了一半

今年苹果发布会最大的亮点&#xff0c;也许是和华为“撞档”&#xff0c;又或者是替腾讯“发布”新手游&#xff0c;但肯定不是iPhone 16。 9月10日&#xff0c;苹果秋季新品发布会与华为见非凡品牌盛典相继举行&#xff0c;iPhone 16系列也与HUAWEI Mate XT同日发布。 不过&…

[SAP ABAP] 清空ABAP变量

使用关键字CLEAR将变量中的值设置为默认值 代码结果如下所示

Centos安装配置Gitea(Ubuntu等系统也可参考)

准备工作 安装好宝塔面板&#xff0c;再进入宝塔面板安装好MySQL&#xff0c;添加配置一个MySQL数据库gitea&#xff0c;用户名和密码也为gitea &#xff08;也可用命令行做相关操作&#xff0c;自行搜索教程&#xff09; 通过终端下载安装git&#xff0c;添加普通用户git&a…