华为NPU昇腾芯片是否属于重大战略方向性失误,应该选择GPGPU,导致CANN软件栈面临作废状态?
华为不搞GPGPU本身就是非常荒唐的,NPU路线属于严重的战略失误!
根据网上一些信息,据说内部领导的认知是根本不知道GPU是什么东西,觉得NPU更高级,不清楚真实决策逻辑,但是可以窥见决策层的认知水平是严重落后AI发展专业知识的,这也导致了华为在AI Infra整体软件架构出现方向性错误!
华为AI路线可能要推到重来
版主: Softfist
#2 Re: 华为AI路线可能要推到重来
大力出奇迹。当年intel的CISC指令集理论上也不如RISC,但一直打得RISC不能商业化。直到出了手机。
不过在人工智能华为没有intel当年在CPU领域的地位。
不过在人工智能华为没有intel当年在CPU领域的地位。
#3 Re: 华为AI路线可能要推到重来
作者:litterCore
链接:https://www.zhihu.com/question/19252522 ... 5533117954
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
本质上是GPGPU有SIMT前端(封装了SIMT前端的SIMD),实现通用调度和编程易用,能拿到很好的开箱性能
NPU/TPU还是传统的SIMD,流水要手动编排,时延隐藏没SIMT那么高效,导致写高性能kernal是十分困难且低效,实现易用几乎不可能,生态完善远远比GPGPU困难
到昇腾910D这一代,就引入了SIMT前端(虽然整体还是偏异构流水线)
SIMT相比传统SIMD NPU,优势在易用性上,无需开发者费力把数据凑成合适的矢量长度。从硬件设计上解决大部分SIMDdatapath的流水编排问题。线程可以独立执行,使得每个thread相对灵活,允许每个线程有不同的分支,一组执行相同指令的线程由硬件动态组织成warp,加快了SIMD的计算并行度
SIMT使用Warp来掩盖指令流水是基于运行时的具体信息,即使是非资深的CUDA开发者,也能很快写出开箱性能优秀的kernal
对SIMD NPU,开发者和编译器只能基于静态信息进行流水编排,很难做到足够均衡,使得SIMD进行手工/编译器自动流水编排相对困难,资深开发者也很难把流水编排足够好
既然华为商业上选择了倒卖衣柜,那至少客户能用好,比起理论硬件性能,个人认为更应该关注不同层级的开发者可以拿到性能,易用与性能上限应该做到权衡,好的软硬件协同架构生态才能诞生出更多算法创新和模型奇迹
(谷歌用TPU训出了SOTA水平的Gemini,但核心在于这是谷歌自用,不是卖给客户的,除非昇腾肯把软硬件架构全部开源,且客户肯花时间研究体系结构而华为自用的模型团队呢.....至少现在还不能指望到SOTA水平)
当然,NB的architect也可以提出新的执行模型,比SIMT的更易用,堪比传统SIMD的理论性能,这个全新的故事延续下去,才能真正意义上超越NV会有这样的architect吗
链接:https://www.zhihu.com/question/19252522 ... 5533117954
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
本质上是GPGPU有SIMT前端(封装了SIMT前端的SIMD),实现通用调度和编程易用,能拿到很好的开箱性能
NPU/TPU还是传统的SIMD,流水要手动编排,时延隐藏没SIMT那么高效,导致写高性能kernal是十分困难且低效,实现易用几乎不可能,生态完善远远比GPGPU困难
到昇腾910D这一代,就引入了SIMT前端(虽然整体还是偏异构流水线)
SIMT相比传统SIMD NPU,优势在易用性上,无需开发者费力把数据凑成合适的矢量长度。从硬件设计上解决大部分SIMDdatapath的流水编排问题。线程可以独立执行,使得每个thread相对灵活,允许每个线程有不同的分支,一组执行相同指令的线程由硬件动态组织成warp,加快了SIMD的计算并行度
SIMT使用Warp来掩盖指令流水是基于运行时的具体信息,即使是非资深的CUDA开发者,也能很快写出开箱性能优秀的kernal
对SIMD NPU,开发者和编译器只能基于静态信息进行流水编排,很难做到足够均衡,使得SIMD进行手工/编译器自动流水编排相对困难,资深开发者也很难把流水编排足够好
既然华为商业上选择了倒卖衣柜,那至少客户能用好,比起理论硬件性能,个人认为更应该关注不同层级的开发者可以拿到性能,易用与性能上限应该做到权衡,好的软硬件协同架构生态才能诞生出更多算法创新和模型奇迹
(谷歌用TPU训出了SOTA水平的Gemini,但核心在于这是谷歌自用,不是卖给客户的,除非昇腾肯把软硬件架构全部开源,且客户肯花时间研究体系结构而华为自用的模型团队呢.....至少现在还不能指望到SOTA水平)
当然,NB的architect也可以提出新的执行模型,比SIMT的更易用,堪比传统SIMD的理论性能,这个全新的故事延续下去,才能真正意义上超越NV会有这样的architect吗