How DeepSeek’s Lower-Power, Less-Data Model Stacks Up
The Chinese model is competitive with those of major U.S. AI developers on performance and pricing
By Alana PipeFollow and Nate Rattner
https://www.wsj.com/tech/ai/deepseek-ai ... s-725cb464
Chinese company DeepSeek sent shock waves through Wall Street last month after unveiling a new AI model that was competitive against rival U.S. systems despite using less sophisticated chips and a fraction of the processing power. This “large language model” has more than 671 billion adjustable settings known as “parameters” that can be adjusted to determine how the model responds to prompts. Unlike traditional AI models, only a fraction of R1’s adjustable settings are active during any single operation.
https://www.cnbeta.com.tw/articles/tech ... e_vignette
华尔街日报解析DeepSeek“黑科技”:技术创新助其“弯道超车”
2025年02月17日 15:04 123 次阅读 稿源:凤凰网科技 1 条评论
AI 人工智能
2月17日,华尔街日报发文,解析了DeepSeek如何使用较低的开发成本以及性能稍逊的芯片,做到媲美世界上其他最先进的大模型,在一些方面甚至更有优势。也就是“弯道超 车”。以下是DeepSeek的三大“黑科技”:
一、强化学习
根据DeepSeek发表的一篇论文,该大模型能够“以少胜多”,是因为其最新的R1模型更大量地依赖一种称为强化学习的技术。在这个过程中,模型利用自身创建并不断调整的奖励系统,从自身行为中获得反馈。
该模型以现有的大量文本为基础,这些文本被分解成独特的单词、单词片段和标点符号,之后再用不同方式重新组合。这个大语言模型有超过6710亿个可调整的设置,称为“参数”,通过调整这些参数可以决定模型如何回应指令。
模型的参数数量是衡量其规模的一种方式。与传统 人工智能模型不同,R1在任何单一操作过程中,只有一小部分可调整设置处于活动状态。活动参数的减少大幅降低了处理所需的功率和计算量,使得该模型能够在更便宜、没那么先进的芯片上运行。
二、专家混合
DeepSeek的R1模型通过拆分成多个具有不同专长的网络来工作,这种方法称为“专家混合”。某些指令需要不同的专业知识,为了回答指令,模型只会处理它自己认为最相关的网络。
相比之下,传统人工智能模型在一种称为监督学习的过程中,依赖大量预先标记的数据集。预先标记工作由人工完成,既昂贵又耗时。专家混合技术,大大降低了AI的训练成本。
三、开源
DeepSeek的模型还因其开源而独具特色,这意味着公司外部的开发者也可以对其进行重新利用。
该公司的R1模型在由加州大学伯克利分校研究人员运营的Chatbot Arena平台上名列前茅,该平台对人工智能模型进行评分。
在数学和编码等任务方面,R1的表现优于大多数其他模型。
Chatbot Arena 的数据来自使用其网站的访问者,他们提出问题,从两个匿名人工智能模型获取答案,然后对哪个答案更好进行评分。该网站已对约200个模型收集了超过250万张投票。
根据人工智能基准测试公司Artificial Analysis汇编的数据,DeepSeek为开发人员提供的定价低于其智能类别中的许多其他模型。。
人工智能模型的开发者向用户收费,例如那些希望将该技术集成到其产品中的企业,收费依据是双方来回传输的数据量——用行业术语来说就是“令牌”数量。
华尔街日报表示,DeepSeek的中国模式在性能和定价上与美国主要 AI开发商的模式具有竞争力
【华尔街日报添共并狂抽职业liar】-DS为什么这么厉害-技术分析
此博文来自论坛版块:军事天地(Military)
一定没错
不可能
绝对不可能
华尔街日报抽烂你丫的唇