散仙谷 http://www.webjb.org/webjb/sanxian/



送交者: SR 于 2025-05-01 04:36:12

据悉,DeepSeek R2的参数量将比R1模型翻倍,达到约1.2万亿个参数。更令人关注的是,其企业端使用成本预计比ChatGPT-4便宜97.3%,输入端费用约为每百万tokens 0.07美元,输出端为每百万tokens 0.27美元。

如果消息属实,DeepSeek R2将成为市面上性价比最高的大语言模型,有望在价格战中大幅压制GPT-4 Turbo、Gemini 2.0等国外竞争对手。

此次传闻中的另一大亮点是,DeepSeek R2模型几乎完全依赖华为Ascend 910B芯片进行训练。据称,该模型在Ascend 910B集群上的利用率达到了82%,并且基本上完全在华为芯片上完成训练。


阅读次数:341

所有跟贴:

加跟贴

笔名: 密码: 注册笔名请按这里
标题:   分类主题名:

内容(可选项):

URL(可选项):
URL标题(可选项):
图像(可选项): 图片上传工具



所有跟贴·加跟贴·ɢɹ
Copyright © 2000 - 2020 webjb.org