英伟达宣誓开源未来,全力推进GPU内核模块开源化,意欲告别闭源驱动时代

时间:2024-07-23 05:15:24
编辑:001资源网

近日消息,英伟达宣布了一项重要决策,将全力拥抱开源GPU内核模块的发展路径。通过后续版本的迭代,英伟达承诺将为GeForce和Workstation Linux用户带来更为强劲且全面的功能支持,预示着闭源驱动程序时代或将逐渐落幕,开源技术的全面应用将开启GPU领域的新篇章。

英伟达宣誓开源未来,全力推进GPU内核模块开源化,意欲告别闭源驱动时代

英伟达于 2022 年 5 月发布公告,宣布自 R515 驱动程序开始,在 GPL / MIT 双许可证模式下发布开源 GPU 内核模块。

开发人员可以追踪代码路径,了解内核事件调度如何与他们的工作负载交互,以更快地进行根本原因调试。

此外,企业软件开发人员现在可以将驱动程序无缝集成到为其项目配置的定制 Linux 内核中。

英伟达表示经过 2 年多的发展,开源 GPU 内核模块实现了同等或者更好的性能,并增加了大量新功能:

支持异构内存管理(HMM)

机密计算

和 Grace 平台的一致性存储器架构

支持的 GPU

注:并非所有 GPU 都兼容开源 GPU 内核模块。

英伟达表示在 Grace Hopper 或 Blackwell 等尖端平台,用户必须使用开源 GPU 内核模块,这些平台不支持专有驱动程序。

对于 Turing、Ampere、Ada Lovelace 或 Hopper 架构的较新 GPU,英伟达建议改用开源 GPU 内核模块。

对于 Maxwell、Pascal 或 Volta 架构的旧版 GPU,不兼容开源 GPU 内核模块平台,推荐用户继续使用英伟达专有驱动程序。

英伟达革新AI微调范式:Llama 3借RankRAG框架力压GPT-4,重写大模型竞争格局

最近,一场人工智能领域的革新风暴正在悄然兴起,源自佐治亚理工学院与英伟达的杰出华人学者们,他们携手打造了一款革命性的微调框架——RankRAG。

英伟达革新AI微调范式:Llama 3借RankRAG框架力压GPT-4,重写大模型竞争格局

不同于传统RAG(Retrieval-Augmented Generation)流程的繁琐与冗长,RankRAG巧妙地将检索、排名与生成三大核心环节融合于单一的大型语言模型(LLM)之中,极大地提升了模型的工作效率与效能。

RAG(Retrieval-Augmented Generation)是LLM部署中常用的技术,特别适合需要大量事实知识的文本生成任务。通常,RAG的流程是:基于文本编码的稠密模型从外部数据库中检索top-k文本段,然后LLM进行读取和生成。这个流程已经被广泛使用,但也有局限,比如k值选择。如果k值太大,即使是支持长上下文的LLM也难以快速处理;如果k值太小,又需要高召回率的检索机制,而现有的检索器和排名模型各有不足。

基于上述问题,RankRAG框架提出了新思路:通过微调扩展LLM能力,让LLM自己完成检索和排名。实验结果表明,这种方法不仅提高了数据效率,还显著增强了模型性能。特别是在多个通用基准和生物医学知识密集型基准上,RankRAG微调出的Llama38B/70B模型,分别超过了ChatQA-1.58B和ChatQA-1.570B模型。

RankRAG的关键在于其高度的交互性和可编辑性。用户不仅可以实时查看AI生成的内容,还能直接在界面上进行编辑和迭代。这种即时反馈机制大大提高了工作效率,让AI真正成为创作过程中的得力助手。更令人兴奋的是,本次更新让这些Artifacts不再局限于Claude平台内部,用户可以轻松地将它们分享到任何地方。

这次RankRAG微调框架的创新还包括两个阶段的指令微调。第一阶段进行监督微调(SFT),混合多个数据集以提高LLM的指令跟随能力。第二阶段的微调数据集包含多种QA数据、检索增强的QA数据和上下文排名数据,进一步提升LLM的检索和排名能力。

在实验中,RankRAG在九个通用领域数据集上的表现始终优于当前的开源SOTA模型ChatQA-1.5。特别是在具有挑战性的QA任务中,如长尾QA和多跳QA,RankRAG比ChatQA-1.5提高了10%以上的性能。

总的来说,RankRAG不仅在检索和生成任务中表现出色,还在生物医学RAG基准Mirage上展示了其强大的适应性。即使在没有微调的情况下,RankRAG在医学问答任务上的表现也超过了许多专业领域的开源模型。

随着RankRAG框架的提出和不断完善,我们有理由相信,AI与人类协作创作的未来将更加光明。无论是独立开发者还是研究人员,都能利用这一创新框架激发出更多创意和可能性,推动技术和应用的发展。

英伟达匠心打造6GB显存RTX 3050新版本:搭载2304 CUDA核心,70W低功耗设计崭露头角

1月15日最新披露,VideoCardz 揭晓英伟达潜心研发中的6GB显存RTX 3050显卡,透露即将在未来数周内上市动态。

英伟达匠心打造6GB显存RTX 3050新版本:搭载2304 CUDA核心,70W低功耗设计崭露头角

与 2022 年 1 月推出的 8GB 显存版 RTX 3050 不同,这款新型号的内核数更少、显存更少、带宽和功耗也更小。

这款显卡配备 2304 个 CUDA 核心,规格类似于 RTX 3050 OEM 版本,但显存总线位宽减少到 96bit,因此带宽直接从 224 GB/s 下降至 168 GB/s。

TX 3050 8GB 与 RTX 3050 6GB 对比

CUDA:2560 → 2304(-10%)

显存:8GB → 6GB(-25%)

带宽:224 GB/s → 168 GB/s(-25%)

GPU 频率: 1552/1777 MHz → 1042/1470 MHz(-32%/-17%)

TDP:130W → 70W(-46%)

从规格来看,这款显卡完全可以命名为 RTX 3040 而不是 3050,外媒预测它的定价会在 179 美元(当前约 1285 元人民币)左右,相比现有 RTX 3050 更加划算。

此外,考虑到仅 70W 的 TDP 设计,这款显卡完全可以仅凭 PCIe 供电轻松驱动,所以相信会有很多厂商推出无外接供电的刀卡,甚至被动散热式显卡,敬请期待。

相关攻略
相关推荐