首页 关于我们 成功案例 网站营销 电商设计 新闻中心 联系方式
QQ联系
电话联系
手机联系
QQ联系
电话联系
手机联系

650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目

发布时间:2025-04-24 00:00
发布者:雪夜
浏览次数:

明敏 发自 凹非寺量子位 | 公众号 qbitai

650亿参数大模型的预训练方案一经发布便开源,训练速度较传统方案提升了38%。这就是由Colossal-AI最新推出的类LLaMA基础大模型预训练方案。

在“百模大战”的背景下,拥有自家大模型被视为核心竞争力。在这个关键时刻,愿意开源大模型的公司寥寥无几。然而,从头训练一个大模型对技术和资金要求极高。因此,Colossal-AI的最新开源举措可谓是顺应了当前形势的需求。而且它还允许商业使用,仅需4步即可开箱即用。

具体项目内容如下,请继续阅读:

开源地址:https://www./link/b9531e7d2a8f38fe8dcc73f58cae9530

仅需32张A100/A800即可使用。自从Meta开源LLaMA以来,掀起了一波微调项目的热潮,如Alpaca、Vicuna、ColossalChat等都是基于此构建的。

然而,LLaMA只开源了模型权重且限制商业使用,微调能够提升和注入的知识与能力也相对有限。对于真正希望投身大模型浪潮的企业来说,训练自己的核心大模型至关重要。

开源社区此前已推出了一系列工作:

RedPajama:开源可商用类LLaMA数据集(无训练代码和模型)OpenLLaMA:开源可商用类LLaMA 7B/13B模型,使用EasyLM基于JAX和TPU训练Falcon:开源可商用类LLaMA 7B/40B模型(无训练代码)但这些还不够,因为对于最主流的PyTorch+GPU生态,仍缺乏高效、可靠、易用的类LLaMA基础大模型预训练方案。

因此,Colossal-AI交出了最新的开源答案。

仅需32张A100/A800,即可完成650亿参数类LLaMA大模型预训练,训练速度提升38%。

而像原生PyTorch、FSDP等,则因显存溢出无法运行该任务。Hugging Face accelerate、DeepSpeed、Megatron-LM也未对LLaMA预训练进行官方支持。

项目上手非常简单,只需四步:

Lemonaid

AI音乐生成工具,在音乐领域掀起人工智能革命

下载

1、安装Colossal-AI2、安装其他依赖项3、数据集4、运行命令具体代码如下:

第一步、安装Colossal-AI。

代码语言:javascript代码运行次数:0运行复制```javascript git clone -b example/llama https://www./link/b9531e7d2a8f38fe8dcc73f58cae9530.gitcd ColossalAI# install and enable CUDA kernel fusionCUDA_EXT=1 pip install .

<code>
第二步、安装其他依赖项。
<p>代码语言:javascript代码运行次数:0<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="<a href="https://www./link/c9041cfd2a40932691855abd98fd219a">http://www.w3.org/2000/svg"><path</a> d="M6.66666 10.9999L10.6667 7.99992L6.66666 4.99992V10.9999ZM7.99999 1.33325C4.31999 1.33325 1.33333 4.31992 1.33333 7.99992C1.33333 11.6799 4.31999 14.6666 7.99999 14.6666C11.68 14.6666 14.6667 11.6799 14.6667 7.99992C14.6667 4.31992 11.68 1.33325 7.99999 1.33325ZM7.99999 13.3333C5.05999 13.3333 2.66666 10.9399 2.66666 7.99992C2.66666 5.05992 5.05999 2.66659 7.99999 2.66659C10.94 2.66659 13.3333 5.05992 13.3333 7.99992C13.3333 10.9399 10.94 13.3333 7.99999 13.3333Z" fill="currentcolor"></path></svg>运行<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="<a href="https://www./link/c9041cfd2a40932691855abd98fd219a">http://www.w3.org/2000/svg"><path</a> clip-rule="evenodd" d="M4.5 15.5V3.5H14.5V15.5H4.5ZM12.5 5.5H6.5V13.5H12.5V5.5ZM9.5 2.5H3.5V12.5H1.5V0.5H11.5V2.5H9.5Z" fill="currentcolor" fill-rule="evenodd"></path></svg>复制<code>javascript cd examples/language/llama# install other dependenciespip install -r requirements.txt# use flash attentionpip install xformers</code>

第三步、数据集。

默认数据集togethercomputer/RedPajama-Data-1T-Sample将在首次运行时自动下载,也可通过-d或—dataset指定自定义数据集。

第四步、运行命令。

已提供7B和65B的测速脚本,仅需根据实际硬件环境设置所用多节点的host name即可运行性能测试。

代码语言:javascript代码运行次数:0运行复制javascript cd benchmark_65B/gemini_autobash batch12_seq2048_flash_attn.sh

<code>
对于实际的预训练任务,启动命令与速度测试一致,如使用4节点*8卡训练65B的模型。</p><p>代码语言:javascript代码运行次数:0<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="<a href="https://www./link/c9041cfd2a40932691855abd98fd219a">http://www.w3.org/2000/svg"><path</a> d="M6.66666 10.9999L10.6667 7.99992L6.66666 4.99992V10.9999ZM7.99999 1.33325C4.31999 1.33325 1.33333 4.31992 1.33333 7.99992C1.33333 11.6799 4.31999 14.6666 7.99999 14.6666C11.68 14.6666 14.6667 11.6799 14.6667 7.99992C14.6667 4.31992 11.68 1.33325 7.99999 1.33325ZM7.99999 13.3333C5.05999 13.3333 2.66666 10.9399 2.66666 7.99992C2.66666 5.05992 5.05999 2.66659 7.99999 2.66659C10.94 2.66659 13.3333 5.05992 13.3333 7.99992C13.3333 10.9399 10.94 13.3333 7.99999 13.3333Z" fill="currentcolor"></path></svg>运行<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="<a href="https://www./link/c9041cfd2a40932691855abd98fd219a">http://www.w3.org/2000/svg"><path</a> clip-rule="evenodd" d="M4.5 15.5V3.5H14.5V15.5H4.5ZM12.5 5.5H6.5V13.5H12.5V5.5ZM9.5 2.5H3.5V12.5H1.5V0.5H11.5V2.5H9.5Z" fill="currentcolor" fill-rule="evenodd"></path></svg>复制```javascript
colossalai run --nproc_per_node 8 --hostfile YOUR_HOST_FILE --master_addr YOUR_MASTER_ADDR pretrain.py -c '65b' --plugin "gemini" -l 2048 -g -b 8 -a</code>

使用Colossal-AI gemini_auto并行策略,可以便捷实现多机多卡并行训练,同时降低显存消耗并保持高速训练。用户还可以根据硬件环境或实际需求,选择流水并行+张量并行+ZeRO1等复杂并行策略组合。

通过Colossal-AI的Booster Plugins,用户可以便捷自定义并行训练,如选择Low Level ZeRO、Gemini、DDP等并行策略。Gradient checkpointing通过在反向

传播时重新计算模型的activation来减少内存使用。引入Flash attention机制可以加速计算并节省显存。用户可以通过命令行参数便捷控制数十个类似的自定义参数,在保持高性能的同时为自定义开发保持了灵活性。

Colossal-AI的最新ShardFormer极大降低了使用多维并行训练LLM的上手难度。现已支持包括LLaMA在内的多种主流模型,且原生支持Huggingface/transformers模型库。无需改造模型,即可支持多维并行(流水、张量、ZeRO、DDP等)的各种配置组合,能够在各种硬件配置上都发挥卓越的性能。

Colossal-AI:大模型系统基础设施。Colossal-AI已成为大模型趋势下的明星开发工具和社区。其上述解决方案已在某世界500强企业落地应用,在千卡集群上表现出色,仅需数周即可完成千亿参数私有大模型预训练。上海AI Lab与商汤等新近发布的InternLM也基于Colossal-AI在千卡实现高效预训练。

自开源以来,Colossal-AI多次在GitHub热榜位列世界第一,获得 GitHub Star超3万颗,并成功入选SC、AAAI、PPoPP、CVPR、ISC等国际 AI 与HPC顶级会议的官方教程,已有上百家企业参与共建Colossal-AI生态。

它由加州伯克利大学杰出教授 James Demmel 和新加坡国立大学校长青年教授尤洋领导开发。Colossal-AI基于PyTorch,通过高效多维并行、异构内存等,主打降低AI大模型训练/微调/推理的开发与应用成本,减少GPU需求。其背后公司潞晨科技,近期获得数亿元A轮融资,在成立18个月内迅速连续完成三轮融资。


# AI大模型  # 在这个  # 亿元  # 加州  # 都是  # 自己的  # 显存  # 自定义  # 仅需  # 多维  # 开源  # git  # llama  # https  # pytorch  # github  # 命令行参数  # pip  # red  # gemini  # ai  # 工具 


相关文章: 特洛伊斑马捕获秘技轻松解锁游戏稀有宝贝  语音纪录还能同步笔迹?三星Notes这5大功能亮点全攻略  新手武器选对赢一半 秒懂《永劫无间》零基础选器攻略  大华股份发布多款创新显控产品,全场景方案亮相ISE展会  苹果iOS 26.3及iPadOS 26.3出BUG 测试版部分功能失效  曝小米多款机型将搭载定制声学系统 包括小米17T Pro  三星内存利润暴涨到3倍 自己人都受不了:手机部门喊话有压力  美团旅行:北上成渝广深为“反向过年”TOP目的地  扶疏技能全解析:水球召唤与全屏回蓝的辅助艺术  苹果将为Apple Support带来更多AI功能 功能升级界面焕新  『信长之野望 霸道』 举办「繁中玩家支援特别活动」 送出豪华奖品!  香港科技大学与英特尔共建联合实验室,聚焦高能效智能计算  娜可露露铭文三套装 脆皮的克星如此诞生!  苹果iPhone Fold折叠屏更多细节遭曝光 电池刷新记录?  拳盾双修!霰弹主 C 妮塔的暴力美学指南  小盒子里创世纪 沙盒模拟游戏《潘多拉的玩具盒》试玩版上线!  中元节天灯照归途环任务高收益全攻略  国产折叠屏霸主!华为四款折叠屏机型累计销量破百万  CDPR股价大涨 分析师坚称《巫师3》DLC 5月发售  果粉狂欢!苹果三大产品线即将更新  SpaceX或推出&ldquo;星链手机&rdquo; 设计围绕神经网络优化  《暗黑2》原班人马打造!动作RPG《暗黑天堂(Darkhaven)》公布  火影忍者卡卡西攻击机制深度解析  Kiwi TCMS 15.3 发布,开源测试管理系统  曝iPhone 17e核心升级仅为A19心片 灵动岛别想了  泛嘉全新企业服务智能体亮相构建“行为-价值-权益”全链路生态  抢票忘、开会慌总错过?鸿蒙6日历专治各种“记不住”  暴力魔改!大神把ROG Matrix 5090 BIOS刷进Astral:解锁额外200W功耗  《WWE 2K26》公布 Steam国区298元、依旧无中文  OpenAI高开低走 Sora下载量连续二个月出现下滑现象 


相关栏目: 【 科技资讯38001 】 【 网络动态13059 】 【 技术学堂11871 】 【 网络推广75774 】 【 品牌营销52040 】 【 AI推广53525 】 【 推荐站点126806