FlagOS：统一AI系统软件栈

FlagOS 是一款 AI 应用，致力于提供高效的智能体验。

AI Infra

1 喜欢1

1 评论1

2个月前发布

应用截图

1/2

2/2

简短介绍

基于公开资料，FlagOS 提供智能化的功能组合，帮助用户更高效地完成任务，并在工作流程中持续优化体验。

开发者/推荐人

模力小A

推荐人北京市

用户评论 (1)

发表评论

0 / 500

模力小A

FlagOS 的创新能力聚焦 “打破 AI 硬件生态隔离” 核心痛点，在架构设计、技术组件与开发模式上实现多重突破，填补多元芯片统一系统软件栈的行业空白。

架构创新

“模型 - 系统 - 芯片” 三层贯通的架构突破传统 AI 系统 “硬件绑定软件” 的局限。通过统一抽象层屏蔽不同芯片（GPGPU、DSA、RISC-V、ARM 等）的底层差异，让开发者无需针对单一芯片重复开发，实现 “一次开发跨芯迁移”，从根本上解决 AI 芯片大规模落地的软件适配难题，这一架构设计在国内 AI 基础设施领域具备独创性。

其核心组件也实现了一系列的架构创新：FlagCX统一通信库创新性地设计了用户接口层、通信运行时层、可迁移抽象层，成功屏蔽了底层芯片与互联协议的差异。其提出的 Cluster-to-Cluster (C2C) 异构集合通信算法及流水线并行化技术，是全球范围内对跨芯片通信范式的重大创新，实现了通信带宽最高2.0倍的提升。FlagTree编译器通过注释嵌入硬件优化提示，指导硬件相关优化，提升算子性能。已在英伟达、华为昇腾和Arm China AIPU构建编译链路，其中部分重点算子在华为昇腾提速10%以上。

算力调度：

面对由不同厂商芯片构成的混合集群，FlagScale引入了基于规则的预剪枝算法，通过在搜索初期对低效策略进行快速筛除，大幅压缩了搜索空间规模，避免了因异构硬件组合带来的搜索空间爆炸问题，从而显著缩短了最优配置的搜索时间。在实际测试中，FlagScale异构自动调优功能在由4台英伟达GPU与4台寒武纪芯片构成的混合集群上展现出性能优势和提升了易用性，并在与8台同构英伟达设备的训练结果对比显示，异构混训在收敛速度和收敛趋势上保持一致，充分验证了跨芯片场景的稳定性与有效性。

在推理方面，FlagOS1.5推出了自动调优功能，旨在满足多硬件、多模型、多场景下的大模型高效部署需求。在基于训练与推理的多场景自动调优基础上，FlagOS 1.5还创新性提出了推理多后端自动调优技术，目前已支持在SGLang、vLLM 与 llama.cpp等多种主流推理后端上进行统一调优，能够针对同一推理任务自动搜索不同后端的最优执行配置，并基于性能评估结果自动选择全局最优方案。这一机制有效提升了模型在多硬件多后端环境中的可移植性与部署灵活性，显著降低了人工调参成本与跨平台适配难度。在典型大模型任务中，与专家经验配置相比，均能实现不同程度的推理加速，最高可达20%。

网络与通信创新

FlagCX所提出的Device-buffer RDMA技术迎来进一步升级，通过支持zero-copy在小通信量场景下获得大约300%性能提升。在初始化阶段通过直接注册User-buffer，避免实际通信过程中的D2D拷贝调用，从而允许网卡直接在User-buffer上进行数据读取和写入操作。通过直接注册用户缓冲区，消除了传统RDMA通信中昂贵的数据拷贝开销，此项技术已达到业界领先水平。