Skip to content

Paddle Multimodal Integration and eXploration, supporting mainstream multi-modal tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox. Equipped with high performance and flexibility.

License

Notifications You must be signed in to change notification settings

PaddlePaddle/PaddleMIX

Folders and files

NameName
Last commit message
Last commit date

Latest commit

9133822 · Feb 13, 2025
Aug 14, 2023
Jun 5, 2024
Oct 21, 2024
Aug 20, 2024
Jan 16, 2025
Oct 31, 2024
Feb 13, 2025
Feb 12, 2025
Oct 7, 2023
Jan 9, 2025
Aug 14, 2023
Aug 14, 2023
Sep 20, 2024
Jun 11, 2024
Jul 1, 2024
Jul 12, 2023
Jul 12, 2023
Oct 16, 2024
Jul 5, 2023
Feb 10, 2025
Feb 10, 2025
Jun 27, 2023
Dec 31, 2024
Nov 21, 2024
Dec 9, 2024
Jan 9, 2025
Aug 15, 2023
Oct 30, 2024
Aug 14, 2023

Repository files navigation

简体中文 | English

💌目录

📰新闻

🔥2025.01.16日直播课 飞桨PP系列模型上新!

  • 🎉PaddleMIX推出新一代统一视频生成控制模型PP-VCtrl!高效应用于人物动画、场景转换等视频生成精确控制任务。辅助条件编码器架构实现各类控制模块灵活接入,通过稀疏残差连接实现特征的高效控制传播,保持原训练视频扩散模型生成器架构不变,避免全量重训练。基于高质量可用数据集做recaption、人体关节点提取和视频分割,并采用多样化数据增强和训练策略,依次满足边缘控制、人体姿态与蒙版控制视频编辑任务的数据需求,显著提升适应能力和生成质量。控制能力和视频质量指标超越开源特定任务方法。1月16日(周四)19:00,直播为您详细解读PP-VCtrl的核心技术与产业应用。🚀报名链接:https://www.wjx.top/vm/m4sb0rh.aspx?udsid=664921

🔥2025.01.07日直播课(已结束) 飞桨PP系列模型上新!

  • 🔗PaddleMIX的直播回放链接:点击
  • 🎉PaddleMIX推出轻量级多模态文档理解模型PP-DocBee!基于多模态大模型实现端到端文档图像理解,破解业界复杂图表文档解析难题。采用ViT+MLP+LLM架构,优化数据合成策略、数据预处理、训练方式、OCR后处理辅助等环节。OCR小模型与LLM大模型结合、基于渲染引擎生产图像数据等众多策略实现问答质量更高,生成成本可控。支持本地gradio部署、OpenAI服务部署,提供飞桨星河社区在线环境快速体验。1月7日(周二)19:00,直播为您详细解读PP-DocBee的核心技术与产业应用。🚀报名链接:https://www.wjx.top/vm/mlDdpSb.aspx?udsid=309483
点击展开活动海报

📣最新进展

🎉 2025.01.20 喜迎外部开发者在星河(AIStudio)社区开发的创作教程页面更新

  • 自9月6日,已收集星河(AIStudio)社区69个精品项目!快来动手体验应用开发吧~
  • 新增「PaddleMIX套件体验官」和「飞桨PaddleMIX开发大赛」活动推出的22个精品项目,涵盖圣诞主题贺卡生成🎄、人物生成👤等多种应用,期待您的体验!此外,还有AI鉴宝🔍、图生音乐🎶等有趣的应用等待您来探索~
  • 🙏 衷心感谢各位开发者基于套件的精彩创作!🚀 诚挚邀请您也来分享您的创意 - 欢迎将教程发布到公开网页或飞桨AI Studio社区

🎉 2025.01.20 支持Aria推理

🎉 2025.01.14 支持deepseek-vl2推理

🎉 2025.01.02 新增自研文档理解模型PP-DocBee推理和训练,支持高性能推理

🎉 2024.12.17 支持GOT-OCR2_0推理和训练

🎉 2024.12.17 支持InternVL2_5(1B、2B、4B、8B)推理

🎉 2024.11.27 支持Janus/JanusFlow推理

🎉 2024.11.21 支持MiniCPM-V-2_6推理

🎉 2024.11.8 支持DenseConnectorAquila-VL-2B-llava-qwen推理

🎉 2024.11.1 支持LLaVA-OneVisionLLaVA-Critic推理

点击展开更多

🎉 2024.10.31 喜迎外部开发者的创作教程页面更新

  • 🌟 自9月6日发起大模型套件精品项目征集活动以来,我们收到了30个优质开发者项目,其中25个精品项目已通过平台评估并成功加精。

  • 🙏 衷心感谢各位开发者基于套件的精彩创作!🚀 诚挚邀请您也来分享您的创意 - 欢迎将教程发布到公开网页或飞桨AI Studio社区!

🔥2024.10.11 发布PaddleMIX v2.1

  • 支持PaddleNLP 3.0 beta版本,抢先体验其最新功能。

  • 新增Qwen2-VLInternVL2Stable Diffusion 3 (SD3)等前沿模型。

  • 发布自研多模数据能力标签模型PP-InsCapTagger;可用于数据的分析和过滤,试验案例表明在保持模型效果的条件下可减少50%的数据量,大幅提高训练效率。

  • 多模态大模型InternVL2、LLaVA、SD3、SDXL适配昇腾910B,提供国产计算芯片上的训推能力。

2024.07.25 发布PaddleMIX v2.0

  • 多模态理解:新增LLaVA系列,Qwen-VL等;新增Auto模块统一SFT训练流程;新增mixtoken训练策略,SFT吞吐量提升5.6倍。
  • 多模态生成:发布PPDiffusers 0.24.1版本,支持视频生成能力,文生图模型新增LCM。新增飞桨版peft,accelerate后端。提供基于飞桨开发的ComfyUI插件。
  • 多模态数据处理工具箱DataCopilot:支持自定义数据结构,数据转换,离线格式检查;支持基本的统计信息,数据可视化功能。

2023.10.7 发布 PaddleMIX v1.0

  • 新增图文预训练模型分布式训练能力,BLIP-2支持千亿规模训练
  • 新增跨模态应用流水线AppFlow,一键支持自动标注,图像编辑,音生图等11种跨模态应用
  • PPDiffusers发布 0.19.3 版本,新增SDXL及相关任务

🌈简介

PaddleMIX是基于飞桨的多模态大模型开发套件,聚合图像、文本、视频等多种模态,覆盖视觉语言预训练,微调,文生图,文生视频,多模态理解等丰富的多模态任务。它提供开箱即用的开发体验,同时支持灵活定制,满足不同需求,助力探索通用人工智能。

PaddleMIX工具链包括数据处理、模型开发、预训练、精调和推理部署,支持主流多模态模型如 EVA-CLIP、BLIP-2、Stable Diffusion 等。通过跨模态任务流水线 AppFlow 和文生图应用 pipeline,开发者可以快速构建多模态应用。

多模态理解效果示例如下:

多模态理解🤝融合了视觉👀和语言💬处理能力。包含基础感知、细粒度图像理解和复杂视觉推理🧠等功能。我们的模型库调用提供了单图、多图和视频推理的功能实际应用,功能包括自然图像摘要📝、问答🤔、OCR🔍、情感识别❤️😢、专业图像分析🔬和代码解析💻。这些技术可应用于教育📚、医疗🏥、工业🏭等多个领域,实现从静态图像🖼️到动态视频🎥的全面智能分析。欢迎您的体验和探索~

多模态生成效果示例如下:

多模态生成✍️融合了文本💬与视觉👀的创造能力。涵盖了从文字生成图像🖼️到文字生成视频🎥的各类技术,包括 Stable Diffusion 3、Open-Sora等先进模型。我们在ppdiffusers提供了单图生成、多图合成和视频生成的实际应用,功能涉及艺术创作🎨、动画制作📽️、内容生成📝等。通过这些技术,可以在教育📚、娱乐🎮、广告📺等领域实现从静态图像到动态视频的创意生成。欢迎您的体验和探索~

特色应用效果示例如下(点击标题可快速跳转在线体验):

ComfyUI创作工作流 艺术风格二维码模型 Mix叠图
二次元文生图 AI绘画|50+Lora风格叠加 ControlNet|图片局部重绘

✨主要特性

📱丰富的多模态功能

PaddleMIX支持大量最新主流的算法基准以及预训练模型,覆盖图文预训练,文生图,跨模态视觉任务,实现图像编辑、图像描述、数据标注等多样功能。传送门📱模型库

🧩简洁的开发体验

PaddleMIX 提供统一的模型开发接口,支持开发者快速集成和定制模型。借助 Auto 模块,用户可以高效加载预训练模型、实现 Tokenization,并通过简化的 API 轻松完成模型的训练、微调(SFT)、推理与部署。此外,Auto 模块支持开发者自定义模型的自动化集成,确保灵活性与可扩展性,同时提升开发效率。

💡高性能分布式训推能力

PaddleMIX提供高性能分布式训练与推理能力,融合✨Fused Linear✨、✨Flash Attention✨等加速算子,支持🌀BF16混合精度训练和4D混合并行策略,并通过优化推理性能,包括卷积布局、GroupNorm融合及旋转位置编码优化,显著提升大规模预训练和高效推理性能。

🔧特色功能与工具

多模态数据处理工具箱DataCopilot,加速模型迭代升级。让开发者根据特定任务以低代码量实现数据的基本操作。传送门🏆特色模型|工具

🔍安装

1. 克隆PaddleMIX仓库

git clone https://github.com/PaddlePaddle/PaddleMIX
cd PaddleMIX

2. 创建虚拟环境

conda create -n paddlemix python=3.10 -y
conda activate paddlemix

3. ‼️安装PaddlePaddle

方法 1: 一键安装(GPU/CPU推荐)

  • CUDA 11.x或12.3
  • PaddlePaddle 3.0.0b1
sh build_paddle_env.sh

方法 2: 手动安装

关于PaddlePaddle安装的详细教程请查看Installation

4. ‼️安装依赖

方法 1: 一键安装(推荐)

运行以下命令来自动安装所有必要的依赖:

sh build_env.sh

方法 2: 手动安装

# 安装 PaddleMIX
pip install -e .
# 安装 ppdiffusers
cd ppdiffusers
pip install -e .
cd ..

5. ‼️验证安装

sh check_env.sh

环境和依赖推荐版本:
- paddlepaddle: 3.0.0b2或develop版本
- paddlenlp: 3.0.0b2
- ppdiffusers: 0.29.0
- huggingface_hub: 0.23.0

6. 安装自定义算子(可选)

  • 部分模型需要安装自定义算子(FastLayerNorm、FusedLayerNorm),例如EVA-CLIP、DIT_LLAMA等。
  • 非CUDA环境(例如昇腾环境)则跳过
cd paddlemix/external_ops
python setup.py install

🔥教程

快速开始

实操演练&范例

多硬件使用

数据准备&训练微调

推理部署

📱模型库

多模态理解 多模态生成 多模态大一统
  • 图文预训练
  • 开放世界视觉模型
  • 更多模态预训练模型
  • 数据分析
  • 文生图
  • 文生视频
  • 音频生成
  • 统一多模态模型
  • 更多模型能力,可参考模型能力矩阵

    📊多模数据处理工具箱DataCopilot

    基础能力 数据分析 数据生成
  • 使用文档
  • 能力标签模型
  • 文档类数据生成方案
  • 更多数据相关功能,可参考DataCopilot主页

    🏆特色模型|工具

    💎跨模态任务流水线AppFlow

    简介(点击展开)

    AppFlow作为PaddleMIX的跨模态应用任务流水线,具备强大的功能与易用性。通过接入LLaVA、Stable Diffusion等前沿算法,AppFlow已全面覆盖图像、文本、音频、视频等多种模态,并通过流水线式的灵活组合,构建了10余种多模态应用,涵盖图文生成、文本视频生成、文本音频生成、图像理解等多个方面,为用户提供丰富的demo示例。AppFlow的特色在于其一键预测功能,用户无需繁琐训练与大量编码,仅需简单命令即可完成模型推理,极大地降低了使用门槛。同时,AppFlow充分利用飞桨框架动静统一优势,用户只需设置简单参数,即可自动完成模型的动转静导出及高性能推理,提高工作效率并优化模型性能,实现一站式应用部署。

    传送门应用文档示例

    💎多模态数据处理工具箱DataCopilot

    简介(点击展开)

    在真实的应用场景有大量使用专有数据微调多模态大模型来提升模型效果的需求,此过程中数据要素成为核心。基于此PaddleMIX提供了数据处理和分析的工具DataCopilot,使开发者可在PaddleMIX套件完成端到端的开发体验。

    PP-InsCapTagger(Instance Capability Tagger) 是 DataCopilot 基于 PaddleMIX 实现的数据集能力标签模型,用于为多模态数据实例能力打标,通过实例能力分布对数据集进行优化,可以提高模型训练效率,为数据集分析和评价提供了一种高效的方案。 结合模型推理打标结果对LLaVA SFT数据集进行优化,可以提高LLaVA模型SFT阶段50%的训练效率。

    传送门应用文档示例

    PP-InsCapTagger(点击展开)
    Model ScienceQA TextVQA VQAv2 GQA MMMU MME
    llava-1.5-7b (origin) 66.8 58.2 78.5 62 - -
    llava-1.5-7b (rerun) 69.01 57.6 79 62.95 36.89 1521
    323
    llava-1.5-7b (random 50%) 67.31 55.6 76.89 61.01 34.67 1421
    286
    llava-1.5-7b (our 50%) 70.24 (+2.93) 57.12 (+1.52) 78.32 (+1.43) 62.14 (+1.13) 37.11 (+2.44) 1476 (+55)
    338 (+52)

    传送门应用文档示例

    🤔FAQ

    关于我们项目的一些常见问题解答,请参考FAQ。如果您的问题没有得到解答,请随时在Issues中提出

    ❤️致谢

    📝许可证书

    本项目的发布受Apache 2.0 license许可认证。

    📌社区交流

    • 微信扫描二维码并填写问卷,即可加入交流群与众多社区开发者以及官方团队深度交流。

    About

    Paddle Multimodal Integration and eXploration, supporting mainstream multi-modal tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox. Equipped with high performance and flexibility.

    Topics

    Resources

    License

    Citation

    Stars

    Watchers

    Forks

    Packages

    No packages published

    Languages