新闻中心

120亿参数图像模型FLUX.1 Kontext[dev]开源,性能对标GPT - image - 1

2025-09-19
浏览次数:
返回列表

图像模型开源领域迎来新突破!Black Forest Labs正式宣布开源其旗舰级图像编辑模型FLUX.1 Kontext[dev]。这款模型虽仅有12B参数,却展现出与GPT-image-1等闭源大模型相媲美的强大能力,并且支持在消费级显卡上流畅运行。 借助FLUX.1 Kontext[dev],用户可轻松完成多种图像编辑任务。例如让小狗瞬间从画面中消失,为小老鼠“戴上”胡须,添加文字或更换背景也变得异常简单。更值得一提的是,该模型支持多轮指令输入,允许用户反复调整,直到生成满意的图像效果。 FLUX.1 Kontext[dev]具备多项突出特性: 它能根据文本指令直接对现有图像进行修改,实现精准的局部和全局编辑。无需微调即可复用角色、风格和物体元素。支持连续多次编辑操作,在保证视觉一致性的同时显著降低视觉漂移问题。此外,模型还针对NVIDIA Blackwell架构进行了TensorRT权重优化,进一步提升性能表现。 网友们对该模型表现出极大热情,纷纷动手实测。有人创作出戴着墨镜、身穿红毛衣的旅行CPU青蛙;有人复制心仪动漫人物形象;更有创意达人将其与LoRA结合,开发出一款Kontext风格化肖像生成APP。目前,FLUX.1 Kontext[dev]已全面兼容ComfyUI,官方还开放了试玩API接口,点击文末链接上传图片即可立即体验。 不少网友评价Black Forest Labs堪称“图像界的DeepSeek”。此前发布的FLUX.1 Kontext系列因出色的上下文理解与图像编辑能力广受赞誉。不同于传统文生图模型,FLUX.1 Kontext支持上下文感知的图像生成,能够同时接受图像和文本作为提示输入,无缝提取并修改图像细节。目前已推出专业版FLUX.1 Kontext[pro]和高配版FLUX.1 Kontext[max]。 此次开源的FLUX.1 Kontext[dev]继承了该系列的核心优势,专注于图像编辑功能,并可在普通消费级硬件上高效运行。模型架构基于FLUX.1——一种在图像自动编码器潜在空间中训练的整流流Transformer结构,采用双流与单流模块混合设计。在此基础上,通过优化标记序列构建和位置信息编码增强性能。 其中,标记序列构建是将图像经由冻结的FLUX自动编码器编码为潜在上下文图像标记,并送入模型的视觉流;位置编码则利用三维旋转位置嵌入(3D RoPE),为上下文标记引入恒定偏移量,视作虚拟时间步,有效分离上下文块与目标块,同时保留其内部空间结构。 训练过程中,采用整流流匹配损失函数,从FLUX.1文生图检查点出发,收集并整理数百万组关系对用于优化。随后使用潜在对抗扩散蒸馏(LADD)技术对优化后的流匹配模型进行压缩,在减少采样步数的同时提升生成质量,使模型更加高效。最终版本的FLUX.1 Kontext[dev]包含120亿参数,专精于编辑任务,支持迭代式编辑,能在复杂场景中稳定保留角色特征,实现精细的局部或整体修改。 为了评估模型性能,团队推出了自研评测基准KontextBench,涵盖1026个图像-提示对,涉及局部编辑、全局编辑、角色参考、风格参考和文本编辑五大类别。实验结果显示,FLUX.1 Kontext[dev]在多个指标上超越现有开源及闭源模型,包括字节跳动的Bagel、HiDream-E1-Full以及OpenAI的GPT-image-1等。 值得一提的是,FLUX.1 Kontext[dev]特别针对NVIDIA Blackwell架构完成了TensorRT权重优化,不仅大幅提升推理速度,还显著降低内存占用。官方提供了BF16、FP8和FP4三种TensorRT权重变体,用户可根据需求灵活权衡速度、效率与画质,充分发挥新一代GPU硬件潜力。 实际测试反馈显示,该模型推理速度相较前代提升了4到5倍,在NVIDIA H100 GPU上平均5秒内即可完成一次生成,在Replicate平台上的单次调用成本约为0.0067美元,相当于每1美元可运行约149次。不过也有用户指出,在MacBook Pro搭载的M系列芯片上运行时,每次迭代耗时较长,大约需要1分钟。 欢迎各位亲自尝试这一强大工具,并在评论区分享你的使用体验! 试玩链接:https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev 论文链接:https://arxiv.org/abs/2506.15742 代码链接:https://github.com/black-forest-labs/flux/blob/main/docs/image-editing.md

以上就是120亿参数图像模型FLUX.1 Kontext[dev]开源,性能对标GPT - image - 1的详细内容,更多请关注其它相关文章!


# github  # 武汉百度快照seo  # 创业做百度seo  # 宜山网站建设制作  # 泉州seo诊断网站  # 山西百度推广网站优化  # 怎么在各大网站推广文章  # 海阳网站建设推广  # 扬州营销推广难度  # 定制网站建设兼职  # 迭代  # 安装包  # 专业版  # 一键  # 试玩  # 双流  # 前代  # git  # 编码  # 显卡  # app  # 字节  # macbook  # 工具  # mac  # nvidia  # ai  # openai  # gpt  # 开源  # 的是  # 一提  # 个人网站优化推荐高中生 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 单片机加热片怎么制作  忐忑不安是什么意思  如何以管理员身份打开cmd命令行窗口  怎么下载360桌面壁纸  市盈率负值是什么意思  python如何命令行换行  电动车仪表盘上的power是什么意思  新买的固态硬盘如何查  直接gmV是什么意思?直接GMV:定义和概念  宵衣旰食是什么意思  如何用命令行连接本地数据库  品道音响上的power键是什么意思  typescript中范围如何设定  智能锁type-c接口是什么  折叠屏手机哪个有性价比  vue项目如何用typescript  typescript和nodejs哪个好  交管12123协议头不完整怎么弄  净水器上的power是什么意思  typescript怎么传json  什么是夸克模组文件格式  点焊机接触器上power是什么意思  如何查看电脑的固态硬盘  put linux命令如何书写  命令不执行如何处理  j*a怎么保存到数组  怎么把手机里爱奇艺的视频下载到u盘里  openwrt有哪些功能  苹果16要升级哪些功能  typescript怎么加号  单身聊天app有哪些软件 2025最靠谱的单身交友软件推荐  win7怎么取消360显示的壁纸  春运订票什么时候抢票  手机的nfc是什么功能是什么意思  新装固态硬盘如何安装  华为5g手机怎么用4g网络  ai文件里无法找到链接文件要怎么解决步骤  win10如何开启命令行  夸克是什么用途  折叠屏手机为什么凉凉  typescript与es6学哪个  安装固态硬盘如何设置  如何提高固态硬盘速度  typescript接口怎么选  单片机怎么定义字符长度  华硕k20ce怎么装win7  苹果16有哪些可以设置  夸克绑定设备是什么意思  power在录音笔上是什么意思  苹果16更新了哪些功能 

搜索