F-Lite – Freepik联合FAL开源的文生图模型-爱论文

F-Lite是什么

F-Lite是Freepik团队联合FAL开源的10B参数的文生图模型。基于Freepik内部80M有版权的数据集训练，支持商业用途。F-Lite将T5-XXL作为文本编码器，基于抽取第17层特征注入到DiT模型中。训练包括256和512分辨率的预训练，及1024分辨率的后训练，训练成本较高。推出针对丰富纹理和详细提示优化的特殊版本F-Lite Texture。

F-Lite的主要功能

文本到图像生成：用户输入文本描述，模型生成与描述匹配的图像。商用许可：模型在 Freepik 提供的版权安全数据集上训练，生成的图像能用在商业用途。多分辨率训练：支持 256、512 和 1024 分辨率的图像生成，满足不同场景的需求。特殊版本优化：推出 F-Lite Texture 版本，针对丰富纹理和详细提示进行优化。

F-Lite的技术原理

扩散模型架构：基于逆向扩散过程将随机噪声逐步转化为有意义的图像。用文本条件扩散模型，结合文本编码器将文本特征注入到图像生成过程中。文本编码器：基于T5-XXL 作为文本编码器，提取文本特征。从 T5-XXL 的第 17 层提取特征，而不是最后一层，更好地捕捉文本的语义信息。文本特征用交叉注意力机制注入到扩散模型中，确保生成的图像与文本描述高度相关。训练策略：多分辨率预训练：模型在 256 和 512 分辨率上进行预训练，学习图像的基本特征。高分辨率后训练：在 1024 分辨率上进行后训练，生成更高质量的图像。强化学习训练：基于 GRPO（Gradient-based Reinforcement Policy Optimization）的强化学习训练，提升生成图像的多样性和质量。优化技术：引入可学习的 register tokens，更好地对齐文本和图像特征。基于残差连接，提升模型的训练稳定性和效率。基于μ-Parameterization 技术优化扩散过程，提升生成图像的质量。

F-Lite的项目地址

GitHub仓库：https://github.com/fal-ai/f-liteHuggingFace模型库：https://huggingface.co/Freepik/F-Lite技术论文：https://github.com/fal-ai/f-lite/blob/main/assets/F%20Lite%20Technical%20Report.pdf在线体验Demo：https://huggingface.co/spaces/Freepik/F-Lite

F-Lite的应用场景

创意设计：为广告、海报、插画等设计提供灵感和视觉素材，提升设计效率和创意多样性。内容创作：生成社交媒体配图、博客配图等，丰富内容的视觉效果，提升吸引力和传播效果。游戏开发：快速生成游戏角色、场景和复杂纹理，加速游戏设计和开发流程。教育与学习：根据教学内容生成相关图像，帮助学生更好地理解和记忆，提升学习效果。商业与企业：生成产品展示图、品牌宣传图等，用于商业推广和品牌建设，提升品牌形象和市场竞争力。