可灵AI Kolors 应用代码与未来发展

可图（Kolors）大模型的全面开源

7月6日，快手在世界人工智能大会上宣布其文生图大模型可图（Kolors）将全面开源。这一模型支持中英文双语，生成效果可与Midjourney-v6媲美，支持长达256字符的文本输入，具备优异的英文和中文文字生成能力。目前，可图（Kolors）已在Huggingface和GitHub上线，开放模型权重和完整代码供个人开发者免费使用。

在智源FlagEval文生图模型评测中，可图（Kolors）表现优异，主观综合评分全球第二，尤其在图像质量上表现突出，显著优于其他模型。

可图的技术优势

大语言模型助力复杂语义理解

可图（Kolors）采用了大语言模型ChatGLM3进行文本表征，文本提示词长度达256字符，远超CLIP的77字符。在GLM的加持下，可图（Kolors）展现出强大的复杂文本理解能力，能够正确绘制多主体画面，并且准确对应多种颜色的服饰。

在模型训练中，使用CogVLM进行打标，采用混合描述的方式提高文本描述的精细化程度。

中文写字能力

可图（Kolors）是首个原生支持中文文字生成的文生图模型。通过专门构建的中文写字数据集，Kolors能够准确绘制结构复杂的汉字，同时也支持英文文字生成，具备设计美学与创意。

训练策略优化

可图（Kolors）在概念学习和质量微调阶段，采用了数十亿图像文本对训练，涵盖广泛实体概念，并通过加噪策略优化提升生成高分辨率图像的稳定性和美感。

模型评测

可图团队提出了KolorsPrompts评测集，涵盖14个垂类和12个挑战项，通过专业评测人员的打分，可图在综合满意度和图像质量上表现出色，达到Midjourney-v6水平。

应用案例精选

应用实践 1：IP定制

通过Dreambooth & Lora实现模型微调和IP定制，如快手吉祥物小快和招财鸭IP。

应用实践 2：AI人像

人像ID保持，支持多种风格化人像，增加玩法趣味性。

应用实践3：虚拟试衣

虚拟试穿技术的应用，支持多种服饰细节的提取与表征，实现自然的人物试穿效果。

未来展望

快手计划陆续开源可图（Kolors）的相关应用，这将为开发者提供全面的工具和资源，推动文生图技术的进步和普及。自开源以来，可图大模型受到了广泛关注和使用，Kolors-ControlNet等生态插件能力也在不断提升。

FAQ

问：可图（Kolors）与其他文生图模型有何不同？
- 答：可图（Kolors）采用了大语言模型进行文本表征，支持更长的文本输入，并且是首个原生支持中文文字生成的模型。此外，通过优化的训练策略，可图在图像质量和美感上达到国际领先水平。
问：可图（Kolors）开源后开发者可以做什么？
- 答：开发者可以在Huggingface和GitHub上访问可图的模型权重和代码，进行二次开发和应用，包括模型微调、应用集成等。
问：如何体验可图的虚拟试衣功能？
- 答：可图的虚拟试衣功能可以通过HuggingFace上的试衣Demo体验，用户只需上传照片即可生成试穿效果。
问：可图（Kolors）在图像生成领域的应用前景如何？
- 答：可图在电商、短视频内容创作等领域有广泛的应用前景，尤其在虚拟试穿、IP定制等方面表现出色，未来将进一步推动AI技术在商业中的应用。
问：可图（Kolors）的主要特点是什么？
- 答：可图具备复杂语义理解能力、高质量图像生成能力以及创新的训练策略，支持中英文文字生成，是目前开源文生图模型中的佼佼者。