三花AI

OpenAI 推出打电话和发短信给 ChatGPT
OpenAI 12Days 在其活动第 10 天整了个活儿，现在你可以通过拨打 1-800-CHATGPT（1-800-242-84

Meta Motivo：开源人体动作生成模型
Meta Motivo 是一个开源的人体动作生成模型，能够生成符合自然物理规律的复杂人体动作，如奔跑、翻

EasyVolcap：开源 4D 视频重建技术
EasyVolcap 是一个开源技术，能够从多视角视频中重建为 4D 视频，支持处理长视频。
例如，通过输入多

OneDiffusion：功能强大的生图模型正式开源
OneDiffusion 是一个之前介绍过的多功能生图模型，其能力非常强大，支持文生图、ID 一致性

PIKA AI 发布 Pika 2.0
Pika AI 发布了Pika 2.0视频生成模型，支持上传多张参考图片，AI 会自动将其无缝组合。
例如，上传两个人的照片

SVDQuant：高效 4-Bit 量化技术，加速 AI 图像生成

SVDQuant 是一种开源的 4-Bit 扩散模型量化技术，能够在几乎不损失性能的情况下，显

SwiftEdit：单步实时文本引导的图像编辑技术

SwiftEdit 是一款基于扩散模型的实时图像编辑技术，用户只需输入提示词，即可实时修改图

Transformers.js v3.1 发布：纯浏览器 AI 模型运行新体验
Transformers.js 发布了 v3.1 版本，现在支持在纯浏览器环境中运行多种模型

英伟达开源 Sana 文生图模型：主打速度与端侧适用性
Sana 文生图模型是英伟达开源的，该模型基于 DiT 架构，主打生成速度，能够生成 4K

ConsisID：开源的角色一致性文生视频模型
ConsisID 是一个用于生成角色一致性视频的文生视频模型（IPT2V）。通过参考角色图片，该模型能

Qwen2vl-Flux：革新多模态图像生成
Qwen2vl-Flux 是一款 SOTA 多模态图像生成模型，它通过 Qwen2VL 的视觉语言理解能力，显著提升了 FL

MinerU：专为科技文献设计的 PDF 转换工具
MinerU 是一款专注于科技文献的工具，能够将 PDF 转化为机器可读的格式，如 markdown 和 jso

精准控制面部表情的实时编辑器
AdvancedLivePortrait-WebUI 是一款实时表情编辑器，能够精确控制眼睛、眉毛和嘴型。作者参考了之前