Spaces:
Running
Running
A newer version of the Gradio SDK is available:
5.45.0
metadata
title: HunyuanVideo-Foley
emoji: 🎵
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.44.0
app_file: app.py
pinned: false
license: apache-2.0
short_description: Direct API calling version of HunyuanVideo-Foley model
HunyuanVideo-Foley
🎵 直接 API 调用版本
调用官方 tencent/HunyuanVideo-Foley 模型 API
🔗 API 调用模式
这个 Space 通过多种方法直接调用官方 HunyuanVideo-Foley 模型:
方法 1: Hugging Face Inference API (推荐)
- ✅ 直接调用:
tencent/HunyuanVideo-Foley
官方模型 - 🔑 需要配置:
HF_TOKEN
环境变量 - 🎵 最佳质量: 原始 AI 模型的完整功能
方法 2: Gradio Client API
- 🔄 备用方案: 连接到官方 Gradio Space
- 🚀 无需配置: 自动尝试连接
- ⚡ 智能切换: 主 API 失败时启用
方法 3: 智能备用方案
- 🎯 自动启用: 当所有 API 不可用时
- 🧠 智能分析: 根据文本描述生成对应音效
- 🎵 多种音效: 脚步声、雨声、风声、车辆声等
🚀 使用方法
✅ 免配置直接使用
无需任何手动设置,系统自动处理所有 API 调用!
使用步骤
- 上传视频: 选择要添加音频的视频文件
- 描述音频: 用英文描述音效(如 "footsteps on wooden floor")
- 调用 API: 点击生成按钮,系统自动选择最佳 API
- 获取结果: 下载生成的高质量音频
🎯 支持的音效类型
类型 | 示例描述 | 效果 |
---|---|---|
🚶 脚步声 | footsteps on wooden floor |
木地板脚步声 |
🌧️ 自然音 | rain on leaves |
雨打叶子声 |
💨 风声 | wind through trees |
树林风声 |
🚗 机械音 | car engine running |
汽车引擎声 |
🚪 动作音 | door opening and closing |
开关门声 |
🌊 水声 | water flowing in stream |
溪水流动声 |
⚙️ 技术优势
- ✅ 官方模型: 直接调用腾讯混元官方 API
- 🔄 智能降级: 多重备用方案确保服务可用
- ⚡ 无需本地: 不需要下载 13GB+ 模型文件
- 🎨 原始质量: 保持官方模型的生成质量
- 📱 易于使用: 一键调用,自动处理错误
🔧 环境配置
✅ 无需手动配置
系统自动处理所有 API 调用,无需用户设置任何环境变量!
🚀 自动优化
- 自动检测可用的 API 服务
- 智能选择最佳调用方法
- 确保功能始终可用
🎵 API 调用流程
1. 用户上传视频 + 文本描述
↓
2. 尝试 HF Inference API (优先)
↓ (如果失败)
3. 尝试 Gradio Client API
↓ (如果失败)
4. 启用智能备用方案
↓
5. 返回生成的音频结果
📊 API 状态监控
Space 会自动检测和显示:
- ✅ Gradio Client 连接状态
- ✅ HF Inference API 可用性
- ✅ Replicate API 可用性 (如果配置)
🔗 相关链接
- 📂 模型仓库: tencent/HunyuanVideo-Foley
- 💻 GitHub: Tencent-Hunyuan/HunyuanVideo-Foley
- 📄 论文: HunyuanVideo-Foley: Multimodal Diffusion
📝 使用提示
- 🎯 英文提示: 推荐使用英文描述以获得最佳效果
- ⏱️ 等待时间: 首次 API 调用可能需要 1-2 分钟模型加载
- 🔄 重试机制: 如果失败会自动尝试其他方法
- 📏 视频长度: 建议使用较短视频以提高处理速度
Citation
@misc{shan2025hunyuanvideofoleymultimodaldiffusionrepresentation,
title={HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation},
author={Sizhe Shan and Qiulin Li and Yutao Cui and Miles Yang and Yuehai Wang and Qun Yang and Jin Zhou and Zhao Zhong},
year={2025},
eprint={2508.16930},
archivePrefix={arXiv},
primaryClass={eess.AS}
}
License
This project is licensed under the Apache 2.0 License.
🤖 智能 API 调用版本 | 免配置使用,自动选择最佳 API,确保功能始终可用