数据加载
文本预览区域
参数设置
语音参数
慢
快
低
高
弱
强
视频参数
秒
高级参数
标准
高质
保守
创新
宽松
严格
原子能力选择
文本转语音
将输入的文本转换为自然流畅的语音输出
音色提取
从音频中提取特定人物的音色特征
图像生成
根据文本描述生成高质量的图像内容
视频生成
基于文本或图像生成动态视频内容
歌声合成
将文本歌词合成为自然流畅的歌声
跨模态对齐
确保文本、语音和视频内容的时间对齐