FunClip(AI全自动视频剪辑软件)简介
FunClip是一个开源免费的AI全自动视频剪辑软件,由阿里巴巴达摩院开源发布。它可以通过调用阿里巴巴通义实验室开源的FunASR Paraformer系列模型,对视频进行语音识别,并基于识别结果自动生成字幕。我们可以自由选择需要剪辑的文本片段或说话人,点击剪辑按钮即可获取对应片段的视频。同时该工具还支持设置输出文件路径、每段时间偏移配置等。未来该工具还将集成Whisper模型支持英文视频,以及与大语言模型的集成实现智能化剪辑等。
主要特色功能:
- 集成了工业级别的Paraformer-Large语音识别模型,是目前识别效果最优的开源中文ASR模型之一。该模型在Modelscope上下载量超过1300万次,并能够准确预测时间戳。
- 支持热词定制化功能,在语音识别过程中可以指定实体词、人名等作为热词,提升识别准确率。
- 集成了CAM++说话人识别模型,可以自动识别出不同的说话人ID,用户可以根据ID将某一说话人的语音片段裁剪出来。
- 采用Gradio作为交互界面,使用简单方便,可在本地或服务器端启动服务通过浏览器访问使用。
- 支持多段自由剪辑,并可自动生成全视频SRT字幕和目标片段SRT字幕。
FunClip(AI全自动视频剪辑软件)官网及教程
- Github项目主页:https://github.com/alibaba-damo-academy/FunClip
- 在线体验地址:https://modelscope.cn/studios/iic/funasr_app_clipvideo/summary
安装使用教程:
1、Python环境安装
# 克隆funclip仓库
git clone https://github.com/alibaba-damo-academy/FunClip.git
cd FunClip
# 安装相关Python依赖
pip install -r ./requirments.txt
2、安装imagemagick(可选),如果你希望使用自动生成字幕的视频裁剪功能,需要安装imagemagick
Ubuntu:
apt-get -y update && apt-get -y install ffmpeg imagemagick
sed -i 's/none/read,write/g' /etc/ImageMagick-6/policy.xml
macOS:
brew install imagemagick
sed -i 's/none/read,write/g' /usr/local/Cellar/imagemagick/7.1.1-8_1/etc/ImageMagick-7/policy.xml
接着下载你需要的字体文件,这里我们提供一个默认的黑体字体文件
wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ClipVideo/STHeitiMedium.ttc -O font/STHeitiMedium.ttc
3、使用FunClip
本地启动:
python funclip/launch.py
随后在浏览器中访问localhost:7860即可看到如下图所示的界面,按如下步骤即可进行视频剪辑
- 上传你的视频(或使用下方的视频用例)
- (可选)设置热词,设置文件输出路径(保存识别结果、视频等)
- 点击识别按钮获取识别结果,或点击识别+区分说话人在语音识别基础上识别说话人ID
- 将识别结果中的选段复制到对应位置,或者将说话人ID输入到对应为止
- (可选)配置剪辑参数,偏移量与字幕设置等
- 点击“裁剪”或“裁剪+字幕”按钮