faster_whisper，视频转文字，并生成字幕文件

news2026/5/3 18:17:13

faster_whisper视频转文字并生成字幕文件附带exe使用说明–model选 tiny/base/small/medium/large越大越准、越耗资源。模型路径(medium)C:\Users\XXX.cache\huggingface\hub\models–Systran–faster-whisper-medium\snapshots\08e178d48790749d25932bbc082711ddcfdfbc4f直接运行run.exe选择视频文件等待结果结果保存在视频所在文件夹文件名与视频文件名相同格式为txt和srt使用PotPlayer播放视频自动读取同名的字幕文件暂停的时候可以复制当前字幕内容到剪贴板# 16核CPU 强制优化禁用GPU importos os.environ[OMP_NUM_THREADS]16os.environ[MKL_NUM_THREADS]16os.environ[NUMBA_NUM_THREADS]16os.environ[HF_HUB_DISABLE_SYMLINKS_WARNING]1os.environ[CUDA_VISIBLE_DEVICES]-1# 彻底禁用GPU# fromfaster_whisperimportWhisperModelimportopenccimporttkinterastkfromtkinterimportttk,filedialog,messageboximportsubprocessimportjsonimportdatetime# SRT字幕时间格式转换defformat_srt_time(sec):hint(sec//3600)mint((sec%3600)//60)sint(sec%60)msint((sec-int(sec))*1000)returnf{h:02d}:{m:02d}:{s:02d},{ms:03d}# 模型选择弹窗下拉菜单 defselect_model():# win tk.Tk()# win.title(选择模型)# win.geometry(300x150)# win.resizable(False, False)# win.attributes(-topmost, True) # 窗口置顶# # 模型选项可自行增删# model_options [small, medium, large]# tk.Label(win, text请选择识别模型, font(微软雅黑, 12)).pack(pady20)# selected tk.StringVar(valuemodel_options[0])# combo ttk.Combobox(win, textvariableselected, valuesmodel_options, statereadonly, font(微软雅黑, 11))# combo.pack(pady5)# result None# def confirm():# nonlocal result# result selected.get()# win.destroy()# tk.Button(win, text确认, commandconfirm, width10, font(微软雅黑, 10)).pack(pady10)# win.mainloop()# return resultreturnmedium# 选择模型model_nameselect_model()ifnotmodel_name:exit()# 初始化 roottk.Tk()root.withdraw()ccopencc.OpenCC(t2s)# 选择视频video_pathfiledialog.askopenfilename(title选择视频文件,filetypes[(视频格式,*.mp4 *.mkv *.mov *.avi *.flv *.wmv),(所有文件,*.*)])ifnotvideo_path:exit()# 输出文件video_diros.path.dirname(video_path)video_nameos.path.splitext(os.path.basename(video_path))[0]txt_fileos.path.join(video_dir,f{video_name}.txt)srt_fileos.path.join(video_dir,f{video_name}.srt)# 获取视频时长defget_video_duration(video):try:ressubprocess.run([ffprobe,-v,error,-show_entries,formatduration,-of,json,video],stdoutsubprocess.PIPE)returnfloat(json.loads(res.stdout)[format][duration])except:return100total_timeget_video_duration(video_path)# 加载模型纯CPU 16核 print(f\n加载模型{model_name})modelWhisperModel(model_size_or_pathmodel_name,devicecpu,compute_typeint8,cpu_threads16,num_workers16)# 开始识别 print(f\n视频总时长{total_time:.1f}秒开始识别...\n)segments,infomodel.transcribe(video_path,languagezh,vad_filterFalse)# 写入标准SRT 纯文本withopen(txt_file,w,encodingutf-8)asf_txt,\open(srt_file,w,encodingutf-8)asf_srt:idx1forseginsegments:textcc.convert(seg.text.strip())start_strformat_srt_time(seg.start)end_strformat_srt_time(seg.end)print(f[{start_str}→{end_str}]{text})f_txt.write(text\n)# 标准SRT格式f_srt.write(f{idx}\n)f_srt.write(f{start_str}--{end_str}\n)f_srt.write(f{text}\n\n)idx1# 完成提示messagebox.showinfo(完成,f模型{model_name}\n识别成功\n已生成\n1. 纯文本.txt\n2. SRT字幕PotPlayer直接用)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2579071.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！