使用VideoSubFinder配合tesseract-ocr提取视频画面上的硬字幕by ADMIN on 05 3 月,2021
有时候我们想要提取视频中的字幕。如果碰到MKV格式,可以用软件直接提取内嵌到容器里的ass或者srt字幕文件。DVD光盘或者蓝光光盘也可以使用软件提取sup格式字幕文件。但如果碰到字幕已经贴到画面上的视频文件怎么提取呢,方法也是有的,就是使用ocr软件逐帧识别,然后提取,需要用到的软件有:VideoSubFinder和tesseract-ocr。
1.打开软件VideoSubFinder,点击菜单栏file–>open video 打开视频文件:
2.拖动左边VideoBox视频窗口中的水平线,缩小字幕的检测区域。
3.先点击Clear Folder,再点击Run Search,等待软件自动识别完成。识别完成后,会在VideoSubFinder软件根目录的RGBImages文件夹里,生成带有字幕的原图片。
4.点击OCR,再点击Create Cleared TxtImages。这一步是清除RGBImages文件夹里字幕图片文件的背景,生成的无背景图片文件保存在TXTImages文件夹里。
5.此时不要关闭VideoSubFinder软件。然后使用tesseract-ocr批量识别TXTImages文件夹里的图片,每个图片生成独立的txt文件。将下面的代码复制到记事本,保存为bat格式,(注意:一定要将代码里的tesseract.exe前面的安装路径改成自己的路径,然后看一下VideoSubFinder生成的图片格式是不是jpeg,如果不是将代码里的jpeg改成自己的格式)放在TXTImages文件夹里双击运行就行。
@echo off
(for %%a in (*.jpeg) do @echo;%%~na)>LIST.TXT
set targe=''
setlocal enabledelayedexpansion
for /f %%i in (LIST.TXT) do (
set target=%%i
C:\Users\Apps\Tesseract-OCR\tesseract.exe !target!.jpeg ..\TXTResults\!target! -l chi_sim
)
DEL /Q LIST.TXT
pause
6.返回VideoSubFinder软件,点击Create sub From txt Results创建带有时间轴的srt格式字幕文件。
字幕创建完成后,可以使用SubtitleEdit字幕编辑软件对照原视频修改错别字
相关软件下载地址:
VideoSubFinder:
官方地址:https://sourceforge.net/projects/videosubfinder/files/
蓝奏网盘地址:https://wwa.lanzou.com/b00ocwbsd 密码:66zy
Tesseract-OCR:(推荐使用4.1版)
官方地址:https://digi.bib.uni-mannheim.de/tesseract/
官方语言数据包地址:(chi_sim.traineddata简体中文,chi_sim_vert.traineddata简体中文竖排,chi_tra.traineddata繁体中文,chi_tra_vert.traineddata繁体中文竖排)
https://github.com/tesseract-ocr/tessdata
蓝奏网盘地址:https://wwa.lanzou.com/b00ocwccd 密码:2ck5