蛋蛋小站

使用VideoSubFinder配合tesseract-ocr提取视频画面上的硬字幕by ADMIN on 05 3 月,2021

有时候我们想要提取视频中的字幕。如果碰到MKV格式，可以用软件直接提取内嵌到容器里的ass或者srt字幕文件。DVD光盘或者蓝光光盘也可以使用软件提取sup格式字幕文件。但如果碰到字幕已经贴到画面上的视频文件怎么提取呢，方法也是有的，就是使用ocr软件逐帧识别，然后提取，需要用到的软件有：VideoSubFinder和tesseract-ocr。

1.打开软件VideoSubFinder，点击菜单栏file–>open video 打开视频文件：

2.拖动左边VideoBox视频窗口中的水平线，缩小字幕的检测区域。

3.先点击Clear Folder,再点击Run Search,等待软件自动识别完成。识别完成后，会在VideoSubFinder软件根目录的RGBImages文件夹里，生成带有字幕的原图片。

4.点击OCR,再点击Create Cleared TxtImages。这一步是清除RGBImages文件夹里字幕图片文件的背景，生成的无背景图片文件保存在TXTImages文件夹里。

5.此时不要关闭VideoSubFinder软件。然后使用tesseract-ocr批量识别TXTImages文件夹里的图片，每个图片生成独立的txt文件。将下面的代码复制到记事本，保存为bat格式，（注意：一定要将代码里的tesseract.exe前面的安装路径改成自己的路径，然后看一下VideoSubFinder生成的图片格式是不是jpeg，如果不是将代码里的jpeg改成自己的格式）放在TXTImages文件夹里双击运行就行。

@echo off
(for %%a in (*.jpeg) do @echo;%%~na)>LIST.TXT
set targe=''
setlocal enabledelayedexpansion
for /f %%i in (LIST.TXT)  do (
set target=%%i
C:\Users\Apps\Tesseract-OCR\tesseract.exe !target!.jpeg ..\TXTResults\!target! -l chi_sim
)
DEL /Q LIST.TXT
pause

6.返回VideoSubFinder软件，点击Create sub From txt Results创建带有时间轴的srt格式字幕文件。

字幕创建完成后，可以使用SubtitleEdit字幕编辑软件对照原视频修改错别字

使用VideoSubFinder配合tesseract-ocr提取视频画面上的硬字幕by ADMIN on 05 3 月,2021

相关软件下载地址：