srt字幕文件里面有很多时间轴,如果要转换成纯文本,可以在kimichat中输入提示词:
你是一个Python编程专家,写一个Python脚本,完成一个处理整理文档内容的任务,具体步骤如下:
打开D盘下面的文本文档:字幕.txt
删掉里面所有的时间轴,比如:00:00:06,339 --> 00:00:11,594
删掉里面所有的序号,比如 1、2、3,注意:不要删掉文本里面的数字,比如”(200万年前)”中的200
另存为一个新的word文档,保持到D盘;
部分原文档内容如下:
###
1
00:00:06,339 --> 00:00:11,594
(200万年前)
2
00:00:23,064 --> 00:00:28,945
200万年前
我们的星球与现在完全不同
3
00:00:34,325 --> 00:00:36,286
牙齿像剑一般的猫科动物
###
整理文档后的文档内容,应该是这样:
###
(200万年前)
200万年前
我们的星球与现在完全不同
牙齿像剑一般的猫科动物
###
这是kimichat给出的Python源代码:
import re
from docx import Document
# 定义原始文本文件路径
original_file_path = r'D:\字幕.txt'
# 正则表达式匹配时间轴和序号
time_pattern = re.compile(r'\d :\d{2}:\d{2},\d{3} --> \d :\d{2}:\d{2},\d{3}')
number_pattern = re.compile(r'\d \n')
# 读取原始文本文件
with open(original_file_path, 'r', encoding='utf-8') as file:
content = file.read()
# 删除时间轴和序号
clean_content = time_pattern.sub('', content)
clean_content = number_pattern.sub('', clean_content)
# 创建新的Word文档
doc = Document()
# 将处理后的文本添加到Word文档
doc.add_paragraph(clean_content)
# 定义新Word文档的保存路径和文件名
output_file_path = r'D:\整理后的字幕.docx'
# 保存新Word文档
doc.save(output_file_path)
print(f'文档已保存到:{output_file_path}')
运行程序,结果如下: