python 批量检测目录内文本并删除脚本

这个脚本的设计目的是为了简化对指定目录内文本文件的批量扫描和清理过程。

当我们处理大量采集的文章或语料时,尽管已经应用了大部分的替换和删除规则,但仍然可能有一些未被处理干净的内容。

这时手动逐个检查和删除显然是不现实的,因此使用这个脚本可以批量检测并删除那些漏网之鱼。

脚本的主要功能包括:

  1. 扫描指定目录中的所有 .txt 文件。
  2. 检查每个文件中是否包含特定的词语或短语。
  3. 删除包含这些词语或短语的行,并重新保存文件。
  4. 记录并输出脚本的执行时间。

这个脚本可以大大提高处理大量文本文件的效率,避免手动检查的繁琐和低效。

代码:

import os
import time

start_time = time.time()

directory = r'检测路径'

for filename in os.listdir(directory):
    if filename.endswith('.txt'):
        file_path = os.path.join(directory, filename)
        
        with open(file_path, 'r', encoding='utf-8') as file:
            lines = file.readlines()

        lines = [line for line in lines if '检测词1' not in line and '检测词2' not in line]

        with open(file_path, 'w', encoding='utf-8') as file:
            file.writelines(lines)

end_time = time.time()
execution_time = end_time - start_time

print(f'执行时间: {execution_time:.2f} 秒')

3265 个文件,执行时间: 94.30 秒


评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注