tags: [txt, Notepad++]
categories: [txt]
id: AboutTxt
copyright: true


这里整理了文本处理相关的知识,欢迎来瞅瞅~


文本中的 CR LF 是什么?

copy 一段有换行的文字到 Notepad++里,之后 视图>>显示符号>>显示所有字符 看到文本中出现了 CR LF 的字样。这里的CR LF是什么东东呢?

image.png
image.png

Google 一下,很快就获得了解答:

CRLF, LF 是用来表示文本换行的方式。CR(Carriage Return) 代表回车,对应字符 ‘\r’;LF(Line Feed) 代表换行,对应字符 ‘\n’。由于历史原因,不同的操作系统文本使用的换行符各不相同。主流的操作系统一般使用 CRLF 或者 LF 作为其文本的换行符。其中,Windows 系统使用的是 CRLF, Unix 系统(包括 Linux, MacOS 近些年的版本) 使用的是 LF。
ref—作者:于晓飞 93 链接:https://www.jianshu.com/p/ec9564fe1c2b

看到这里其实就已经可以理解了。如果你有兴趣进一步了解的话,不妨再读读这篇文章:知无涯之回车换行的故事

Nodepad++使用正则表达式给 srt 字幕提纯

首先根据 文本中的 CR LF 是什么? 查看换行符的形式

image.png
image.png

可见是 CR LF ,所以正则表达式应该是\r\d
为了去掉时间信息的文本,我们需要语句:
\d*\r\n\d\d:\d\d:\d\d,\d\d\d --> \d\d:\d\d:\d\d,\d\d\d``\r\n 替换成 什么也没有
接着为了把中间的空行去掉,要用语句
\r\n\r\n 替换成 什么也没有 \r\n

(上述过程可以录制宏)

image.png
image.png

emmm 由于是繁体字幕,所以还需要繁体转简体
在线繁体字转换工具

补充阅读:
正则表达式(RegEx)——快速参考
可能是最好的正则表达式的教程笔记了吧… - 掘金
Nodepad++小技巧:中英双语字幕转换为英文字幕