「青莲干货」不会做编程怎么做生信分析(二)

2023-8-28 11:25

文本处理软件,就是处理txt格式的软件。windows系统自带了一个文本编辑器,但只有非常基础的功能,用起来很不方便。在此,小编推荐一款名为Notepad++的软件,它凭借着其轻量,好用,免费的特点深受广大科研人员的喜爱。

Notapad++安装过程

安装过程很简单可以从官网https://notepad-plus-plus.org/downloads/v7.8.8/下载,安装选项默认即可。安装完成后,文本文件就可以通过右键->打开方式->Notepad++打开。

Notapad++基本操作介绍(1)显示所有字符你还在经常因为分不清文档中的间隔符号是空格还是Tab键而烦恼吗?Notepad++开启显示所有字符后,轻松分辨各个符号。如图所示,箭头符号表示Tab键,中间小点表示空格,末尾的黑色CRLF表示回车换行符。

设置方式:视图 -> 显示符号 -> 显示所有字符

1693193100277121.png

(2)选中字符长度计数

Notepad++具有方便的字符计数功能。

1693193101727472.png

1,文档中总字符个数。2,文件有几行。3,光标位置,光标的横纵坐标。4,两侧的数字分别表示的是选中的字符长度和所占行数。

备注:windows下的回车换行符(CRLF)占用2个字符长度。

利用正则表达式查找替换

下面我们重点介绍一下常用的查找和替换功能,Notepad++支持正则表达式,使查找替换更方便。什么你不知道什么是正则表达式?正则表达式描述了一种字符串匹配的模式,可以用来检查一个字符串是否含有某种子串、将匹配的子串替换或者从某个字符串中取出符合某个条件的子串等。

(1)常用的正则表达式

1693193101286597.png

(2)应用实例

下面我们就用正则表达式为您介绍如何在fasta文件中寻找某个已知序列?为了方便观察,fasta文件一般每行有80个氨基酸/核苷酸,这会导致我们在检索时发生断点,导致检索不到,所以我们要先整理一下格式,把每个序列分别合成一行。

在这之前,我们先学习一下,如何打开查找替换窗口。按快捷键“Ctrl + H”或者鼠标点击上方工具栏中的“搜索-替换”调出替换窗口。查找模式选择“正则表达式”,在“查找目标”和“替换为”处填入相关内容,点击全部替换,即可完成替换。

1693193101113476.png

把序列变成一行有很多种方法,小编的办法是先在包含”>”的行两侧添加标记,再把所有的换行符替换成空白,后再把之前的标记替换成换行符。大家也可以发挥一下想象力,想想有没有更好的方法。

一次替换为:“(?<name>^>.*)”替换为“##$+{name}##”,其中“^>”表示行开头是“>”,“.*”表示任意字符至少0个,加起来“^>.*”表示的就是包含“>”的行了,“(?<name>^>.*)”表示的是把括号内匹配到的内容写入到变量“?<name>”里。“##$+{name}##”表示的意思是把刚才匹配到的内容$+{name}的两边添加一个标记,这里标记我用了2个#号。二次替换为:“n”替换为“”空。

三次替换为:“##”替换为“n”

初次使用正则表达式,大家可能不太习惯,可以多看两次消化消化。注意:显示所有符号时,末尾的[CRLF]用rn表示。[LF]用n表示。还有需要注意的是正则表达式里所有的符号均为英文符号。好了准备工作终于做完了,下面我们就来匹配肽段吧。

按快捷键“Ctrl + F”或者鼠标点击上方工具栏中的“搜索-查找”调出搜索窗口。在“查找目标:”中输入我们的肽段,点击计数,会在搜索框的的下方显示匹配到了多少个;点击查找下一个,光标会移动到下一个匹配项。当然也可以选择使用标记功能,Notepad++会把所有匹配到的内容用颜色标记出来。

1693193102958369.png

那么如果我们只想要肽段出现在序列的开头或末尾呢?“^肽段”只会匹配到开头包含该肽段的序列;“肽段$”只会匹配到末尾包含该肽段的序列。注意,查找模式记得选择正则表达式哦。文件内的操作,我们可以很方便的用Notepad++完成,那么文件外的操作呢?文件的移动,复制又该如何高效完成呢?该轮到dos批处理出场了。

DOS命令操作

DOS命令是早期计算机操作系统使用的,为了用户使用方便才逐渐发展出了windows视窗界面。虽然视窗界面用户体验要好得多,但DOS命令由于其独特的优势依然被保留下来,成为数据处理常用的利器。

DOS是一种面向磁盘的系统软件,有了DOS,我们就可以更容易理解怎么给机器下命令,只需通过一些接近于英语的DOS命令,我们就可以轻松地完成绝大多数的日常操作,提高效率。

什么是DOS命令DOS是Disk Operating System的缩写,即磁盘操作系统。它是一个基于磁盘管理的操作系统,在微软公司的Windows2000出版之前,DOS 系统基本统治着个人操作系统世界。别看现在Windows图形界面风光无限,但是还是有很多的很难解决或者无法解决的问题,而这个时候我们的DOS系统就可以大显身手了,用DOS命令来解决一些问题,往往会收到事半功倍的效果。批处理是一种简化的脚本语言。它是由Windows系统内嵌的命令解释器(CMD)解释运行。类似于Unix中的Shell脚本。批处理文件具有.bat扩展名,其简单的例子,是逐行书写在命令行中会用到的各种命令。更复杂的情况,需要使用if,for,goto等命令控制程序的运行过程,如同C,Python,R等计算机语言一样。简单说就是可以把dos命令写入到bat脚本里,双击运行bat脚本就可以把所有的dos命令批量运行。

如何打开CMD窗口方式一:快捷键“windows徽标键 + R”弹出运行窗口,输出cmd回车,即可打开。方式二:在开始菜单的搜索栏,输入cmd或者命令提示符,点击打开。

基本命令

(1)路径操作

cd ..——返回上一级目录

cd 待跳转的路径名称——打开该路径

E:——打开E盘(切换磁盘,直接输入盘符和冒号)

dir——查看当前路径下有哪些文件

1693193102333511.png

(2)文件新建,删除,移动,复制,重命名

md 文件夹名称——新建文件夹

del 文件(夹)名称——删除文件(夹)

copy 文件(夹)路径——新文件(夹)路径复制文件(夹)

move 文件(夹)路径——新文件(夹)路径移动文件(夹)

ren 文件(夹)名称——新文件(夹)名称重命名文件(夹)

1693193103543765.png

简单实例:批量改文件名批量重复的改文件名是很繁琐枯燥的,尤其是只更改文件中的某些字符,这时候dos命令的优越性就体现出来了。枯燥的工作就交给计算机自己干吧。

(1)利用通配符批量改文件名

通配符是一种特殊语句,主要有星号(*)和问号(?),用来模糊搜索文件。“?”可以代表任意单个字符,输入几个“?”就代表几个未知字符;“*”可以代表任意多个字符。现在我有若干文件,分别叫做“a1.jpg”,“a2.jpg,“a3.jpg”等等。如果我想把前缀的字母a改为b该怎么办呢?

1693193103415636.png

对,只要在该文件路径下,输入“ren a* b*”这串命令就可以了,是不是很简单。我们来解释一下这串命令:ren命令是dos中重命名的命令;a*会匹配到当前文件夹下的所有已a开头的文件,“*”代表任意多个字符;b*表示新名称。该命令会把所有匹配到的文件的前缀字母a变为b。

(2)利用bat批处理文件更改文件名

有时候我们重命名可能不会像之前那么有规律,如果我们想完全自定义可以采用dos批处理的方式。

首先我们打开待更改的文件夹,点击“全部选择”,接着点击“复制路径”,我们就成功的把所有文件的路径名称复制到了剪贴板。

1693193103716488.png

接着,我们在当前文件夹下,新建一个txt文件,并把后缀改为“.bat”,然后右键该文件,选择打开方式,用Notepad++打开。

然后我们把刚才复制的内容粘贴到编Notepad++里。Notepad++的列操作是按住“alt”键和鼠标结合选中的方式,我们用列操作的方式,选中行开头,输入“ren ”,接着在每行的末尾输入空格+新名称。不要忘记保存哦。

1693193103601064.png好了,见证奇迹的时候到了,我们双击刚才新建的bat文件,重命名就完成了。同理,文件的移动,复制大体过程也跟此类似,dos命令的强大之处还有很多,剩下的还要靠自己探索啦。至此,我们学习了Notepad++和dos的基本操作,并用他们完成了正则表达式匹配肽段,dos命令批量重命名文件。当然,我们只是演示了一些基础的处理方式,如果需要更复杂的方法,还需要发掘Notepad++和dos的其它功能,或者采用其它工具辅助的方法实现。


领域:其他