什么是转录组测序分析中Unigene?求标准答案,最好有答案相关文献来源。
Unigene其实没有一个标准的定义。大体的概念是经过去冗余之后得到的基因序列,这条序列和其他的序列是非冗余的,也就是理论上其他序列都和此序列代表的不是同一个基因。或者是经过聚类后得到的不同的类,类和类之间是非冗余的,每个类可以认为唯一的代表一个基因。不同的去冗余和聚类的方法得到的结果都可以称为unigene。
另外NCBI上也有Unigene的概念,是NCBI用自己的方法对序列进行聚类,它认为每一个类都唯一的代表一个基因,并赋予一个编号:物种名字.数字,比如小麦的一个例子:Ta.191,这也是较常用的Unigene.
如何进行转录组数据分析?
首先要去除低质量的序列,这个一般测序公司已经给你做好了,软件SolexaQA。然后回来你可能要校正错误序列,软件SEECER。这时候你的fastq文件就变成fasta了。然后你拼接序列啊,用Triity,拼好后可以进行blast比对,看有没有匹配。还可以用blast输出的文件做blast2go,得到GO号,做GO的注释,KEGG pathway分析。还有进行差异表达基因的分析分等等,我现在说的是没有参考基因的转录组数据处理。还有有参考基因的,那个不用从头组装,把你的序列和参考基因比对就行。要往具体了说就太多了,我可以给你一些资料。
如何做转录组和表达数据的相关性分析
打开原始数据表格,制作本实例的原始数据需要满足两组或两组以上的数据,结果将给出其中任意两项的相关系数
2、选择“工具”-“数据分析”-“描述统计”后,出现属性设置框,依次选择
输入区域:选择数据区域,注意需要满足至少两组数据。如果有数据标志,注意同时勾选下方“标志位于第一行”;
分组方式:指示输入区域中的数据是按行还是按列考虑,请根据原数据格式选择;
输出区域可以选择本表、新工作表组或是新工作簿;
3、点击“确定”即可看到生成的报表。