生物信息學(xué)學(xué)習(xí)心得

網(wǎng)站：公文素材庫(kù)　|　時(shí)間：2019-05-17 11:05:05　|　移動(dòng)端：生物信息學(xué)學(xué)習(xí)心得

第一篇：生物信息學(xué)

生物信息學(xué)是上世紀(jì)90年代初人類基因組計(jì)劃(hgp)依賴，隨著基因組學(xué)、蛋白組學(xué)等新興學(xué)科的建立，逐漸發(fā)展起來(lái)的生物學(xué)、數(shù)學(xué)和計(jì)算機(jī)信息科學(xué)的一門交叉應(yīng)用學(xué)科。目前生物信息學(xué)的研究領(lǐng)域主要包括基于生物序列數(shù)據(jù)的整理和注釋、生物信息挖掘工具開(kāi)發(fā)及利用這些工具揭示生物學(xué)基礎(chǔ)理論知識(shí)等領(lǐng)域。生物信息學(xué)作為新型交叉應(yīng)用學(xué)科，可以依托本校已有的計(jì)算機(jī)科學(xué)、信息學(xué)、生物學(xué)和數(shù)學(xué)等學(xué)科優(yōu)勢(shì)，充分展現(xiàn)投入少、見(jiàn)效快、起點(diǎn)高的特色，推動(dòng)學(xué)校學(xué)科建設(shè)和本科教學(xué)水平。

本實(shí)驗(yàn)指導(dǎo)書(shū)中的8個(gè)實(shí)驗(yàn)均設(shè)計(jì)為綜合性開(kāi)發(fā)實(shí)驗(yàn)，面向生物信息學(xué)院全體本科學(xué)生和研究生，以及全校對(duì)生物信息學(xué)感興趣的其他專業(yè)學(xué)生開(kāi)放。生物信息學(xué)實(shí)驗(yàn)室將提供系統(tǒng)的保障，包括采用mail服務(wù)器和linux帳號(hào)管理等進(jìn)行實(shí)驗(yàn)過(guò)程管理和支持。限選《生物信息學(xué)及實(shí)驗(yàn)》的生物技術(shù)專業(yè)本科生至少選擇其中5個(gè)實(shí)驗(yàn)，并不少于8個(gè)學(xué)時(shí)，即為課程要求的0.5個(gè)學(xué)分。其他選修者按照課時(shí)和學(xué)校相關(guān)規(guī)定計(jì)算創(chuàng)新學(xué)分。實(shí)驗(yàn)一熟悉生物信息學(xué)網(wǎng)站及其數(shù)據(jù)的生物學(xué)意義

實(shí)驗(yàn)?zāi)康模?/p>

培養(yǎng)學(xué)生利用互聯(lián)網(wǎng)資源獲取生物信息學(xué)研究前沿和相關(guān)數(shù)據(jù)的能力，熟悉生物信息學(xué)相關(guān)的一些重要國(guó)內(nèi)外網(wǎng)站，及其核酸序列、蛋白質(zhì)序列及代謝途徑等功能相關(guān)數(shù)據(jù)庫(kù)，學(xué)會(huì)下載生物相關(guān)的信息數(shù)據(jù)，了解不同的數(shù)據(jù)文件格式和其中重要的生物學(xué)意義。

實(shí)驗(yàn)原理：

利用互聯(lián)網(wǎng)資源檢索相關(guān)的國(guó)內(nèi)外生物信息學(xué)相關(guān)網(wǎng)站，如：ncbi、sanger、tigr、kegg、swww.7334dd.comatch程序去除ests原始序列中的載體成分和引物成分，然后用phrap生成congtig和singlet，用blast程序進(jìn)一步將有同源性的contig和singlet進(jìn)行功能聚類，最后通過(guò)blast對(duì)聚類獲得的cluster進(jìn)行功能注釋。在實(shí)驗(yàn)過(guò)程中將用到一些本實(shí)驗(yàn)室寫(xiě)好的perl程序用于連接各數(shù)據(jù)庫(kù)和工具軟件。

實(shí)驗(yàn)內(nèi)容：

1. 運(yùn)行codoncode aligner程序，并用它建立工程文件，導(dǎo)入例子文件

夾里面的數(shù)據(jù)；練習(xí)對(duì)序列的各種查看方式。

2. 使用codoncode aligner程序里的clip ends, trim vector, assemble

等功能，完成序列的剪切、去雜質(zhì)、組裝工作。

實(shí)驗(yàn)報(bào)告：

1. 實(shí)驗(yàn)各步驟記錄和中間結(jié)果文件；

2. 舉例簡(jiǎn)要說(shuō)明結(jié)果文件中數(shù)據(jù)的生物學(xué)意義。

參考書(shū)目：

《生物信息學(xué)概論》羅靜初等譯，北京大學(xué)出版社， 201*；

《基因表達(dá)序列標(biāo)簽（est）數(shù)據(jù)分析手冊(cè)》胡松年等著，浙江大學(xué)出版社， 201*。

實(shí)驗(yàn)五利用primer premier5.0設(shè)計(jì)

race引物

實(shí)驗(yàn)?zāi)康模?/p>

熟悉pcr引物設(shè)計(jì)工具primer premier5.0的一些基本功能，能夠根據(jù)實(shí)驗(yàn)需要選擇相應(yīng)的引物設(shè)計(jì)方法設(shè)計(jì)pcr引物。

實(shí)驗(yàn)原理：

pcr實(shí)驗(yàn)是當(dāng)代分子生物學(xué)的基本實(shí)驗(yàn)之一，由于目標(biāo)序列和實(shí)驗(yàn)?zāi)康牡牟煌�，相�?yīng)設(shè)計(jì)引物的要求也不一樣。本實(shí)驗(yàn)延續(xù)ests分析結(jié)果，對(duì)于其中需要獲得全長(zhǎng)的基因進(jìn)行race引物的設(shè)計(jì)，及5’和3’race引物，配合接頭序列設(shè)計(jì)單向引物，并模擬練習(xí)通過(guò)連接獲得全長(zhǎng)的基因cds序列。最后設(shè)計(jì)已知全長(zhǎng)基因序列的pcr擴(kuò)增引物。

實(shí)驗(yàn)內(nèi)容：

1. 從網(wǎng)站下載并安裝primer premier5.0；

2. 從 genbank 中任意獲取一個(gè) dna 序列，設(shè)計(jì)出該序列的合適引物；實(shí)驗(yàn)報(bào)告：

1. 實(shí)驗(yàn)各步驟使用的數(shù)據(jù)、運(yùn)算平臺(tái)、結(jié)果文件記錄；

2. 比較不同引物設(shè)計(jì)平臺(tái)和不同pcr實(shí)驗(yàn)的差別；

參考書(shū)目：

《生物信息學(xué)概論》羅靜初等譯，北京大學(xué)出版社， 201*；《生物信息學(xué)實(shí)驗(yàn)指導(dǎo)》胡松年等著，浙江大學(xué)出版社， 201*; 。

實(shí)驗(yàn)八 perl程序的安裝、編寫(xiě)、調(diào)試實(shí)驗(yàn)?zāi)康模?/p>

培養(yǎng)學(xué)生能在www.7334dd.comatics--a

practical guide to the analysis of genes and proteins "andreas d.baxevanis b.f.francis ouellette 著李衍達(dá) 孫之榮等譯清華大學(xué)出版社 201*年8月第一版這本書(shū)由前衛(wèi)計(jì)算生物學(xué)家撰寫(xiě)，貫穿了已有的工具和數(shù)據(jù)庫(kù)，包括應(yīng)用軟件、因特網(wǎng)資源、向數(shù)據(jù)庫(kù)提交dna序列以及進(jìn)行序列分析和利用核酸序列與蛋白質(zhì)序列進(jìn)行預(yù)測(cè)的的方法。以下是該書(shū)的目錄：1.因特網(wǎng)與生物學(xué)家，2. genebank序列數(shù)據(jù)庫(kù)，3.結(jié)構(gòu)數(shù)據(jù)庫(kù)，4.應(yīng)用gcg進(jìn)行序列分析，5.生物數(shù)據(jù)庫(kù)的信息檢索，6. ncbi數(shù)據(jù)模型，7.序列比對(duì)和數(shù)據(jù)庫(kù)搜索，

8.多序列比對(duì)和實(shí)際應(yīng)用，9.系統(tǒng)發(fā)育分析，10.利用核酸序列的預(yù)測(cè)方法，11.利用蛋白質(zhì)序列的預(yù)測(cè)方法，12.鼠類和人類公用物理圖譜數(shù)據(jù)庫(kù)漫游，13. acedb: 基因組信息數(shù)據(jù)庫(kù)，14.提交dna序列數(shù)據(jù)庫(kù)。本書(shū)有很多實(shí)際的序列和序列分析的例子。這本書(shū)適合高等院校的師生和從事生物工程研究的科技工作者閱讀。

在第14章提及的通訊資源：互聯(lián)網(wǎng)和通信地址；電話和傳真號(hào)碼

ddbj/embl和genbank的一般聯(lián)系信息以及提交dna序列到這些數(shù)據(jù)庫(kù)的入口。

ddbj（信息生物學(xué)中心，nig）

地址：ddbj，1111 yata， mishima，shiznoka 411，japan

傳真：81-559-81-6849

e-mail

提交： ddbjsub@ddbj.nig.ac.jp

更新： ddbjupd@ddbj.nig.ac.jp

信息： ddbj@ddbj.nig.ac.jp

互聯(lián)網(wǎng)

主頁(yè)：

www.7334dd.combl/doc/

embl和genbank數(shù)據(jù)庫(kù)的版本信息

embl ftp://ftp.ebi.ac.uk/pub/databases/embl/release/relnotes.doc

genbank ftp://ncbi.nlm.nih.gov/genbank/gbrel.txt

sequin: dna序列數(shù)據(jù)庫(kù)的提交和更新工具 http://www.7334dd.com.nih.gov/dbest

sts http://www.7334dd.com.nih.gov/dbgss

htgs主頁(yè)：高吞吐量基因組序列資源，工具和信息 http://www.7334dd.comics)主要研究測(cè)序和核苷酸序列; 結(jié)構(gòu)基因組學(xué)(structural genomics)著重于遺傳圖譜、物理圖譜和測(cè)序等方面的研究; 功能基因組學(xué)

(functional genomics)則研究以轉(zhuǎn)錄圖為基礎(chǔ)的基因組表達(dá)圖譜; 比較基因組學(xué)(comparative ge2nomics)的研究?jī)?nèi)容包括對(duì)不同進(jìn)化階段基因組的比較和不同種群和群體基因組的比較。

蛋白組和蛋白組學(xué)的概念是隨基因組和基因組學(xué)的出現(xiàn)而出現(xiàn)的. 蛋白組(proteme)的概念是由于基因表達(dá)水平并不能代表細(xì)胞中活性蛋白質(zhì)的數(shù)量, 基因組序列并不能描述活性蛋白質(zhì)所必需的翻譯后修飾和反映蛋白質(zhì)種類和含量的動(dòng)態(tài)變化過(guò)程而提出的. 在一定條件下某一基因組蛋白質(zhì)表達(dá)的數(shù)量類型稱為蛋白組, 代表這一有機(jī)體全部蛋白質(zhì)組成及其作用方式. 有關(guān)蛋白組的研究稱為蛋白組學(xué). 其中, 蛋白組的研究技術(shù)與方法、雙向凝膠電泳圖譜以及對(duì)不同條件下蛋白組變化的比較分析是蛋白組學(xué)的主要研究?jī)?nèi)容。生物信息學(xué)在基因組和蛋白組研究中所起的作用主要有:（1)基因組信息結(jié)構(gòu)的計(jì)算分析. 即對(duì)基因組數(shù)據(jù)進(jìn)行大規(guī)模并行計(jì)算并預(yù)測(cè)各種新基因和功能位點(diǎn), 研究大量非編碼區(qū)序列的信息結(jié)構(gòu)和可能的生物學(xué)意義。(2)模式生物全基因組信息結(jié)構(gòu)的比較研究.即

對(duì)已完成全基因組測(cè)序的各種模式生物的基因組信息結(jié)構(gòu)進(jìn)行比較分析, 包括同源序列的搜索比較和指導(dǎo)基因克隆.(3)功能基因組的相關(guān)信息分析, 包括對(duì)基因表達(dá)圖譜及其相關(guān)算法和軟件的研究, 與功能基因組信息相關(guān)的核酸、蛋白質(zhì)的空間結(jié)構(gòu)的預(yù)測(cè)模擬以及蛋白質(zhì)的功能預(yù)測(cè)。

2、生物信息數(shù)據(jù)庫(kù)

復(fù)雜的生物和生物界和日新月異的生命科學(xué)研究產(chǎn)出的大量的生物學(xué)信息，對(duì)這些信息的儲(chǔ)存、檢索、比較分析必須借助于計(jì)算機(jī)數(shù)據(jù)庫(kù)技術(shù), 包括各類生物學(xué)信息數(shù)據(jù)庫(kù)的建立與維護(hù)、數(shù)據(jù)的添加與注釋、更新與查詢、數(shù)據(jù)庫(kù)資料的網(wǎng)絡(luò)化等研究?jī)?nèi)容�，F(xiàn)有的數(shù)據(jù)庫(kù)有：核酸序列數(shù)據(jù)庫(kù)（genbank、embl、ddbj）、基因組數(shù)據(jù)庫(kù)、基因圖譜數(shù)據(jù)庫(kù)、蛋白質(zhì)序列數(shù)據(jù)庫(kù)（swww.7334dd.comatics

b數(shù)據(jù)采集

dna,rna和蛋白質(zhì)測(cè)序

1．dna測(cè)序原理

dna中核苷酸的順序是通過(guò)鏈?zhǔn)浇K止測(cè)序【也稱為脫氧測(cè)序（dideoxy sequencing）或以發(fā)明人命名的sanger方法】來(lái)確定。

2．dna序列的類型

基因組dna，是直接從基因組中得到，包括自然狀態(tài)的基因

復(fù)制dna（copy dna, cdna），通過(guò)反轉(zhuǎn)錄ｍｒｎａ得到的

重組dna，包括載體序列如質(zhì)粒，修飾過(guò)的病毒和在實(shí)驗(yàn)室使用的其他遺傳元件等

3．基因組測(cè)序策略

散彈法測(cè)序（shotgun sequence）包括隨機(jī)dna片段的生成，通過(guò)大量片段測(cè)序來(lái)覆蓋整個(gè)基因組

克隆重疊群測(cè)序（clone contig）dna片段用推理的方法亞克隆，并且進(jìn)行系統(tǒng)的測(cè)序直到整個(gè)序列完成

4．序列質(zhì)量控制

通過(guò)在dna雙鏈上進(jìn)行多次讀取完成高質(zhì)量序列數(shù)據(jù)的測(cè)定

可使用如phred等程序?qū)ψ畛醯母檾?shù)據(jù)（trace data）進(jìn)行堿基識(shí)別和質(zhì)量判斷。載體序列和重復(fù)的dna片段被屏蔽后，使用phred等程序?qū)⑿蛄衅唇映芍丿B群（contigs），剩下的不一致部分通過(guò)人工修飾解決

5．單遍測(cè)序

低質(zhì)量的序列數(shù)據(jù)可以由單次讀段（read）產(chǎn)生（單遍測(cè)序，single-pass sequencing）。盡管不很準(zhǔn)確，但單遍測(cè)序如ests和gsss，可以低廉的價(jià)格快速大量的產(chǎn)生

6．rna測(cè)序

因?yàn)橛写罅康男『塑账幔╩inor nucleotide）（化學(xué)改變的核苷）存在于轉(zhuǎn)移rna（trna）和核糖體rna（rrna）中，所以rna測(cè)序不能像dna測(cè)序那樣直接進(jìn)行。需要用特殊的方法來(lái)識(shí)別被改變的核苷，包括生化實(shí)驗(yàn)，核磁共振譜（nrm spectroscopy）和質(zhì)譜（ms）技術(shù)

7．蛋白質(zhì)測(cè)序

蛋白質(zhì)序列可以通過(guò)dna序列推斷得到，而rna測(cè)序不能提供有關(guān)已改變殘基或其他類型的翻譯后蛋白質(zhì)修飾（比如剪接或二硫鍵的形成）

大部分蛋白質(zhì)測(cè)序是通過(guò)質(zhì)譜（ms）技術(shù)進(jìn)行的

基因和蛋白質(zhì)表達(dá)數(shù)據(jù)

1．全局表達(dá)分析

rna水平的分析中有效的方法是從rna群體或cdna文庫(kù)中，甚至從序列數(shù)據(jù)庫(kù)中進(jìn)行序列采樣。一個(gè)簡(jiǎn)單的方法是從cdna文庫(kù)中隨機(jī)挑選5000個(gè)克隆進(jìn)行測(cè)序。含量很多的mrnas在采樣的序列中出現(xiàn)的頻率很高，而含量較少的mrna出現(xiàn)頻率則較低，通過(guò)這些數(shù)據(jù)的統(tǒng)計(jì)分析可以確定相對(duì)的表達(dá)水平。

一個(gè)更高級(jí)的技術(shù)是基因表達(dá)的連續(xù)分析（serial analysis of gene expreaaion, sage）該方法使每個(gè)cdna產(chǎn)生很短的序列標(biāo)簽（通常8~15nt），并在測(cè)序前把數(shù)百個(gè)標(biāo)簽連接成連環(huán)分子（concatemer）。這樣一個(gè)測(cè)序反應(yīng)中可搜集到幾百條ｍｒｎａ的豐富信息。每個(gè)sage標(biāo)簽可以特異性識(shí)別一個(gè)特定基因，通過(guò)對(duì)標(biāo)簽計(jì)數(shù)，可以確定每個(gè)基因的相對(duì)表達(dá)水平。

然而，大部分全局rna表達(dá)數(shù)據(jù)還需從微陣列實(shí)驗(yàn)所測(cè)的信號(hào)強(qiáng)度中獲取。全局蛋白質(zhì)表達(dá)數(shù)據(jù)主要從雙向聚丙烯酰胺凝膠電泳（two-dimensional polyacrylamide gel electrophoresis, 2d-page）分離，產(chǎn)生點(diǎn)陣的唯一模式（每個(gè)點(diǎn)代表一個(gè)單獨(dú)的蛋白質(zhì)）。在2d-page實(shí)驗(yàn)中，蛋白質(zhì)表達(dá)數(shù)據(jù)可以通過(guò)每個(gè)點(diǎn)的信號(hào)強(qiáng)度得到，每個(gè)二維凝膠上的蛋白信號(hào)必須通過(guò)質(zhì)譜（ms）技術(shù)來(lái)單個(gè)注釋。

2．dna微陣列

一個(gè)微陣列有一系列的dna元件（特征），以格子形式排列在載玻片等微型支撐物上，通過(guò)與復(fù)合rna探針雜交可同時(shí)使很多基因的表達(dá)水平可視化。若使用兩個(gè)不同的熒光標(biāo)簽的探針，可以在同樣的陣列上直接測(cè)定不同樣本的不同基因的表達(dá)。微陣列中主要用到的兩個(gè)技術(shù)：機(jī)械點(diǎn)樣dna微陣列（spotted dna microarray）和寡聚核酸基因芯片(oligonucleotide gene chip)（由美國(guó)affymetrix公司獨(dú)家制造），后者在制造芯片是通過(guò)固態(tài)化學(xué)合成把寡聚核苷酸印在芯片上。

3．雙向蛋白質(zhì)凝膠

2d-pag技術(shù)的原理是蛋白質(zhì)可基于兩個(gè)不同的特性來(lái)分離：等電點(diǎn)（isoelectric point）和分子質(zhì)量（molecular mass）。該技術(shù)中，第一方向蛋白沿固相ph梯度(immobilizes ph gradient)等電聚焦(isoelectric focusing)分離；在垂直方向進(jìn)行分子量的分離。在凝膠染色后，染色斑點(diǎn)（spot）的模式可作為樣品中蛋白質(zhì)的可重復(fù)使用的指紋（fringerprint）。通過(guò)樣本間比較可以識(shí)別不同表達(dá)的蛋白質(zhì)，或被藥物誘導(dǎo)的蛋白質(zhì)等。離體的蛋白質(zhì)斑點(diǎn)（excised spot）可以通過(guò)質(zhì)譜技術(shù)鑒定。

蛋白質(zhì)互作數(shù)據(jù)

1．蛋白質(zhì)互作的重要性

蛋白質(zhì)-蛋白質(zhì)互作導(dǎo)致瞬時(shí)或穩(wěn)定多亞基復(fù)合物（multi-subunit complexes）的形成。了解這些復(fù)合物對(duì)于注釋蛋白質(zhì)功能是必需，也是解釋信號(hào)級(jí)聯(lián)和調(diào)控網(wǎng)絡(luò)等分子途徑的一個(gè)步驟。死效應(yīng)反映了兩個(gè)突變的蛋白質(zhì)

2．遺傳方法

抑制子突變體可以通過(guò)恢復(fù)被破壞的蛋白質(zhì)互作來(lái)補(bǔ)償有害的原始突變體。而合成致死效應(yīng)反映了兩個(gè)突變的蛋白質(zhì)不能相互作用，顯性負(fù)突變（dominant negative mutation）顯示了一種起著多聚復(fù)合體作用的蛋白質(zhì)。

3．親和性方法

可通過(guò)幾種利用蛋白質(zhì)親和性（特異結(jié)合的傾向）分析的物理方法來(lái)為蛋白質(zhì)之間的相互關(guān)系提供直接的證據(jù)，比如親和性管柱層析法，免疫共沉淀。由ciphergen公司使親和實(shí)驗(yàn)格式更趨微型化，使得在蛋白質(zhì)芯片的發(fā)展中達(dá)到頂峰。

4．分子和原子的方法

x射線晶體學(xué)和核磁共振譜有助于在原子水平識(shí)別蛋白質(zhì)互作，其它的蛋白質(zhì)互作分析的分子方法包括熒光共振能量傳遞（fret），表面基元共振譜（spr）和表面增強(qiáng)激光接吸附/離子化技術(shù)（seldl），其中的很多方法可通過(guò)質(zhì)譜技術(shù)直接集成到蛋白質(zhì)注釋中。

5．基于文庫(kù)的方法

基于文庫(kù)的蛋白質(zhì)互作實(shí)驗(yàn)有兩個(gè)主要優(yōu)點(diǎn)：它是高度并行的實(shí)驗(yàn)格式；候選互作蛋白質(zhì)及其cdnas之間直接關(guān)聯(lián)。

影響最大的方法是酵母雙雜交系統(tǒng)（yeast two-hybrid system，y2h），在這個(gè)系統(tǒng)中蛋白質(zhì)通過(guò)識(shí)別與之連接的一個(gè)功能轉(zhuǎn)錄因子進(jìn)行互作。

c數(shù)據(jù)庫(kù)--內(nèi)容，結(jié)構(gòu)和注釋

已注釋的序列數(shù)據(jù)庫(kù)

1．初級(jí)序列數(shù)據(jù)庫(kù)

genbank（ncbi）、核酸序列數(shù)據(jù)庫(kù)（embl）和日本的dna數(shù)據(jù)庫(kù)（ddbj）

2．swiss-prot和trembl

swiss-prot收集了確認(rèn)的蛋白質(zhì)序列及與結(jié)構(gòu)，功能和所屬蛋白質(zhì)家族有關(guān)的注釋信息。相關(guān)數(shù)據(jù)庫(kù)trembl翻譯了初級(jí)核酸數(shù)據(jù)庫(kù)中的編碼序列。

其他數(shù)據(jù)庫(kù)

1．omim

omim指人類孟德?tīng)栠z傳的聯(lián)機(jī)數(shù)據(jù)庫(kù)，用于研究人類遺傳學(xué)和人類分子生物學(xué)的強(qiáng)大資源。每個(gè)omim條目都有一個(gè)對(duì)特定基因或性狀的已知信息的全文總結(jié)，并有指向初級(jí)序列數(shù)據(jù)庫(kù)和其它遺傳學(xué)資源的鏈接。

2．incyte和unigene

incyte是商業(yè)數(shù)據(jù)庫(kù)，它提供了基因序列和專家注釋的記錄，這是專門為藥物研究開(kāi)發(fā)服務(wù)的數(shù)據(jù)庫(kù)。unigene是一種用來(lái)把genbank序列聚類并與est數(shù)據(jù)相關(guān)聯(lián)的實(shí)驗(yàn)工具。

3．結(jié)構(gòu)數(shù)據(jù)庫(kù)

蛋白質(zhì)數(shù)據(jù)庫(kù)（pdb），核酸數(shù)據(jù)庫(kù)（ndb），大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)（msd）

e通過(guò)序列相似性標(biāo)準(zhǔn)搜索序列數(shù)據(jù)庫(kù)

序列相似性搜索

1．序列聯(lián)配

序列聯(lián)配是是相似度量化的第一步，用來(lái)區(qū)分偶然性的相似和真實(shí)的生物學(xué)關(guān)系。聯(lián)配結(jié)果以變化（突變）、插入或缺失（或空位indel）來(lái)顯示序列之間的差異，這些差異可以用進(jìn)化術(shù)語(yǔ)來(lái)說(shuō)明。

2．聯(lián)配算法

動(dòng)態(tài)規(guī)劃算法可以計(jì)算兩條之間的最佳聯(lián)配，其中廣泛使用的算法有smith-waterman算法（局部聯(lián)配）和needleman-wunsch算法（全局聯(lián)配）。

3．聯(lián)配分支和空位罰分

用簡(jiǎn)單的聯(lián)配分值來(lái)測(cè)量相同匹配殘基的比例或數(shù)目。得從聯(lián)配分值中扣去空位罰分，以保證聯(lián)配算法能得出有生物學(xué)意義的結(jié)果而沒(méi)有太多的空位。

數(shù)據(jù)庫(kù)搜索：fasta和blast

1．統(tǒng)計(jì)分值

相似度記分的p值是指獲得至少與兩條無(wú)關(guān)序列間的偶然相似性一樣高的分值的概率。低p值表明重要的匹配，這些匹配可能會(huì)有真實(shí)生物學(xué)意義。相關(guān)的e值（期望值）是至少與所識(shí)別的相似性記同樣高分值的偶然事件的期望概率。兩序列見(jiàn)相似度的低p值對(duì)應(yīng)于大數(shù)據(jù)庫(kù)搜索的高e值。

2．敏感性和特異性

敏感性衡量數(shù)據(jù)庫(kù)中真實(shí)生物序列關(guān)系的比例，該關(guān)系表現(xiàn)為擊中項(xiàng)（有意義的相似序列）。特異性指的是對(duì)應(yīng)于真實(shí)生物學(xué)關(guān)系的擊中項(xiàng)的比例。改變e和p的默認(rèn)值會(huì)導(dǎo)致這些互補(bǔ)的優(yōu)良度測(cè)量方法之間的平衡。

f多序列聯(lián)配：基因和蛋白質(zhì)家族

多序列聯(lián)配和家族關(guān)系

1．多序列聯(lián)配

多序列聯(lián)配表明兩條或兩條以上序列之間的關(guān)系，可以解釋關(guān)于蛋白質(zhì)結(jié)構(gòu)和功能的許多線索。當(dāng)所考察的序列不同時(shí)，保守的殘基往往是維持穩(wěn)定結(jié)構(gòu)或生物學(xué)功能的關(guān)鍵殘基。

2．漸進(jìn)聯(lián)配

漸進(jìn)聯(lián)配方法以兩序列聯(lián)配來(lái)初步評(píng)價(jià)序列是如何相關(guān)的，并在這個(gè)基礎(chǔ)上構(gòu)建向?qū)?shù)，然后使用向?qū)?shù)逐步添加序列到聯(lián)配中，從最密切相關(guān)的序列開(kāi)始到距離最遠(yuǎn)的序列結(jié)束。

蛋白質(zhì)家族和模式數(shù)據(jù)庫(kù)

1．蛋白質(zhì)家族

把序列分配到蛋白質(zhì)家族中是預(yù)測(cè)蛋白質(zhì)功能是非常有價(jià)值的方法。多序列聯(lián)配信息的表示方法有很多種，包括聯(lián)配本身、一致序列、保守殘基和殘基模式、序列輪廓以及其他的

序列家族的概率模型。這些根據(jù)不同的應(yīng)用都有不同的用途，其中大多數(shù)已經(jīng)被開(kāi)發(fā)和存儲(chǔ)在數(shù)據(jù)庫(kù)中，里面含有大量不同蛋白質(zhì)家族的信息，這樣的數(shù)據(jù)庫(kù)稱為二級(jí)數(shù)據(jù)庫(kù)。

2．一致序列

這些序列把多序列聯(lián)配的信息壓縮至單條序列，主要的缺點(diǎn)是除了在特定位置最常見(jiàn)的殘基之外，它們不能表示任何概率信息。一致序列的產(chǎn)生說(shuō)明了任何蛋白家族的表示都是有偏向的，這主要是由于來(lái)源的序列集是有偏向的。

3．prosite

prosite數(shù)據(jù)庫(kù)包括與蛋白質(zhì)家族成員、特定蛋白功能及翻譯后修飾有關(guān)的序列模式。 prosite模式與一致序列的不同在于，它們往往比序列全長(zhǎng)要短得多，并且給出了一種描述多序列聯(lián)配中一套可接受的殘基組合的方法。prosite模式中已知的假陽(yáng)性（或假陰性）都已經(jīng)在數(shù)據(jù)庫(kù)中注明。prosite數(shù)據(jù)庫(kù)在某些條目含有序列輪廓，以嘗試描述比模式更長(zhǎng)的序列片段（通常指整個(gè)結(jié)構(gòu)域）。

4．prints和blocks

prints和blocks是密切相關(guān)的，它們分別通過(guò)來(lái)自一組蛋白或蛋白家族中最高度保守區(qū)域的多序列聯(lián)配無(wú)空位片段的形式來(lái)表示蛋白質(zhì)家族。

蛋白質(zhì)結(jié)構(gòu)域家族

1．結(jié)構(gòu)域家族

許多蛋白質(zhì)是由模式結(jié)構(gòu)的結(jié)構(gòu)域組建的，因此蛋白質(zhì)家族的研究其實(shí)是對(duì)蛋白質(zhì)結(jié)構(gòu)域家族的研究。

2．序列輪廓

序列輪廓（也成權(quán)重矩陣）是一種描繪蛋白質(zhì)結(jié)構(gòu)與家族相關(guān)序列的方法，其優(yōu)點(diǎn)是描述了結(jié)構(gòu)域序列的全長(zhǎng)，包括觀察到每個(gè)氨基酸的可能性，以及序列每個(gè)位點(diǎn)插入和缺失的可能性。

3．隱馬爾科夫模型

隱馬爾科夫模型（hmms）是蛋白質(zhì)結(jié)構(gòu)域家族序列的一種嚴(yán)格的統(tǒng)計(jì)模型，包括序列的匹配、插入和缺失狀態(tài)，并根據(jù)每種狀態(tài)的概率分布和狀態(tài)間的相互轉(zhuǎn)換來(lái)生成蛋白質(zhì)序列。代表某蛋白結(jié)構(gòu)域家族的模型從該家族中生成序列的概率較高，從其他家族中生成序列的概率較低。

j微陣列數(shù)據(jù)分析

微陣列數(shù)據(jù)：分析方法

1．微陣列原始數(shù)據(jù)

微陣列數(shù)據(jù)就是經(jīng)過(guò)雜交的陣列的掃描圖像，掃描圖像顯示每一個(gè)點(diǎn)的雜交信號(hào)強(qiáng)度。這些圖像可通過(guò)單通道、雙通道熒光標(biāo)記、同位素標(biāo)記或比色標(biāo)記等方法獲得，其記錄方式各不相同。

2．?dāng)?shù)據(jù)質(zhì)量

準(zhǔn)確記錄個(gè)點(diǎn)的信號(hào)強(qiáng)度是微陣列數(shù)據(jù)分析的基本要求，dna陣列可包含數(shù)千個(gè)特征點(diǎn)，因此數(shù)據(jù)的獲取和分析必須自動(dòng)進(jìn)行。陣列上必須包含對(duì)照點(diǎn)以衡量非特異雜交和不同

陣列上雜交的多變性。

3．基因表達(dá)矩陣

從微陣列實(shí)驗(yàn)得到的原始數(shù)據(jù)首先要轉(zhuǎn)換成表，即基因表達(dá)矩陣。表中的各行代表基因，各列代表不同的實(shí)驗(yàn)條件，表中的數(shù)據(jù)為信號(hào)強(qiáng)度，代表各個(gè)基因的相對(duì)表達(dá)水平。

4．表達(dá)數(shù)據(jù)分組

基因表達(dá)矩陣中的每一個(gè)基因都有其特定的表達(dá)模式，即一系列條件下基因表達(dá)情況的測(cè)量值。微陣列數(shù)據(jù)分析就是要將這些數(shù)據(jù)按表達(dá)模式的相似程度進(jìn)行分類。

序列采樣和sage

1．序列采樣數(shù)據(jù)分析

差異基因表達(dá)的研究，可以通過(guò)從不同的cdna文庫(kù)中隨機(jī)挑取克隆來(lái)進(jìn)行，也可以通過(guò)抽取est數(shù)據(jù)來(lái)進(jìn)行。這種分析需要抽取成千上萬(wàn)的序列以達(dá)到統(tǒng)計(jì)上的顯著性，即使對(duì)于中度冗余度的mrna也要如此。

2．sage

sage是一種序列采樣技術(shù)，其原理是將非常短的序列標(biāo)記（9~15堿基）連續(xù)為長(zhǎng)的串聯(lián)體。sage標(biāo)記的長(zhǎng)度是最適于高通量分析，但基因依然可以被明確的鑒定出來(lái)。

來(lái)源：網(wǎng)絡(luò)整理免責(zé)聲明：本文僅限學(xué)習(xí)分享，如產(chǎn)生版權(quán)問(wèn)題，請(qǐng)聯(lián)系我們及時(shí)刪除。

《生物信息學(xué)學(xué)習(xí)心得》由互聯(lián)網(wǎng)用戶整理提供,轉(zhuǎn)載分享請(qǐng)保留原作者信息,謝謝!
鏈接地址：http://www.7334dd.com/gongwen/282284.html

上一篇：生本教育學(xué)習(xí)心得
下一篇：班組長(zhǎng)培訓(xùn)心得體會(huì)

推薦專題

相關(guān)文章

1生物信息學(xué)學(xué)習(xí)心得

最新文章

欧洲免费无码视频在线,亚洲日韩av中文字幕高清一区二区,亚洲人成人77777网站,韩国特黄毛片一级毛片免费,精品国产欧美,成人午夜精选视频在线观看免费,五月情天丁香宗合成人网

生物信息學(xué)學(xué)習(xí)心得