閱讀屋>生物/化工/環保/能源> 淺談生物資訊學的新進展

淺談生物資訊學的新進展

　　計算機技術和人類基因組計劃的發展，應運而生了一門新興的學科——生物資訊學，該學科包含了兩個交叉領域的工作：用於建立現代生物學所需資訊系統框架（支援生物學的資訊管理系統、分析工具和通訊網路）的研究開發工作，即傳統意義上的生物資訊學（bioinformatics）；旨在理解基本生物學問題的基於計算的研究工作，即計算生物學（computational biology）。生物資訊學和基因組研究（Bioinformatics and Genome Research）系列會議於1990年開始舉辦，1997年6月11~12日在美國加州舊金山舉辦了第六屆國際生物資訊學和基因組研究年會，年會的主要議題包括正在出現的新技術、基因的功能分析、新的資料工具和製藥先導的基因和蛋白質發現[1]。現將有關內容簡介如下：

　　一、正在出現的技術

　　Klingler(Lncyte pharmaceuticals,PaloAlto,CA,USA)強調基因組學正推動製藥業進入資訊時代。隨著不斷增加的序列、表達和作圖資料的產生，描述和開發這些資料的資訊工具變得對實現基因組研究的任務至關重要。他談到了Incyte pharmaceuticals對大規模基因組資料和生物資訊學的貢獻。

　　Lipshutz(Affymetrix,Santa clara,CA,USA)描述了一種利用DNA探針陣列進行基因組研究的方法，其原理是透過更有效有作圖、表達檢測和多型性篩選方法，可以實現對人類基因組的測序。光介導的化學合成法被應用於製造小型化的高密度寡核苷酸探針的陣列，這種透過軟體包件設計的寡核苷酸探針陣列可用於多型性篩查、基因分型和表達檢測。然後這些陣列就可以直接用於並行DNA雜交分析，以獲得序列、表達和基因分型資訊。Milosavljevic(CuraGen, Branford, CT, USA)介紹了一種新的基於專用定量表達分析方法的基因表達檢測系統，以及一種發現基因的系統GeneScape。為了有效地抽樣表達，特意製作片段模式以瞭解特定基因的子序列的發生和冗餘程度。他在酵母差異基因表達的大規模研究中對該技術的效能進行了驗證，並論述了技術在基因的表達、生物學功能以及疾病的基礎研究中的應用。

　　二、基因的功能分析

　　Overton(University of Pennsylvania School of Medicine,Philadelphia,PA,USA)論述了人類基因組計劃的下一階段的任務——基因組水平的基因功能分析。這一階段產生的資料的分析、管理和可視性將毫無疑問地比第一階段更為複雜。他介紹了一種用於脊椎動物造血系統紅系發生的功能分析的原型系統E-poDB，它包括了用於整合資料資源的Kleisli系統和建立internet或intranet上視覺化工具的bioWidget圖形使用者介面。EpoDB有可能指導實驗人員發現不可能用傳統實驗方法得到的紅系發育的新的藥物靶，製藥業所感興趣的是全新的藥物靶，EpoDB提供了這樣一個機會，這可能是它最令人激動的地方。

　　Sali(Rockefeller university,New York,NY,USA)討論了同源蛋白質結構模建。比較蛋白質模建（comparative protein modeling）也稱為同源模建（homology modeling），即利用實驗確定的.蛋白質結構為模式（模型）來預測另一種具有相似氨基酸序列的蛋白質（靶）的構象。此方法現在已經具有了足夠的精確性，並且被認為效果良好，因為蛋白質序列的一個微小變化通常僅僅導致其三維結構的細微改變。

　　Babbitt(University of California,San Francisco,CA,USA)討論了透過資料庫搜尋來識別遠緣蛋白質的方法。對蛋白質超家族的結構和功能的相互依賴性的理解，要求瞭解自然所塑造的一個特定結構模板的隱含限制。蛋白質結構之間的最有趣的關係經常在分歧的序列中得以表現，因而區分得分低（low-scoring）但生物學關係顯著的序列與得分高而生物學關係較不顯著的序列是重要的。Babbit證明了透過使用BLAST檢索，可以在資料庫搜尋所得的低得分割槽識別遠緣關係（distant relationship）。Levitt(Stanford univeersity,Palo Alto,CA,USA)討論了蛋白質結構預測和一種僅從序列資料對功能自動模建的方法。基因功能取決於基因編碼的蛋白質的三級結構，但資料庫中蛋白質序列的數目每18個月翻一番。為了確定這些序列的功能，結構必須確定。同源模建和從頭摺疊（ab initio folding）方法是兩種現有的互為補充的蛋白質結構預測方法；同源模建是透過片段匹配（segment matching）來完成的，計算機程棄SegMod就是基於同源模建方法的。

　　三、新的資料工具

　　Letovsky(Johns hopkins University,Baltimore,MD,USA)介紹了GDB資料庫，它由每條人類染色體的許多不同圖譜組成，包括細胞遺傳學、遺傳學、放射雜交和序列標籤位點（STS）的內容，以及由不同研究者用同種方法得到的圖譜。就位置查詢而言，如果不論其型別（type）和來源（source），或者是否它們正好包含用以批定感興趣的區域的標誌（markers），能夠搜尋所有圖譜是有用的。為此目的，該資料庫使用了一種公用座標系統（common coordinate system）來排列這些圖譜。資料庫還提供了一張高解析度的和與其他圖譜共享許多標誌的圖譜作為標準。共享標誌的標之間的對應性容許同等於所有其它圖譜的標準圖譜的分配。

　　Markowitz(Lawrence berkeley Laboratory,Berkeley,CA,USA)討論了分散式資料庫與區域性管理的關係，以及用基於工具的方法開發分子生物學資料庫（MDBs）的問題。許多方案當前正在促進搜尋多種不同來源MDBs的資料，包括建立資料倉庫；這要求對各種MDBs的組合有一種全域性觀，並從成員MDBs中裝填資料入中心資料庫。這些方案的主要問題是開發整體檢視（global views），構建巨大的資料倉庫並使整合的資料庫與不斷髮展中的成員MDBs同步化的複雜性。Markowitz還討論了物件協議模型（object protocol model,OPM），並介紹了支援以下用途的工具：建立用於文字檔案或者關係MDBs的OPM檢視；將MDBs作成一個數據庫目錄，提供MDB名稱、定位、主題、獲取資訊和MDB間連結等資訊；說明、處理和解釋多資料庫查詢。Karp(SRI international,Menlo Park,CA,USA)解釋了Ocelot,一種能滿足管理生物學資訊需求的面向物件知識陳述系統（一種面向物件系統的人工智慧版）。Ocelot支援略圖展開（schema evolution）並採用一種新的最最佳化並行控制機制（同時進行多項訪問資料的過程），其略圖驅動圖形編輯器提供了互動式瀏覽和編輯功能，其註釋系統支援資料庫開發者之間的結構通訊。

　　Riley(Marine biological Laboratory,Woods Hole,MA,USA)在討論大腸桿菌蛋白質的功能同時，特別提到了GPEC資料庫，它包括了由實驗確定的所有E.coli基因的功能的資訊。該資料庫中最大比例的蛋白質是酶，其次則為轉運和調控蛋白。

　　Candlin(PE applied Biosystems,Foster City,CA,USA)介紹了一種新的儲存直接來自ABⅠPrism dNA測序儀的資料的關係資料庫系統BioLIMS。該系統可以與其它測序儀的資料整合，並可方便地與其它軟體包自動呼叫，為測序儀與序列資料的整合提供了一種開放的、可擴充套件的生物資訊學平臺。

　　Glynais(NetGenics,Cleveland,OH,USA)認為生物資訊學中最關鍵的問題之一是軟體工具和資料庫缺乏靈活性。但是，軟體技術的發展已得到了其它領域如金融業和製造業的發展經驗的借鑑，可以使來自不同軟體商的運行於各種硬體系統的軟體共同工作。這種系統的國際標準是CORBA，一種由250多個主要軟體和硬體公司共同合作開發的軟體體系。聯合使用CORBA和Java可以開發各種透過一個公用使用者介面訪問任何種類的資料或軟體工具的網路應用軟體，也包括生物資訊學應用軟體。Overton不同意Glynias的這種想法，他強調說CORBA僅對軟體整合有用，不相容的資料庫軟體可能是計算生物學所面臨的最困難問題，一些製藥公司和資料庫倉庫最近資助了一項用OCRBA連結不同的資料庫的計劃[2,3]。

　　四、製藥先導的發現

　　Burgess(Sturctural bioinformatics,San Diego,CA,USA)討論了填補基因組學和藥物設計之間鴻溝的蛋白質結構中的計算問題。在缺乏主要疾病基因或藥物靶的精確描述資料的情況下，藥物設計者們不得不採用大規模表達蛋白質篩選方法；而結構生物資訊學則採用一種更為實用有效的計算方法直接從序列資料中確定靶蛋白質的活性位點的精細結構特徵，它利用一種整合專家系統從現實的或虛擬的化學文庫中進行迅速的計算篩選，可以達到一個很大的規模。

　　Elliston(Gene logic,Columbia,MD,USA)討論了治療藥物開發中發現新的分子靶的過程，著重討論了基因發現方法。他認為，隨著日益臨近的人類基因組測序的完成，幾乎全部基因的特徵將在序列水平得到揭示。但是，對基因的認識將有賴於更多的資訊而不僅僅是序列，需要考慮的第一類資訊是轉錄表達水平資訊，而Gene logic 公司的GeneExpress就是一個由mRNA表達譜、轉錄因子位點、新基因和表達序列標籤組成的資料庫。

　　Liebman(Vysis,Downess grove,IL,USA)介紹了Vysis公司開發的計算和實驗方法，這些主法不僅用於管理序列資料，而且被用於以下用途：分析臨床資料庫和自然—突變資料庫；開發新的演算法以建立功能同源性（區別於序列同源性）模擬生物學通路以進行風險評估；藥物設計的靶評估；聯絡複雜的通路特性以便識別副作用；開發疾病發展的定性模型並解釋臨床後果。

　　隨著發現的新基因的日益增多，這個問題顯得格外重要：基因的功能是什麼？Escobedo(Chiron technologies,Emeryville,CA,USA)提出了這個問題的一種方法：將分泌蛋白質的基因的功能克隆與篩選這些克隆（可能的藥物靶）結合起來。在這種方法中，在微粒體cDNA文庫池中進行體外翻譯避免了勞動密集的克隆、表達和純化步聚，對文庫池中的翻譯產物在細胞水平進行篩選，測試其在細胞增殖和分化中的作用。例如，在用這種方法識別的111個克隆中，56個屬於已知的分泌蛋白質，25個為膜相關蛋白，另外30個功能未知，可能是新的蛋白質。一種相似的方法在轉移到小鼠模型系統中的基因傳導載體中構建分泌蛋白質的cDNA文庫來克隆特定的功能基因。

　　Ffuchs(Glaxo wellcome ,Research Triangle Park,NC,USA)討論了生物資訊學更為廣義的影響：它不僅影響到新藥物靶基的發現，還對改善藥物開發的臨床前期和臨床期的現狀極具重要性。眾所周知，涉汲數以千計病人的臨床試驗（可能是藥物開發最為花錢的部分）的設計不論多麼仔細，也不能為正確的藥物選擇正確的病人。而在基因組水平劃分病人群體的方法可以大大改善發現新藥的效率。Fuchs介紹了一種將病人的基因型和表型標誌結合起來以改善臨床前期和臨床期藥物開發過程的系統Genetic information System.他強調將遺傳學和生物資訊學資料同化學、生物化學、藥理學和醫學資料連線起來的整合資訊管理和分析方法是極其重要的。

　　Green (Human Genome Sciences,Rockville,MD,USA)介紹了他的測序工作中採用的資料管理工具。基於EST的測序方法所面臨的挑戰是，在對幾百個cDNA克降重複測序之後，產生的資料堆積如山。由於大多數人類基因都是用這種方法發現並在麼有資料庫中分類編排的，面臨的識別開放讀框、重疊序列的重疊圖譜、組織特異表達和低丰度mRNA基因的任務是令人生畏的。Human genome Sciences公司開發了一些可使用者化資料庫工具，在同一個資料庫中可包括以下功能：WWW上訪問和檢索資料，序列拼接，臨視潛在藥物靶基因的研究進展等。這些能夠管理多項任務——從註釋基因序列到成功開發基因產物進入藥物發現的流程——的軟體工具，極其可望從一種基於基因組知識的藥物發現方法中得到新的藥物靶。

　　Summer-Smith(Base4 bioinformatics,Mississauga,Ontario,Canada)描述了一種相關的策略。藥物發現階段中所要求的軟體工具的任務是多樣化的，要能註釋基因，並闡明它的生理和病理功能及其商業潛質。對這樣多種來源的資訊的整合與分析，在派生的、專案取向的資料庫（project-specific database,PSD）中可以很好完成。由於專案貫穿於發現到開發全過程，其間又不斷加入背景的成員，PSD在專案的管理與發展中成為一種關鍵性的資源。

　　按照Smith(Boston university,Boston,MA,USA)的觀點[2]，我們並不需要更快捷的計算機或更多的計算機科學家，而是需要更的生物學家和生物化學家來解釋序列的功能。這對有些軟體或硬體專家來說是個打擊，但生物學系統的複雜性是令人生畏的，並且對基因功能的認識可能需要生物學方法和計算方法的結合。探索基因的功能很可能要花費生物學家們數十年的時間，本次會議表明沒有任何單一的方法可以得出一個答案；但是，將計算生物學同大規模篩先結合起來識別一種化學靶物（hit）是一種產生化學工具來探索基因功能的方法，這些化學工具接下來就可以用作理解基因功能的“探針”。這種方法在Butt(Gene Transcription Technologies, Philadelphia, PA, USA)的描述中，既是一種檢查基因功能的簡單方法，也是為潛在的藥物靶發現化學先導物的簡單方法，他描述了一種可以在酵母中重建人類基因功能的酵母大規模篩選系統。在此係統中，可以迅捷地在一個化學文庫中發現配基。這種技術的重要特徵是它不僅僅是發現一種藥物靶的配基的篩板（screen），相反，由於該系統的高速度，它也是發現先導靶基因的一種篩板。過去，世界上的製藥公司通常在某一時間內僅能對有限數目（約20多個）的藥物靶基因進行工作，鑑於此，我們需要根本不同的方法如基因組學來開啟通向“新”生物學的通路。由於機器人和合成化學的進步，藥物發現中最關鍵的問題不再是得到一種先導化合物（lead compound），而是得到導向靶基因。此次會議為從計算和實驗方法中發展出的新生物學邁出很好的一步。

　　參考文獻

　　1 Lim HA,Batt tR.TIBTECH,1998;16(3)):104

　　2 Williams n.Science,1997;277(5328):902

　　3 Stein LD et al.Gene1998;209(1~2):GC39

【淺談生物資訊學的新進展】相關文章：