返回首页

4. 文库

 

::::文库初窥::::

到公元2015年, 人类基因组计划将在21世纪初完成,将引发一场生物学的革命. 几乎所有人类基因的功能和表达都已被报道, 有多种基因可以导致遗传疾病. 据SNP的研究, 每个个体基因的差异都被存储起来. 这样个体组成的分析将仅通过简单检测一绺头发而实现. 比如, 你的内科医生说, "由于你有C型胰腺基因, 从遗传上分析你的胰腺很弱, 你非常可能在40岁时患上糖尿病." 根据在线数据, A型胰腺是正常的, B型胰腺约占突变总数的30%. 对B型的治疗大约自5年前开始. C型是仅占总人口0.1%的罕见变异, 由于刚刚发现, 现在还无药可救. 于是一个人致电制造药物的pharmarnomix公司, 定购恰当的新药. Pharmarnomix的科学家有C型胰腺的蛋白表达和晶体结构, 于是查找哪种化合物可以通过分子模型仿真恢复C型蛋白受损的功能. 他们选择了几百万种前导分子, 用计算机设计合成路线, 通过自动合成仪合成. 经过高通量筛选, 选出最好的10种, 在临床实验后, 与你的病最对症的药物最终送到你的门上.

简直就像是在做梦. 然而, 人类基因组计划已经测定了几乎所有的人类基因组序列. 对每个基因功能的研究已经可以进行并加速前进. 这意味着化学家可以合成药品来控制致病基因或所表达的蛋白, 他们的生物靶分子以等差级数增长. 用传统方法制备如此之多的药物几乎是不可能的, 将需要约10年时间. 当然是越多越快的方法越是好方法. 为此发展新的方法以适用于短时间内制备大量新药, 高通量筛选检测新药特性成为必需. 这些研究最重要的核心就是文库. 几年前科学界提出了文库的概念. 尽管生物学家自70年代已使用基因组库cDNA文库这些词, 文库的概念被整个科学界如化学和药学所接受仅是最近10年的事情.

尽管历史很短, 现在文库技术已被应用于自生物活性分子到材料科学中寻找超导体的广阔领域, 并且还在扩大. 随着很多领域开始使用文库方法, 文库的基本概念也在变化甚至有时被赋予了错误含义. 90年代初次登场时就被化学界广为关注, 现在对整个科学界大为影响, 成为21世纪后基因组时代的先锋概念并有成长为范例之势, 文库, 到底是什么?

▲ top 

::::文库的定义::::

文库可被定义为所有可能组合的集合或者关于集合的研究. 在组合的概念上可以说文库就是组合化学. 组合化学的含义甚广, 但我们仅取其与本章一致的含义. 文库最初的含义是储存文献和艺术资料以供阅读, 参考, 借阅等活动的地方. 现在很多国家虽在使用这个词却与其本意不同.

为了更便于理解文库的概念,兹举一例. 仅用字母A和B的组合可以产生多少单词? 仅考虑两字母以内的词时结果是:

A AA B BB AB BA

有六种可能组合. 我们可以称之为含有A和B的6种全部可能组合的集合. 以此拓展至英文词典. 字母表中有26个字母, 如果我们假设每个词总是含有5个字母, 我们可以计算一本词典含有多少词汇.

AAAAA
AAAAB
AAAAC



ZZZZX 
ZZZZY 
ZZZZZ 

全部可能组合是26 x 26 x 26 x 26 x 26 = 11,881,376. 如果亦考虑含有5个以内字母的词, 一个字母的有26个词, 两个的26 x 26 = 676, 三个的26 x 26 x 26 = 17,576, 四个的26 x 26 x 26 x 26 = 456,976. 如果假设全部词汇即是这些, 那将是,

26 (1) + 676 (2) + 17,576 (3) + 456,976 (4) + 11,881,376 (5) 

= 12,356,630 个词 

我们称这个集合为文库. 在韦氏英语词典中, 有大约300,000词汇, 我们可以发现1200万的文库早已超过了实际使用的英语词汇数. 然而, 从以上步骤可以看出无论说英语与否, 每个人都可以编一本包含全部组合的新英语词典. 当然会有许多诸如QQQQQ这样可笑的垃圾词汇, 但是它仍然包含了全部有用的词汇. 我们称之为文库词典. 从没有出现过的词也可以在这本词典中找到. 多于5个字母的怎么办呢? 很简单. 假设最长的单词含有40个字母. 你只需要编一本40个字母组合的词典! 26 + 262 + .... + 2639 + 2640…并继续. 你可以肯定的说你编了一本含有全部可能词汇的词典. 词汇总量可以通过增加限制而大为缩减, 比如没有4个以上连续相同字母的词. 但这仍然含有很多从没用过的垃圾词汇.

现在让我们试着编一本实用的词典. 如果有一些有用的词丢失了怎么办? 没关系. 可以首先编一本词典, 然后逐个检查滤出无用词汇. 有很多检查方法. 比如对100个英文为母语的人作调查. 最终的词典可能因他们的种族, 国籍, 年龄的不同而有所不同. 英国人和美国人做出来的词典将差异很大. 我们也可以使用网络资源或者总结不同的词典. 经过筛选之后的最终版可能有所不同, 但至少可以说没有任何词汇需要添加到最初的词典中. 精确的说, 如果把全组合库中的词汇置于特定规则之下, 至少每个词都有机会通过筛选进入新词典中. 正如这个简单的例子一样, 在文库制备和筛选过程中可以应用许多不同的修正方法. 文库方法的基本概念就是短时间内制造出包含大量候选物的文库并筛选需要的部分.
 

▲ top 

::::文库和药物工业::::

文库是怎样被实际应用的? 药物工业是文库使用最活跃的领域, 是一个很好的例子. 自第一个抗生素青霉素于1928年发现以来, 很多药物公司使用从世界各地采集的动植物及土壤来发展新的抗生素. 几个大的药物公司拥有几百万种样品. 一旦发现一个新的细菌, 他们即对样品实验并选出未感染者, 然后从这些样品中寻找新的抗生素. 仅有大的药物公司拥有如此财力人力和精力做这样的实验. 但是是否这些样品可以检测全部新的细菌? 几百万的样品库是否就包含了全部的可能? 答案是“绝不是.” 之所以说样品库不能令人满意, 不是由于数量不足, 而是覆盖面不够广.
( 青霉素, http://www.latesting.com/body_photo_gallery.html


再说蛋白. 尽管有所例外, 绝大多数蛋白值仅包含20种氨基酸. 蛋白质由几千个氨基酸组成, 较短结构的称作肽. 于是, 加上一个意为2~10的前缀“oligo”, oligopeptide的意思就是含有10个以内氨基酸的肽. 我们体内如荷尔蒙和神经传递素等很多活性分子是oligopeptide. 尽管蛋白质长达几百氨基酸, 事实上仅有2~4个氨基酸序列就决定了蛋白质的功能. 是否可以建立一个肽文库呢?

以20个氨基酸计, 含有2个氨基酸的肽有 20 x 20 = 400, 3个的 203 = 8,000, 4个的 204 = 160,000, 5个的 205 = 3,200,000. 可以看出5个氨基酸的组合已经超出了药物公司的样品总数. 合成5氨基酸的肽非常容易, 也就是说一个含有20种氨基酸总数达320万的肽文库可以几天时间内合成. 我们仅需从文库内筛选活性分子. 这样我们就试验了320万种可能. 由于肽有于天然蛋白质相同的结构, 它可以被我们的新陈代谢所消化, 也可以作为抗原产生不必要的免疫作用. 所以以肽本身作为药物非常困难. 因而当发现了一个活性肽之后, 首要任务就是在其上进一步发展药物分子. 尽管如此, 合成蛋白质不是比满世界采集土壤更有意思吗?

肽文库

<http://www.soton.ac.uk/~chemweb/research/profiles/organic/kilburn/kilburn5.htm>

传统方法是药物化学家一次合成一个化合物然后检验其生物活性. 据说一个突出的化学家可以每年合成50~100种化合物, 每个耗资7,500美元. 与之相比, 如果采用文库技术, 每个月合成上千种化合物而每个仅耗资10美元. 为新药寻找目标细菌或蛋白质曾经是非常慢的工作, 但是自更多采用了青霉素等抗生素之后, 细菌的抗药性不断频繁且迅速产生, 甚至有预言现在的药物发展速度赶不上新细菌的产生速度, 人类终将灭亡.

▲ top 

::::只有肽吗?::::

尽管上面应用的主要是肽, 任何结构单元都可以构建文库, 正如我们可以用希腊字母表代替英文字母表. 事实上, 早期主要尝试的是核酸文库, 如DNA和RNA库. 除了使用A, C, G, T (或 U)的四字母表, 其他都与肽文库一样. 如果合成一个5元碱基的简单核酸, 其文库有45 = 1024 种组合. 肽及核酸都是一维高分子. 例如, A之后是C然后是G…如此继续. 这样的文库将可能有重复排列的数量.

A-B-B-C-A-D-D-D 

如果不是线形而是环形结构呢? 组合数不同所以会产生新型的文库. 糖类较氨基酸或核酸也可以使用, 合成分子较天然产物也可以使用. 无需必是线形或环形结构, 也无需是有机物. 金属氧化物或者聚合物是否也可以呢? 所以说, 文库的参与单元是没有限制的.

▲ top 

::::文库策略::::

基本上文库的应用过程是这样的: (1) 选择目标. (2) 定义目标分子的特性. (3) 设计筛选目标分子的方法. (4) 合成文库. (5) 筛选出前导化合物. (6) 合成前导化合物相似结构的次级文库并再次筛选较前导化合物性能更好的分子. 重复步骤 (4) 及 (5) 决定最优活性化合物. 



选择目标 
↓ 
定义目标分子的特性 
↓ 
设计筛选方法 
↓ 
合成文库 
↓ 
筛选
↓ 
最终活性分子 

 

选择目标分子

尽管文库应用于快速生产大量化合物, 产物本身并不是最终目标. 如果文库的基本目标是发现新的特性分子, 我们需要决定找寻什么类型的特性. 既然药物工业是文库使用最多的领域,我们就讨论新药的开发吧.  我们要尝试什么类型的药? 揭开新纪元的抗癌药物? 或者20世纪的杀手, 爱滋病? 有许多疾病可以做文库的目标. 考虑研究费用是否充足,当然还有销售潜力也应该被考虑, 我们可能需要读各种不同经济的和医学杂志还有那些惊人的好主意. 由此产生一个最终目标例如治疗谢顶或汽油替代品.尝试无害, 我们就说想要发现治疗爱滋病的药吧.

一旦确立研究方向, 我们需要考虑要得到什么样的化合物. 为得到爱滋病治疗药物, 首先我们需要了解所有有关爱滋病的知识. 爱滋病(获得性免疫机能低下综合症)是HIV病毒引起的(对其起因也有一些其他观点). 衰退了的免疫系统导致病人死于各种各样对常人无效的感染. 该如何治疗呢?

可以提出多种方法. 首先,把HIV病毒视为最终敌人,那么方法就是杀死或阻止病毒感染. 由于大多数病毒 寄生于寄主细胞, 理想的治疗就是仅杀死病毒而对寄主细胞无害. 第二种最好办法是杀死含有HIV病毒的寄主细胞以使周围的健康细胞不被感染. 这种情况下, 目标分子必须对人体毒性最低却能杀死病毒或阻止感染. 可以有很多途径, 如阻断病毒感染过程或选择攻击病毒活动必需的因素.

如果应用不同的方式,所需要的分子特性将完全不同. 如果应用不同的方式, 所需要的分子特性将完全不同. 是否可以通过增强免疫力而不是攻击病毒, 让病毒被增强的免疫系统自然地扑灭; 抑或如Bernard Werber的帝国中的蚂蚁, 与病毒和平共栖? 尽管目的相同, 目标分子的特性可能完全不一致.


设计筛选方法 

一旦确定目标分子的某一特性, 就应设计恰当的筛选方法. 如果目标分子的特性是对病毒有毒性, 就可以培养病毒然后筛选对病毒致命的分子. 因为绝大多数病毒只生长在宿主细胞体内, 必须确认化合物仅杀死病毒而不影响细胞. 为检查其是否杀死被感染的细胞, 需要测试正常细胞以作为对照组. 如果要寻找一个增强免疫活性的分子, 就应当采用一个不同的筛选方法. 可以将待测分子注射, 如果可能, 入实验动物或人体内并检查相关的免疫细胞数量是否增加, 或检查免疫细胞的体外活性. 甚至仅是检查免疫细胞的活动, 也可以仅仅使用显微镜数增加细胞的数目, 或者通过将细胞活动的生化变化转变为颜色变化而后用分光光度法检测. 即使决定了目标分子的特性, 也可以由各种不同的感知其特性的筛选方法备选. 在这一点上, 可能需要相关领域专家的意见. 上述程序与通常的医学化学研究程序相同. 让我们看看下一步文库技术是如何应用的.


文库合成

如果筛选方法也确定了,下个步骤就是文库合成, 这与通常的有机合成方法有根本的不同. 普通合成化学经过设计,合成和分析等几步: (1) 首先, 根据待合成的目标分子用反合成分析法设计高效的合成路线. 由于分子的体积和复杂性全合成可有几十条路线, 路线是否高效决定了成功与失败. 如果起始反应物买不到, 通常的办法是在实验室里经过几个步骤合成. (设计) (2) 根据设计合成目标分子. 一般的目标分子仅有几个化合物. 有时需要几十个, 一般只有大工业才可以. 通常大多数反应是在溶剂中进行的. (合成) (3) 合成中每一步的副反应产物通过重结晶, 萃取, 气相色谱等方法去除, 产物的结构和纯度通过元素分析, NMR, 质谱, 或红外紫外光谱等技术分析. (分析) 文库合成过程类似, 包含设计, 生产和查证等步骤.

文库设计

虽未提及, 在普通方法中已经决定了文库的设计. 换言之, 有关合成目标的信息已经在设计步骤中给出了. 这样的活性分子是新药的候选物, 称作前导化合物. 很多时候如青霉素等, 前导化合物是从天然产物中发现的, 也有时可在合成另一个目标的过程中偶然被发现. 抗生素, 重氮化合物的发现都曾是在合成染料的时候发现的, 这是非常好的例证. 此外, 谷氨酸和多种激素也是前导化合物, 它们是生化学家研究神经传递素和激素时发现的. 由于前导化合物可以简化合适分子的修正过程, 它的存在对通常的研究是必需的. 当对目标物没有任何线索的时候寻找前导化合物显得尤为重要. 大型药物公司耗费大量时间和精力收集各地土壤等天然物就是为了寻找前导化合物.

在文库设计中前导化合物非常重要. 如果手头没有前导化合物, 就需要构建一个基本文库去搜寻它. 如果没有任何目标分子的信息,最广谱的文库就是最适于搜寻的文库. 构建抗体文库寻找新抗原步骤与免疫反应非常相似. 免疫系统产生的抗体可与几乎所有抗原结合, 因而可以人工构建一个包含所有结合可能的广谱文库. 众所周知抗体由蛋白质和含有3~5个氨基酸的抗原决定基(epitope)所组成. 因此, 由20种氨基酸做构造单元的文库被广泛用作第一个文库. 当然, 由于肽有在体内分解等问题不能直接应用, 也有人尝试构建合成化合物的通用文库, 考虑了众多因素如电负性, 亲水性, 亲脂性等的组合, 但至今还没有一个建成.

然而,除非递送到正确的部位或保持足够的浓度, 即使是对目标蛋白质活性最强的化合物都是无用的. 这些是药物代谢动力学的问题, 通常在前导结构的效能最优化之后的阶段考虑. 这就是, 首先改良效能, 然后才考虑传递. 但是,在早期阶段或与效能最优化平行的阶段就考虑这些问题的呼声正愈演愈烈. 一个好药主要要考虑的问题就是吸收,分配, 代谢, 排泄和毒性, 这被缩写为ADME. 1997年, Lipinski提出了"5规则"用以预言分子吸收性. 如果一个分子有如下性质, 一般吸收较差:(Adv. Drug Delivery Rev. 1997, 23, 3-25):

1. 多于5个氢键给予体
2. 分子量大于500
3. 分配系数LogP大于5
4. 多于10个氢键接受体

当然,被活跃的传送体如葡萄糖传送的分子, 对这些规则例外. 为何这些规则叫做"5规则"是因为每条规则都包含5或其倍数. 虽然有许多例外, 这些规则在开始真正的合成之前仍然对设计类药分子非常有用.   

文库生产

在文库合成中, 固相反应与液相反应一样广为应用. 许多多样性合成方法已被报道因而 短时合成大量化合物的方法已经开始蓬勃发展. 但是, 合成产物的净化和提纯步骤也需要越简单越好. 另外, 原料是否可得也需要在设计高效路线之前考虑到 因为大量化合物是一次性合成的. 反应物可以购得且价格便宜是个优点, 可是合成路线还需短而简单. 因为多数情况下每一步并不能完全提纯, 考虑到终产物提纯, 整个反应必须限制在5步以内.


文库查证

确认正确合成了化合物是必要的. 通常文库合成一直进行到最终步骤而不除去副产物或确认反应终结. 所以, 提出和查证终产物是必须的, 这是文库合成的最大弱点. 多数步骤可以同时平行进行, 但是这最后的一步在大多数时候仍需一个一个链式处理得到的产物. 换言之, 提纯和分析通常需要大量时间和精力. 文库产物分析中也如普通方法那样经常使用NMR, 但是色谱技术如HPLC/GC更多用于提纯而 质谱用于检验物质结构. 已经做过很多改进和自动化这一步的尝试.


筛选

一旦文库化合物被合成, 就可以使用已设计的筛选方法选择活性分子. 由于化合物量非常大, 所以高通量筛选是必需的. 最终, 第一个前导化合物被发现了. 如果前导化合物在初期已经发现了, 这一步即可省略. 前导化合物一经发现, 下个步骤就是合成与前导化合物结构相似但略有差别的次级文库. 在这一步与前导化合物的相似性比多样性更重要. 从次级文库中筛选较前导化合物活性更高的分子是个重复过程. 关于哪个结构起重要作用的信息是在这一过程中发现的, 这叫做构效关系(SAR). 这些重复的文库合成和筛选过程叫做最优化,这与抗体的突变非常相似.


最终候选物
 

经过如此的最优化过程, 选出最终候选分子, 但是这并不意谓这些化合物能被直接应用于新药研究. 举例来说, 即使候选分子能够在体外杀死HIV病毒并且优于其他药物, 在实际应用之前还有很多工作要做. 很多时候在体外表现非常好的活性分子在体内没有任何效果. 除此之外, 有效分子时常表现出无法接受的副作用并且被从候选名单上删除. 由于这些原因, 必须进行更切实际二次筛选. 如果第一次筛选是在体外进行的, 第二次筛选将是在实验动物如小鼠或天竺猪体内. 第二次筛选如第一次一样, 需要构建一个新的次级文库合成反馈循环. 在经过多年动物和临床实验证明之后, 一种新药即可上市. 实际买到的药是从数以千计的前导化合物中选出来的. 通常, 从发现前导化合物到临床前的筛选需要6年半(包括动物实验), 1年半的第一阶段临床实验(健康志愿者身上的安全测试), 2年的第二阶段临床实验(数百病人身上的活性和副作用筛选), 3年半的第三阶段临床实验(数千病人身上的活性确认和长期副作用监测). 有了这些数据, 药物公司才可以向 食品药物管理局(FDA)申请批准, 而评估又需要半年. 开发一个新药的总耗时长达 10-15 年! 这一过程每减少一年就意谓着延长专利权一年, 和早一年造福病人. 当庞大的药物公司正在尝试减少开发投入而且通过并购增加市场份额的时候, 他们也在尝试多种方法以缩短新药开发周期. 尽管部分由于市场上没有任何可替代药, Gleevec利用Norvatis开发的抗淋巴瘤药物是较短的开发和批准周期的一个成功范例.  

▲ top

 

 back to main page
  
 

Copyright (c) 2000-2002. Young-Tae Chang, New York University. All rights reserved
Web Master : Young Soo Kim