视频也做了,过几天会在B站和油管更新,不过觉得这个问题值得写一写,以下是文字叙述。
2015年左右的时候machine learning这个概念在一些药厂就开始火起来了。主要是基于Matt Sigman的data science数据相关性研究,科学筛选有机反应合适的催化剂和条件。当然,药厂对这一模式的machine learning的运用不只在优化反应条件这方面,还包括预测设计的药物分子property上。所谓property,即kinetic solubility,microsome stability以及permeability等ADME assay的测试结果。这个方向算是药厂重资投资AI的一个主要方向。深度解析:
1. 大药厂内部项目多,数据多,所以训练模型的数据大都是自己内部项目的数据。但数据质量并没有想象的好,药厂对于assay数据的QC并不算严格,尤其是在有多个研发中心和使用多个CRO做assay service的情况。另外,为了要大批量生产数据,药厂在synthesis automation上也有相当大的投资,比如做parallel synthesis,把反应开到96孔板甚至384孔板上。还有做direct to bio,即在384孔板上开的反应不经纯化直接拿去测试。目的都是为了快速的生产大量的数据。
2. 小公司钱少数据少,很难搞的来这种AI model,即便想用,最多也就买买像schrodinger这样的commercial软件。这些软件公司的数据大都来自于文献和专利,少部分来自于该公司曾经合作过的公司,data QC就更是天方夜谭了。
综上:受数据质量的影响,这种ADME prediction model其实预测并不准确。但也并非完全没有用,在早期hit expansion的阶段,可以用来prioritize大量的idea,大概对于drug discovery还是有些正向反馈的。
3. 有没有data QC做的比较好的公司?自然也是有的,大部分由high tech投资的AI制药公司在这方面做的就比较好,就像isomorphic lab,每一个数据点用的都是三个CRO差别不大的数据平均值,所以他们的ADME prediction model所做的预测和实际测量值相比就比较精准了。
4. 能不能用来预测分子的活性?也是可以的,但是局限性比较大,在项目后期,med chemist设计的化合物结构差别不大的情况下,可能可以做出比较准确的预测,但总体来说使用价值不高。
除了预测ADME property之外,也有少部分的公司做了做关于逆合成分析和挑选反应催化剂/反应条件的AI model,但总体来说这些都不太成气候,这方面做的比较好的工作还是大都集中在学术界,基本局限于以发好文章为目的,而目前药厂/biotech公司对这方面的投资还是比较少的。
自2022年起,generative AI真正开始火起来之后,在制药领域又有了些新的应用:
1. 预测蛋白结构。这个是最惹眼的领域了,诺贝尔奖都拿了。这个方向在蛋白药的设计领域还是非常火的,很多小型的Biotech像春笋一般冒出来,尤其是做一些well validated target,AI蛋白结构的预测可以非常准确。但是在first in class 药物研发上的应用还是比较有局限性的,原因如下:1)和first in class的target相似的蛋白结构很多都未知,属于训练数据不足,会导致AI预测的结构与实际结构相去甚远。2)对于小分子药物研发领域,小分子和蛋白结合可能会导致蛋白构象发生变化,但因为这方面训练数据的缺失,目前AI预测这样的小分子+蛋白结构更是不准确。3)Bottom line,不是所有的药物研发项目都会有晶体结构,跳出oncology,很多研发项目并没有晶体结构,对于一些first in class的药物研发项目, 甚至有不少都是分子都进临床了,晶体结构才拿到。综上,项目做不做的成,晶体结构只是起很小部分的作用,因此,也不必夸大蛋白结构预测对于药物研发的作用。
2. 基于小分子/蛋白晶体结构,而能够辅助med chemist设计药物分子的generative AI。这个方向我个人认为比较有趣,简单来说它是基于fragment screen的hit(或者其他一些已知的小分子/蛋白的)的晶体结构,用generative AI在这些已有分子的基础上,设计药物分子。也可以是把若干个fragment hits连接到一起。目前这方面的研究还在非常早期,计算机搞出来的idea有的也很蠢,甚至无法合成,但总体来说,这是很多新兴的AI biotech大都在努力的一个方向,未来可能确实会有比较大的进步。
3. Computational Biology领域的knowledge graph。这个很复杂,简单来说就是用AI来找寻疾病于基因,以及基因与基因之间的关联,算是找target的第一步吧。但是吧,target validation是个非常漫长的过程,即便找到了信号不错的基因,后续生物实验能不能做成还是很难讲的。不过药厂/biotech对这方面的投入还是比较大的,读computational biology的PHD也是生化环材里面相对来说没有那么坑的方向。
以上的AI model基本都是基于各大公司自己的平台和数据,与市场上很火的ChatGPT、Google Gemini等差别很大。而这些普适性的AI在生活中的应用确实不少,但在药厂工作中的应用目前还是没有很多,而且无论是ChatGPT还是Google Gemini现在都还没有赚到什么实际上的大钱。这些大LLM model里面只有一个例外,Anthropic的Claude因为写码能力超绝,还能auto debug,对转码人员以及低端码农形成降维打击,所以各大公司对之趋之若鹜,纷纷撒币买入。所以Claude是真的很挣钱,这也是Anthropic的CEO如此傲慢的底气吧。
评论
发表评论