萧箫 发自 凹非寺量子位 | 公众号 QBItAI
制药行业的“专家版ChatGPT”,终于来了!
就在这两天,首个生物医药的千亿参数大模型产品ChatDD发布,不仅制药各阶段知识“样样通”,还能和药学专家进行对话,瞬间秒懂一些行业神秘“黑话”。
此外,也不用担心问答内容超出ChatDD训练数据截止日期,毕竟它还学会了自己联网、或是从数据库中查找答案。
与同行AI不同的是,ChatDD的“业务范围”,涵盖了制药的前、中、后期三个阶段。
此前的医药行业AI,即使是大模型,往往也只能用于制药的部分阶段,例如前期的药物发现,或是中期的临床前研究。占研发成本大部头的后期临床试验,几乎无人问津。
而ChatDD不仅能参与药物发现、立项、商业智能(BI,Business Inteligence)、临床试验各环节,还能帮助提升成功率。
聂再清介绍表示,ChatDD用于后期临床试验设计,也是大伙儿最期待的功能。
首先,药物在临床试验阶段的通过率,往往并不高。
尤其二期到三期临床,通过率只有34%,三期到四期通过率也不高。但临床试验加上前中期的费用往往又极高,一旦不通过,就是几亿美元成本“打水漂”。
其次,药物通过率不高的原因,(除非药物本身不行)很大程度上是因为没找到适合“对症下药”的患者。
药厂通常会从临床信息数据库中,筛选适合用药的病人。
假设这个药物对数据库中5%的患者有效,那么从这5%的患者中挑选进行临床试验,肯定比剩下95%的患者有效率高。
在综合各方面信息做判断这件事上,ChatDD往往比人类更适合筛选出“对症下药”的患者。
聂再清特意举了一个例子,来表明ChatDD的能力:
注意这里未来会是“私有化部署的合作伙伴的单细胞RNA测序数据”,现在因为没有,所以我们用了水木分子收集到的公开数据计算出来的。
这样的ChatDD,背后功能究竟是怎么实现的?
医学院博士后负责数据构建ChatDD背后的底座,取名ChatDD-FM,参数量达到千亿级别。
这次推出的ChatDD-FM-100B,是全球首个千亿参数多模态生物医药对话大模型,其在C- Eval评测中达到全部医学4项专业第一、也是唯一平均分超过90分的模型。
联想到团队前不久发的BioMedGPT-10B,其自然语言模态的大模型同样基于LLaMA 2架构,这二者是否有什么联系?
聂再清表示,ChatDD-FM和BioMedGPT,在受众和用途上都不太一样,“有点像ChatGPT和GPT-3.5的区别,前者在对话和意图对齐能力上有更大提升”。
BioMedGPT主要用于科研领域,更擅长英文生物医药科研任务,适合直接拿来作为生物医药领域的相关科研任务的基础模型。
ChatDD-FM主要给国内医药行业“打辅助”,侧重中文对话能力,融入了更多专家的对话模式和经验。
技术上,ChatDD-FM相比BioMedGPT,主要增强了三大方面,模态、训练数据和参数量级——
模态上,增加了蛋白质结构数据;训练上,增加了用于中文、专家对话和调用工具能力的数据;参数量级上,从百亿增加到千亿。
让ChatDD-FM提升“专业度”、说话像“行内人”的秘诀,依旧在于高质量数据上。
这些数据主要分为两部分。
第一部分,是预训练用的医药知识数据,主要目的是让ChatDD-FM提升专业素养,几个月内掌握行业知识。
ChatDD背后的公司水木分子,目前已完成千万级种子轮融资。
水木分子自定义为“大模型时代的CRO公司”,即利用大模型或AI技术,帮助别人更好更快地制药。
公司的盈利方式目前有三种,包括ToB付费会员(按使用次数收费)、私有化部署和制药分成。
已经有制药厂商找来合作了——复星医药计划对ChatDD进行私有化部署,用于辅助药物立项等阶段。
药物立项,涉及大量资料查找和判断,包括查找有无药物相关(官能团、分子结构保护等)专利,还要根据大量文献和实时市场信息等资料判断是否值得立项。ChatDD能通过整合文献和相关专利,生成一个完整的参考报告。
ChatDD的出现,聂再清认为对于行业而言有跨时代意义:
它真正将专家的经验和直觉、以及大模型的“智力涌现”能力融会贯通了起来。
此前,制药行业经历了三个阶段,分别是TMDD(Traditional Manual Drug Design)、CADD(Computer-Aided Drug Design)和AIDD(AI Drug Design)。
但无论是人工试验,还是计算或AI辅助药物研发设计,都需要大量人力去“学会如何使用”模型,尚未出现一个能和科研人员直接对话的系统。
现在,ChatDD的出现真正改变了这一现状。
它不仅能将制药的知识经验集成到大模型中,通过提示词就能激发调用出来,还能通过学习专家对话方法掌握专业沟通能力,“相当于把人和机器最powerful的地方做了个融合。”
不过,要完全实现ChatDD的全部潜能,真正进入比较成熟的阶段,聂再清认为至少还有10年的黄金时代。
一方面,对于生物医药行业来说,人类对于蛋白质、细胞、小分子之类的理解也还远远不够,在这个学科方面仍然可以做出很多成绩和进展;
另一方面,对AI行业来说,无论是数据还是算法,也都还没发展到足够成熟的阶段。
数据上,目前生物医药领域内各模态和自然语言对齐的数据还很少。
(就像图文一样,虽然文字和图像各自的数据很多,但图文对齐如VQA的数据却相对要少很多)
对此依旧需要不断收集整理出PQA(蛋白质问答)、MQA(小分子问答)等模态的数据,来让多模态大模型的效果变得更好。
模型上,大模型目前的效果还不是最好的,无论是单模态还是多模态,都值得继续去探索。
所以,公司的下一步计划,就是继续优化模型、增加更多模态,并找到更多的场景落地需求。
对于ChatDD最终形态的设想,聂再清表示:
它会成为一个各模态(大小分子、蛋白质结构、DNA、单细胞等)和自然语言全部对齐的生物医药基础大模型产品。
他也在发布会上预言,这个产品会成为生物医药行业的大模型“Killer APP”。
到那时候,才会真正打破医药界的“双十定律”,高性价比的实现人机协作新药研发。
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
相关文章
猜你喜欢
成员 网址收录40405 企业收录2984 印章生成242749 电子证书1087 电子名片62 自媒体71436