百亿参数人类基因组通用基础模型发布

百亿参数人类基因组通用基础模型发布

百亿参数人类基因组通用基础模型发布

在浙江杭州举行的第二十届国际基因组学大会(ICG-20)上,一款拥有百亿参数的人类基因组通用基础模型——“Genos”,于23日正式亮相。

该模型的相关研究成果已于22日晚刊登在国际知名生物学期刊《大数据科学》(GigaScience)上。据悉,Genos的发布标志着基因组研究迈入智能化分析新阶段,有望在临床疾病诊断、个体化基因解读以及前沿生命科学研究中实现关键突破,进一步帮助人类破解“生命天书”的奥秘。

这一重磅成果由杭州华大生命科学研究院与之江实验室携手打造。据杭州华大生命科学研究院院长刘龙奇介绍,当前多数基因组模型依赖单一或少数参考基因组进行训练,难以充分反映全球人群的遗传差异。而Genos创新性地整合了多个权威公开数据库,首次采用来自全球636个“端粒到端粒”(T2T)级别的高质量完整基因组作为训练数据集,覆盖广泛的人群类型,有效降低因数据来源局限导致的“偏见”,更真实地体现人类基因多样性。

在实际应用中,Genos展现出卓越性能。科研人员仅输入DNA序列,即可在“秒级”时间内预测出对应的RNA表达谱,显著提升生物信息分析效率。在临床关键任务——致病突变解读方面,Genos单模型准确率达到92%;当联合之江实验室的021科学基础模型协同推理时,准确率跃升至98.3%,为精准医疗提供了强有力的技术支撑。

为推动全球生命科学领域的开放协作,研发团队决定全面开源Genos模型。此次将提供12亿和100亿参数两个版本,适配不同算力条件与应用场景需求。目前,包括模型权重、网络架构细节及完整训练流程在内的全部资料均已公开发布。(新华社)

关键词:大数据

网友留言(0 条)

发表评论