2014年6月1日在《Nature Biotechnology》发表的一项研究,描述了一个开放挑战赛的结果,只根据细胞的基因组数据总和,来预测哪种乳腺癌细胞株将对哪种药物发生反应。在世界各地研究小组提交的44种算法当中,来自芬兰赫尔辛基信息技术研究所的获奖预测算法,识别药物敏感与耐药细胞株的精确度是87%。
美国科罗拉多大学癌症中心研究人员、Sage Bionetworks/DREAM 组织机构计算和系统生物学挑战赛主任James Costello博士称:“想法很简单——我们有这样的问题,任何人都能参与进来寻求答案。问题是,我们有关于突变、或基因表达、或甲基化、或拷贝数变化的足够信息,来预测癌细胞将如何响应药物吗?”
这一努力的结果,对由俄勒冈健康科学大学Joe Gray实验室提供的基因组数据进行挖掘,目的在于描述癌症的分子标记,然后可以用其对大的人类样本集合进行测试,例如癌症基因组图集计划(TCGA,美国国家癌症研究NCI和国家人类基因组研究所2005年启动,旨在系统分析不同癌症的基因变异,了解癌细胞发生、发展的机制)的那些样本。现在有了这个巨大的NCI数据库,不断的挑战在于,挖掘这些数据来指导药物开发和肿瘤治疗。为了激励数据科学家小组处理这些数据,NCI与Dialogue for Reverse Engineering Assessment Methodologies(DREAM)项目合作举行了这次挑战赛。奖品包括资金支持和出版物。
Costello称:“这是一项国际合作行动,以解决基本的生物医学研究问题。目标是推动开放科学和数据访问,不论是为了研究者,还是最终为了医生和患者。”
具体来说,挑战赛要求各研究小组提交算法——计算机数学策略,可正确地将18个乳腺癌细胞株,分类为对28种治疗化合物“最敏感”到“最耐药性”的细胞株。在这种情况下,挑战赛组织者包括Costello知道答案,所以他们可以检查提交策略的准确性。因此,这项研究能够表明,什么类型的基因组数据最能预测药物反应。
Costello称:“我们可以用新的、优秀的、超级浮华的技术,来观察癌细胞内部的情况,但是至少在当时,这些新技术所产生的数据并不能告诉我们,细胞将如何响应治疗方法以及更多已确立的基因表达微阵列。”他指出,原因包括,20年的微阵列分析历史,已经养成了我们精确产生和利用这类数据的能力,也由于基因表达数据代表着多细胞的过程。也就是说,许多基因组修饰,例如甲基化或突变,会直接影响基因表达,而且,如果那些修饰是一个细胞过程的结果,基因表达将相应地改变,微阵列会测量这种效应的结果。
Costello指出:“数据科学家们渴望得到新的数据和新的问题,如果你能让世界各地的人都从事于这项挑战,它就可以推断创新,我们就可以更快地得到答案。”