在癌症中,癌细胞会失去控制,它们快速增殖并转移到身体的其他组织,破坏器官,最终让人失去生命。这种不受控制的生长通常是由癌基因中的DNA突变累积所致,例如控制细胞发育的这些基因中的突变。但是有些癌症中只有很少的突变基因,这意味着在这些情况下,还有其他原因导致癌症的出现一种新的算法可以预测哪些基因会导致癌症,即使它们的DNA序列没有改变也是如此。研究团队结合了多种数据,并使用人工智能(AI)对其进行了分析,成功鉴定出165个新型癌基因。 为个性化医学中靶向癌症治疗和开发生物标记物开辟了新的前景。
研究团开发了一种基于人工智能(AI)的名为“EMOGI”的新算法,成功识别了165个先前未知的癌基因,这些基因并不一定要发生突变才致癌,有些是通过表达失调致癌。所有这些新发现的癌基因都与已知的著名癌基因有紧密相互作用。而且细胞实验证实它们对肿瘤细胞的生存至关重要。 研究团队开发了一款基于图卷积网络(GCN)的机器学习算法——EMOGI(Explainable Multiomics Graph Integration)。该算法集成了从患者样本中生成的数以万计的数据集,这些数据集包括突变的DNA序列数据、DNA甲基化、单个基因活性以及细胞通路中蛋白质相互作用信息。在这些数据中,深度学习算法可检测导致癌症发展的模式和分子原理。
与传统的癌症治疗方法(例如化疗、放疗)不同,个性化治疗方法可根据癌症类型精确调整治疗方法和药物,目的是为每位患者选择最佳疗法,即副作用最少的最有效疗法。此外,还能根据患者的分子特征在早期阶段识别出癌症。只有知道了导致疾病的原因,才能够有效地消灭或纠正它们。这也是为什么我们要尽可能多的确定诱发癌症的机制。
到目前为止,大多数癌症研究都集中在基因序列突变上,实际上,近几年来的研究表明,表观遗传或基因表达失调也可能导致癌症。
这也是为什么研究团队将基因突变序列数据和DNA甲基化、基因表达活性、蛋白相互作用等信息整合整合到一起的原因,首先,研究团队证实突变或基因组片段的倍增确实是癌症的主要驱动力。然后,研究团队进一步找出与癌症驱动基因不直接相关的候选基因。
蛋白质和基因的相互作用可以映射成一个数学网络,也就是一个图形。可以将其想像成一个铁路网络。每个站点对应一个蛋白质或基因,它们之间的每个相互作用就像是火车路线。
研究团队借助人工智能算法,分析了16种不同癌症类型的成千上万种不同的相互作用网络图。
通过这一算法,研究团队找到了那些在癌症中并没有发生突变的基因,但是它们能够调控能量供应,因此与癌症发展密切相关。这些基因受到甲基化等方式的影响而表达失调,从而影响癌症发展。
这些基因是有潜力的癌症治疗靶标,但是由于它们隐藏很深,只有借助生物信息学和最新的人工智能算法,才能发现它们。研究团队还发现,数据中隐藏了许多有趣的细节。我们看到的模式取决于特定的癌症和组织,研究团队认为这是肿瘤由不同器官中的不同分子机制触发的证据。
最后,研究团队强调,EMOGI算法不仅能够用于癌症研究。从理论上讲,它可以用来整合各种生物数据集并从中找到模式,因此可用于其他基因发挥重要作用的复杂疾病,例如糖尿病等代谢性疾病等。