第四范式AutoML再次斩获图学习“世界杯”OGB 2项冠军
由于图结构的普适性,诸如生物医学、分子制药、天体物理等越来越多的高精尖领域已经将图学习视为智能化、规模化、高效率、低成本创新的关键技术。尤其在生物医药领,图学习已在分子性质预测、蛋白质结构预测、药物靶点亲和力预测等方面发挥了巨大价值,受到了学术界及工业界的广泛关注。
近日,国际图学习标准OGB(Open Graph Benchmark)挑战赛公布了最新排名。在与众多科技巨头及顶尖高校的竞技中,第四范式、清华大学电子系机器学习课题组联合团队使用基于AutoML打造的AutoGraph(自动化图神经网络)算法在3项任务中斩获2项第一、1项第三,继去年摘得OGB双料第一后再创佳绩。
OGB是目前公认的图学习基准数据集“标杆”,由图学习领域的国际顶级学者斯坦福大学Jure Leskovec教授团队建立,于2019年国际顶级学术会议NeurIPS上正式开源。该数据集囊括了节点性质预测、边性质链接预测、图性质预测等多项赛题,以质量高、规模大、场景复杂、难度高著称,素有图学习领域“ImageNet”之称,成为众多科技巨头、科研院所和高校团队试验技术成色的试金石。
继去年摘得2项知识图谱链接预测冠军后,第四范式今年参与了ogbg-molhiv、ogbg-molpcba、ogbg-ppa等3项数据量庞大且极具挑战的图分类任务。其中,ogbg-molhiv、ogbg-molpcba是用于测试分子特性的知名机器学习数据库MoleculeNet中最大的数据集之一,对多种疾病的有效药物筛选和开发具有重要意义和参考价值。
本次大赛中,联合团队使用了基于第四范式AutoML打造的PAS(面向图分类任务的自动池化图神经网络搜索算法)参赛。由于图数据和任务的复杂性,不同任务需要使用最为合适的图神经网络模型才能达到最佳效果。PAS算法的价值是可在任意任务上自动搜索效果最优的图神经网络,最终在比赛中超过了业界一系列基于图神经网络的图分类模型,进一步印证了该技术的领先性及有效性。