利用质谱即可检测未知新型人造毒品!可生成900万个潜在致幻剂分子结构( 二 )


文章插图

(来源:Nature Machine Intelligence)
生成大约 900 万个可能存在的致幻剂的分子结构
研究中该团队用大约 1700 多个新型致幻剂的结构训练了化学语言模型模型(DarkNPS) 。 这个模型使用SMILES(multiple simplified molecular-input line-entry system)文本来表示分子结构 。
从概念上来看,这模型非常类似 OpenAI 的 GPT-3,只不过 GPT-3 的输入是人类语言文本,而该模型的输入是一个分子的文本表达 。 这个模型可以生成大量的分子表达文本 。 通过改模型他们获得了大约 10 亿个不同的输出 。 由于分子的 SMILES 可以是重复的 。
即同样的分子结构可有不同的文本表达,再去除了不合格的表达式之后,最终得出 890 万个的潜在新型精神药品的分子结构 。 接下来,该团队使用了一个现有的质谱预测模型(CFM-ID,给每一个分子结构计算了 MS / MS 质谱 。 在测试种该系统实现 68 % 的 Top-3 检测准确率 。
为了进一步验证该系统的检测能力,该团队和欧洲的检测机构进行了合作,后者提供了一些今年刚刚收集到的样本 。 在这些样本里面,他们检测到了一个之前尚未被发现的新型毒品(DMXE) 。
(来源:Nature Machine Intelligence)
已经正式投入应用
汪飞表示,毒品检测的功能是该成果目前的主要可行应用,它已经被包括美国缉毒局、德国联邦警察还有欧洲的一些执法机构使用 。
此外,将人工智能的分子生成结构的模型和质谱生成的模型组合在一起使用的方法它会对于小分子识别,尤其生物检测样本提供一个新的思路 。
另外一些比较有意思的应用前景可能包括检测兴奋剂,相同的方法也可用在医疗相关的一些检测项目上面 。 而对于生成模型本身,它可以用在药物研发、以及检测环境污染物上 。

利用质谱即可检测未知新型人造毒品!可生成900万个潜在致幻剂分子结构

文章插图

(来源:Nature Machine Intelligence)
汪飞回忆自己的研究方侧重于为化学和分子生物学提供更适用的机器学习方法 。 在他就读的阿尔伯塔大学(University of Alberta),他在硕士研究生第二年开始去选择导师做课题 。 开始他其实对强化学习更感兴趣的,但在当时该方向的竞争比较激烈,很多厉害的导师都没有名额 。
有一天他遇到了现在的导师,然后他问导师:“您这有什么有意思的项目吗?”
他导师看着他并问了一句:“你觉得去把分子炸掉这件事情你喜不喜欢?”
他非常强调的是把它给爆破掉这么一个动作,汪飞当时觉得非常有意思,想都没想就答应了 。 他认为,至少把分子炸成碎片,听起来比做其他研究好玩很多 。
更有意思的一件事情,就是在本次研究中,他和团队其实是先把分子用一个一个原子给它拼装了起来,之后再把它给炸掉(质谱) 。
利用质谱即可检测未知新型人造毒品!可生成900万个潜在致幻剂分子结构

文章插图

图 | 汪飞的导师之一尼罗素 · 格林(Russell Greiner)(来源:资料图)
本科时,汪飞在在美国和加拿大边境的一个学校读本科,当时读的是计算机专业 。 学校非常的小,但是它的机会非常多,本科时他就使用人工机器学习做数学公式的识别 。
汪飞回忆称,那会大家还在使用支撑向量机(support vector machine, SVM),深度学习在当时还没有现在这么流行 。
本科毕业之后,他去做了几年电子游戏的开发 。
但是游戏开发本身是一个挺枯燥的过程,因为总是在重复做一样的事情 。 所以,后来他决定继续深造,目前,他已经拿到了硕士学位,现在在开展博士课题的研究,并打算在该成果的基础之上继续做研究 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。