《Analytical Methods》丨基于单细胞拉曼光谱结合机器学习方法对病原体进行分类

2022-11-01 09:36:13

2022年9月16日,中国科学院苏州生物医学工程技术研究所宋一之、复旦大学华山医院抗生素研究所徐晓刚老师、中国上海交通大学医学院公共卫生学院单细胞组学中心何牮团队应用长光辰英核心产品—P300共聚焦拉曼光谱仪在《Analytical Methods》期刊上发表了题为“Stain-free Gram staining classification of pathogens via single-cell Raman spectroscopy combined with machine learning”的论文。本研究整合了共聚焦拉曼光谱和机器学习技术来区分革兰氏阴性(GN)或革兰氏阳性(GP)细菌。

1667266841868947.png

一、研究背景


革兰氏染色(GS)是基于细胞壁结构对细菌进行分类的常规微生物操作之一。准确的病原体GS分类具有重要意义,有助于正确使用抗菌治疗。在这项研究中,我们整合了共聚焦拉曼光谱和机器学习技术来区分革兰氏阴性(GN)或革兰氏阳性(GP)细菌。构建了包含7种最常见的临床病原体(3种GP菌株和4株GN菌株)的单细胞拉曼数据库。训练支持机器学习算法,包括SVM、K-NN、GBM、LDA、t-SNE,以实现GS的二值分类。在这样一个相对较小的数据库中,SVM模型的准确率最高,为98.1%。对其拉曼指纹图谱中嵌入的GN和GP的分子特征进行了层次鉴定。

二、研究内容


在本研究中,提出了一种具有临床实用性的无染色GS分类方法。建立了7种病原菌的单细胞拉曼光谱(SCRS)小型数据库。比较了五种机器学习模型(t-SNE、k-NN、LDA、SVM和GBM)的二进制识别性能。病原体的单细胞拉曼光谱对数据库中覆盖的物种的总体识别准确性为98.1%,对数据库中不存在的物种的总体准确性为95.8%。为了解释分类的原理,采用分层聚类分析(HCA)对GP菌株的拉曼生物标志物进行了鉴定。肽聚糖和磷磷酸被认为是主要的拉曼生物标志物。并应用9个临床尿样对SVM模型进行了检验,验证了该模型具有良好的可靠性和普适性。

1667267505999548.png

图1.流程图

 

为了表征GP和GN细菌的拉曼光谱差异,建立了由7个菌株的SCRS组成的拉曼数据库。这些菌株被认为是最常见的人类病原体。图2中用虚线标注了显著的拉曼峰,从图2的结果来看,由于GP和GN菌株的生物分子成分和含量非常接近,用肉眼直接区分GS特征和SCRS的峰值分布似乎很有挑战性。

1667267564939204.png

图2. 从革兰氏阳性(GP)和革兰氏阴性(GN)菌株中获得的单细胞拉曼光谱(SCRS)


因此,为了确定一种敏感和准确的GS鉴别方法,使用了一个无监督机器学习模型,t-SNE来可视化GS类(图2)。t-SNE是一种非线性降维技术,常用于单细胞多变量分析,特别是在单细胞转录组学中。从图3可以看出,3株GP菌株和4株GN菌株的SCRS表现出良好的种内相似性,t-SNE分离与样品的GS特征一致。因此,t-SNE结果成功地验证了机器学习在鉴别GS特征方面的可行性。

1667267586543318.png

图3. t-SNE可视化革兰氏染色分类


上述结果证明了在细菌SCRS中使用机器学习进行GS类阳离子的可行性,并确定了一个相对最好的模型SVM。然而,机器学习是一种依赖于拉曼数据库的多样性和完整性的黑盒方法。HCA来鉴定和比较GP和GN菌株的不同特征(图4)。图4所示的热图显示,胡萝卜素、葡萄糖、核酸、肽聚糖、磷脂、多羟基丁酸(PHB)、色氨酸等蛋白质成分在GP和GN菌株中具有不同的含量,但在具有相同GS特征的单细胞中含量一致。根据其他研究,在540和1421cm?1处的拉曼峰均被划分为生物分子肽聚糖贡献,这与GP和GN菌株的物质组成、结构和细胞壁含量的差异相一致。在1087和1452cm?1处GP菌株的峰值含量均高于GN菌株。根据其他相关研究,这些峰可以归类为磷壁酸,这是GP菌株细胞壁中的一种特谱物质。

 1667267604875354.png

图4. 3种GP和4种GN菌株的SCRS中生物分子的平均含量的层次聚类分析(HCA)和热图。

三、结论


早期识别致病菌的GS特征是临床诊断的关键。本研究利用单细胞拉曼光谱和机器学习,实现了无染色GS鉴别技术的思想。为了确定最适用的GS鉴别模型,测试了4个基于小型SCRS数据库的机器学习模型,该数据库涵盖了临床常见的7种GP或GN菌株。结果表明,SVM模型具有较好的灵敏度、特异性和准确性。机器学习分类模型长期以来被广泛批评为具有数据库依赖性的黑箱方法,在临床实践中经常被忽视。然而,即使使用了一个相对较小的数据库,SVM也表现出了良好的稳健性,并成功地识别了未纳入数据库的临床尿液样本的GS特征。经过训练的SVM模型,只要对GN或GP的准确率高于80%,临床医生就可以准确地鉴别未知单细胞样本的GS特征。我们的研究结果表明,在所有已报道的拉曼病原鉴别方法中,GN和GP的拉曼鉴别可能是最接近实际临床应用的方法。

 

原文连接:

https://pubs.rsc.org/en/content/articlelanding/2022/AY/D2AY01056A


  • 电话:0431-81077008   0571-86972756
  • 邮箱:sales@hooke-instruments.com
关注我们
0431-81077008
Copyright © 2022
长春长光辰英生物科学仪器有限公司
All rights reserved 吉ICP备18001354号-1