论文 | 基于随机森林算法的中药处方升降浮沉药性预测研究

发表时间:2026-02-06 17:07

来源:世元药苑


编者按:中医处方智能审核与点评以及合理用药,是唐古信息长期关注的领域。公司研发的区域中药合理用药平台,已在全国数十家县域医共体落地应用。在浙江省桐庐县,平台上线半年便接入17家医疗机构,完成超10万张处方审核,切实提升审方效率、降低用药风险。


依托该领域的实践经验,唐古信息与北京中医药大学、杭州市中医院携手,开展基于随机森林算法的中药处方升降浮沉药性预测研究。相关研究论文已发表于《中医药导报》杂志。

图片


机器学习(machine learning,ML)是通过算法和统计模型使计算机具备基于数据自主获取知识并进行预测或决策能力的技术体系,其核心算法主要包括线性回归(linear regres-sion,LR)、支持向量机(support vector machine,SVM)、随机森林(random forest,RF)及深度神经网络(deep neural networks,DNN)等。其中RF算法是一种通过在训练过程中构建多个决策树,并对这些树的预测结果进行投票或平均,得到更准确、更稳定的预测效果的算法模型


升降浮沉药性是中药药性理论的重要组成部分,由古人经过长期临床实践,观察总结药物作用于机体所产生的疗效概括总结得出。中医师临证配伍时综合权衡全方的升降浮沉药性,而在处方审核环节却尚未将升降浮沉药性审核纳入其中,且药师关于中药处方审核的经验较少,处于摸索阶段,因此探索处方全方的升降浮沉趋势对于指导临床合理用药具有重要意义。


在此背景下,北京中医药大学翟华强教授团队联合杭州市中医院陈红梅主任与杭州唐古信息科技有限公司郦春锦团队,依托随机森林(Random Forest, RF)算法模型,从处方组成、核心药物及剂量等关键变量与方剂整体药性的内在联系出发,揭示了中药处方“升降浮沉”趋向的数字化特征及其预测规律。研究采用定量数据规范与机器学习建模相结合的方法,以国医大师颜正华的临证医案为数据源,对411份中药处方的药性属性进行了系统分析与模型验证。该研究证实了RF算法在处方药性预测中具有较高的准确率(最高达72.99%)与稳定性,为中药处方审核的智能化、客观化评估及临床合理用药提供了新的学理支撑与技术视角。

图片

基于随机森林算法的中药处方升降浮沉药性预测研究

(注:根据文献内容整理)



一、资料与方法


1.1 RF算法

RF算法基于决策树与多元集成学习算法,从原始数据集中使用自助采样法(bootstrap sampling)抽取样本,形成多个子数据集再对每个子数据集构建一个决策树,在每个节点随机选择一部分特征进行分裂。重复以上步骤,直到生成指定数量的决策树。算法流程见图1,计算公式如下:

图片
图片
图片

图1 RF算法流程图


1.2 数据来源与处理


本研究以《国医大师颜正华临证用药集萃》中的医案为处方来源,要求医案中辨证、治法、处方组成等信息完整无缺少项。将本书记载的医案中关于患者的诊次、主诉、既往病史、证型、治法、处方等信息录入Microsoft Excel 2019,数据库建立过程由双人审核录入,保证录入信息的规范性和科学性。使用“Y”和“N”对每张处方涉及的中药饮片进行标记,“N”表示该处方无此中药,“Y”表示该处方有此中药;使用“0”“1”“-1”对处方升降浮沉药性进行标记,“0”表示该处方整体为平性方,“1”表示该处方整体为升浮方,“-1”表示该处方整体为沉降方,以此构建矩阵,为下一步训练模型做好基础。


1.3 模型设计


本研究采用交叉验证法用于评价模型的预测准确率,将数据集按照8∶2比例划分,329份处方作为训练集用于训练模型,82份处方作为测试集用于测试生成的模型性能,重复此过程,直至每张处方经过测试。拟设定3种训练方案:(1)以处方组成、核心药物和剂量为变量;(2)以处方中单味饮片的升降浮沉药性、核心药物和剂量为变量;(3)以单味饮片功效、核心药物和剂量为变量。按照上述训练方案进行模型的训练和预测,计算预测准确率。


1.4 模型评价


通过计算模型识别准确率(accuracy,ACC)、精确率(precision)、AUC-ROC曲线下面积等指标评价该模型的性能。


二、结果


2.1 处方基本信息


本研究共纳入411份处方,其中首诊处方240份,复诊(2~8诊)处方共171份;涵盖呼吸系统疾病(54份)、消化系统疾病(211份)、心脑血管疾病(102份)、儿科疾病(27份)及妇科疾病(17份)五类疾病。涉及240例患者,其中男性114例(47.50%),女性126例(52.50%),男女比例较为均衡。患者年龄1~85岁,平均43岁。从治法角度分析,首诊处方中,治法以理气(57例)、补益(47例)、化痰(43例)占多数。(见表1)


图片

表1 首诊处方中不同治法及所占比例


2.2 中药饮片处方药性判断结果


从处方组成角度分析,411份处方共涉及255种中药饮片,其中趋向升浮的饮片有50味,趋向沉降的有155味,双重趋向的饮片有37味,另有13味饮片因未被2020年版《中华人民共和国药典》收载,其趋向属性暂未明确。不同升降浮沉药性的饮片数量见表2。


图片

表2 255味中药饮片的升降浮沉药性统计


从中药饮片使用频数分析,使用频数最高的是陈皮,其次是丹参、茯苓,使用频数排名前10的中药饮片及升降浮沉药性详见表3。


图片

表3 411份处方使用频数排名前10的中药饮片

及升降浮沉药性


不同疾病类型处方及药性见表4。


图片

表4 各类疾病不同药性处方数量统计


2.3 模型预测结果及评价


2.3.1 模型预测结果

按照“1.3”中所述模型设计对已有处方进行训练和预测。结果显示,方案1以“处方组成+剂量+核心药物”作为变量并取处方前2味中药饮片作为核心药物时模型预测正确率最高,为72.99%,其次为方案2“处方组成+核心药物”并取处方前5味中药饮片作为核心药物,正确率为72.02%,方案3以“饮片趋向+剂量+核心药物”为变量并取处方前5味中药饮片作为核心药物的正确率与方案4“饮片趋向+核心药物”相同,均为71.78%,方案5、方案6以“饮片功效、核心药物(和剂量)”进行训练2种方法在预测正确率上表现相对较弱。(见表5、图2)

图片

表5 3种模型训练方案不同核心药物数量下预测准确率

注:方案1为处方组成+剂量+核心药物;方案2为饮片趋向+剂量+核心药物;方案3为饮片功效+剂量+核心药物。


图片

图2 不同核心药物数量的预测准确率折线图


2.3.2 模型评价

在准确率最优方案基础上绘制受试者工作特征曲线(ROC),通过精确率、召回率、F1值和受试者工作特征曲线下面积(AUC)等进行模型评价(见表6~7、图3)。预测准确率最高的模型混淆矩阵见表8。3种类型处方中沉降方和升降并用方被互相误判的处方比例最高。分析原始处方数据可知,被误判的处方中大部分处方前2味中药相同,整体处方组成相似,这是导致被误判的主要原因。

图片

表6 3种类型处方总体识别的精确率、召回率和 Macro F1 值


图片

表7 不同模型受试者工作特征曲线下面积(AUC)

图片

图 3 不同模型的 ROC 曲线


图片

表8 处方升降浮沉药性预测准确率

最高的模型混淆矩阵




三、讨论


RF算法在中医证候诊断、中药寒热药性识别等领域已获得广泛应用。研究团队使用RF等多种机器学习算法分别对寒性、热性和平性中药的拉曼光谱进行识别,通过比较发现RF模型的辨识效果均为最佳。使用现代技术挖掘传统中药理论对中医药传承创新发展具有重要参考价值。


中药处方发挥功效是方中各个药物相互作用的结果,处方升降浮沉药性也受各个药物药性的影响。但处方中发挥主要作用的为君臣之药。从模型预测结果可以看出,核心药物的选择是影响模型预测结果的重要因素。在核心药物取前2味和前5味时出现较大转折,可能暗示君药与臣药的数量。


随机森林模型在处方升降浮沉药性预测上具有较高的准确率和稳定性,能够有效识别和预测处方的升降浮沉药性,可初步辅助药师进行中药处方药性审核,从而提升临床处方审核的精准性与用药合理性,便于更好地指导处方审核与合理用药。中药处方审核是药师对医生开具的处方进行规范性、合理性审查的过程,其目的是确保处方安全、合理,发挥中药疗效。合理的中药处方能够保障临床用药安全,提升治疗效果。


四、小结与展望


本研究通过RF算法训练和预测五类疾病411份中药处方,发现RF算法在预测处方升降浮沉药性上具有较高的准确率和稳定性。但也存在不足之处,如为便于统计对治法的规范较为精简、训练样本少、未考虑处方中药物间的相互作用等。未来可结合AI技术,深入挖掘处方中各中药饮片间的相互作用,探索更精准的药性组合方案,及时辅助药师发现临床诊断与用药不符等问题,为中药处方审核提供更强有力的数据支持,推动中药调剂与现代科技的深度融合与创新发展。