• 中国科技论文统计源期刊
  • 中国科技核心期刊
  • 中国高校优秀期刊
  • 安徽省优秀科技期刊

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

ARIMA模型在蚌埠市梅毒预测中的应用

朱乐乐 沈雁 王祥 吴学森

引用本文:
Citation:

ARIMA模型在蚌埠市梅毒预测中的应用

    作者简介: 朱乐乐(1993-), 男, 硕士研究生
    通讯作者: 吴学森, xuesenwu@163.com
  • 中图分类号: R181.2

Application value of ARIMA model in the prediction of syphilis in Bengbu city

    Corresponding author: WU Xue-sen, xuesenwu@163.com
  • CLC number: R181.2

  • 摘要: 目的探讨时间序列分析中的乘积季节自回归移动平均(ARIMA)模型在蚌埠市梅毒发病率预测中应用的可行性,为制定梅毒防控措施提供参考依据方法应用SPSS21.0软件对蚌埠市2008-2016年的梅毒发病率进行ARIMA模型拟合,依据BIC准则确定最优模型。用所得模型预测2017年1-6月的梅毒发病率,并与实际发病率进行比较,检验预测效果。结果ARIMA(0,1,1)(1,0,0)12,可以较好地拟合梅毒月发病率规律,模型统计量Ljung-Box Q=16.726,P>0.05,残差序列为白噪声,用所得模型预测蚌埠市2017年1-6月梅毒月发病率,预测值与实际值吻合情况良好,实际值均在预测值的95%可信区间内。结论ARIMA模型能较好拟合蚌埠市梅毒发病情况,对梅毒防治工作提供一定的参考价值。
  • 图 1  蚌埠市2008-2016年梅毒月发病率的时间序列图

    图 2  经对数转换及一般一阶差分后的时间序列图

    图 3  经对数转换及一般一阶差分后的自相关图和偏自相关图

    图 4  模型残差自相关和偏自相关图

    图 5  蚌埠市梅毒发病率实际值与预测值对比图

    表 1  蚌埠市2017年1-6月各月梅毒发病率实际值与预测值比较

    月份 实际发病率 发病率预测值 预测值95%CI 误差 相对误差/%
    1 3.50 4.26 2.79~6.50 -0.75 -21
    2 4.24 3.78 2.44~5.86 0.46 11
    3 4.32 4.11 2.61~6.47 0.22 5
    4 4.69 4.11 2.57~6.57 0.58 12
    5 5.19 4.45 2.74~7.21 0.74 14
    6 4.77 4.32 2.63~7.09 0.45 10
    下载: 导出CSV
  • [1] AGRAWAL PG, JOSHI R, KHARKAR VD, et al.Congenital syphilis:the continuing scourge[J].Indian J Sex Transm Dis, 2014, 35(2):143. doi: 10.4103/0253-7184.142411
    [2] ZHANG W, DU Z, TANG S, et al.Syphilis in the economic center of South China:results from a real-time, web-based surveillance program[J].BMC Infect Dis, 2015, 15:318. doi: 10.1186/s12879-015-1072-z
    [3] 刘姝颖, 李延庆, 孟庆联, 等.安徽省2004~2010年梅毒、淋病流行趋势分析[J].安徽医学, 2012, 33(2):220.
    [4] 孙振球.医学统计学[M].4版.北京:人民卫生出版社, 2016:384.
    [5] 中国人民银行调查统计司.时间序列X-12-ARIM A季节调整-原理与方法[M].北京:中国金融出版社, 2006:59.
    [6] BOX G, JENKINS G, GREGORY REINSEL, et al.时间序列分析预测与控制[M].北京:中国统计出版社, 1997:377.
    [7] 宇传华.SPSS与统计分析[M].北京:电子工业出版社, 2014:593.
    [8] 高云云, 李军, 杨海燕, 等.ARIMA模型在河南省甲型病毒性肝炎发病数预测中的应用[J].现代预防医学, 2017, 44(7):1294.
    [9] 马晓梅, 刘颖, 杨梦利, 等.手足口病月发病率ARIMA乘积季节模型预测探讨[J].现代预防医学, 2017, 44(9):1541.
    [10] 陈伟, 陈正利, 李少芳, 等.ARIMA模型在河南省梅毒月发病率预测中的应用[J].中国卫生统计, 2013, 30(4):604.
    [11] 胡冰雪, 曲波, 刘洁, 等.中国1990-2011年梅毒流行特征分析与趋势预测[J].现代预防医学, 2014, 41(6):961.
    [12] 王永斌, 李向文, 柴峰, 等.ARIMA模型在我国梅毒发病率预测中的应用[J].现代预防医学, 2015, 42(3):385.
    [13] 郭璐, 张敏, 朱正平, 等.ARIMA模型在南京市梅毒预测中的应用[J].现代预防医学, 2015, 42(2):205.
  • [1] 张蓓蓓 . 基于残差修正的ARIMA-BP组合模型在中国戊型肝炎发病预测中的应用. 蚌埠医学院学报, 2023, 48(5): 652-655. doi: 10.13898/j.cnki.issn.1000-2200.2023.05.023
    [2] 张靳冬张建陶钱建东潘明珠 . 灰色系统GM(1,1)模型在常州市乙型肝炎发病趋势预测中的应用. 蚌埠医学院学报, 2013, 37(4): 476-478.
    [3] 周强 . 应用回归模型预测某县级综合医院人均住院费用增长及其原因探讨. 蚌埠医学院学报, 2016, 41(11): 1499-1501. doi: 10.13898/j.cnki.issn.1000-2200.2016.11.031
    [4] 蒋婷婷 . 新生儿先天性梅毒23例诊治体会. 蚌埠医学院学报, 2012, 36(11): 1318-1320.
    [5] 徐灼均徐宁梁映亮张杰良隋洪 . 母婴感染梅毒螺旋体血清学分析. 蚌埠医学院学报, 2014, 38(2): 255-256.
    [6] 褚莉萍齐少恒蒋琼王洪飞 . 咽喉部梅毒5例诊治体会. 蚌埠医学院学报, 2014, 38(6): 765-767.
    [7] 孙红朱安友郭普张伦军 . TP-ELISA、TRUST和TPPA联合检测在梅毒诊断中的应用. 蚌埠医学院学报, 2015, 40(10): 1392-1394.
    [8] 刁玉增安仲武李海英程良碧谈笑 . 梅毒螺旋体感染者血清Tim-3水平与机体免疫功能相关性分析. 蚌埠医学院学报, 2021, 46(3): 356-359. doi: 10.13898/j.cnki.issn.1000-2200.2021.03.021
    [9] 邵东芳王瑞王兰云曹小芳潘丽鲁静 . 妊娠合并梅毒患者住院期间的护理. 蚌埠医学院学报, 2010, 35(11): 1177-1178.
    [10] 刘奇龙 . 急性脑卒中并发肺炎的预测量表评定. 蚌埠医学院学报, 2015, 40(6): 759-761. doi: 10.13898/j.cnki.issn.1000-2200.2015.06.020
    [11] 李红兵陆友权柏彬 . 体力劳动者腰椎间盘突出症手术治疗的疗效预测. 蚌埠医学院学报, 2009, 34(9): 818-819.
    [12] 张源达谢而付陈旭锋王喆 . 白细胞和中性粒细胞计数对敌草快中毒病人出院生存状况的预测价值. 蚌埠医学院学报, 2022, 47(12): 1723-1728. doi: 10.13898/j.cnki.issn.1000-2200.2022.12.024
    [13] 张伦军丁晓琳朱安友 . 化学发光微粒子免疫分析法在梅毒血清学检测中的应用. 蚌埠医学院学报, 2018, 43(8): 1057-1059. doi: 10.13898/j.cnki.issn.1000-2200.2018.08.025
    [14] 陶玲 . 两种新生儿早期预警评分表对新生儿重症监护病房转入率的预测作用比较. 蚌埠医学院学报, 2022, 47(7): 927-930. doi: 10.13898/j.cnki.issn.1000-2200.2022.07.022
    [15] 张雷赵欣江敏孙熙熙 . 急诊首次肌钙蛋白Ⅰ联合GRACE评分在快速评估可疑心肌梗死病人中的作用. 蚌埠医学院学报, 2023, 48(2): 236-238. doi: 10.13898/j.cnki.issn.1000-2200.2023.02.024
    [16] 谢淑红张思静严伟斌王明元汤龙海 . 基于ARIMA模型的临床红细胞类血液需求预测研究. 蚌埠医学院学报, 2023, 48(5): 633-636. doi: 10.13898/j.cnki.issn.1000-2200.2023.05.019
    [17] 孙敏捷罗兵李振兴霍星星王云 . 预测ICU住院病人死亡的Nomogram模型. 蚌埠医学院学报, 2022, 47(12): 1733-1736. doi: 10.13898/j.cnki.issn.1000-2200.2022.12.026
    [18] 张玉宝王汇程岚 . COPD机械通气病人谵妄发生风险的列线图预测模型构建与评估. 蚌埠医学院学报, 2021, 46(11): 1611-1615. doi: 10.13898/j.cnki.issn.1000-2200.2021.11.029
    [19] 樊小倩孙晴仲怀凤陈晴晴陆真 . 体外循环心脏术后并发压力性损伤预测模型的建立. 蚌埠医学院学报, 2022, 47(12): 1752-1755. doi: 10.13898/j.cnki.issn.1000-2200.2022.12.030
    [20] 裴丽峰薛叶韩英 . AMI急诊PCI术后造影剂肾病的列线图预测模型研究. 蚌埠医学院学报, 2022, 47(3): 305-309. doi: 10.13898/j.cnki.issn.1000-2200.2022.03.007
  • 加载中
图(5)表(1)
计量
  • 文章访问数:  4103
  • HTML全文浏览量:  2420
  • PDF下载量:  2
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-04-17
  • 录用日期:  2018-09-13
  • 刊出日期:  2019-03-15

ARIMA模型在蚌埠市梅毒预测中的应用

    通讯作者: 吴学森, xuesenwu@163.com
    作者简介: 朱乐乐(1993-), 男, 硕士研究生
  • 1. 蚌埠医学院 公共卫生学院, 安徽 蚌埠 233030
  • 2. 安徽省蚌埠市疾病预防控制中心, 233080

摘要: 目的探讨时间序列分析中的乘积季节自回归移动平均(ARIMA)模型在蚌埠市梅毒发病率预测中应用的可行性,为制定梅毒防控措施提供参考依据方法应用SPSS21.0软件对蚌埠市2008-2016年的梅毒发病率进行ARIMA模型拟合,依据BIC准则确定最优模型。用所得模型预测2017年1-6月的梅毒发病率,并与实际发病率进行比较,检验预测效果。结果ARIMA(0,1,1)(1,0,0)12,可以较好地拟合梅毒月发病率规律,模型统计量Ljung-Box Q=16.726,P>0.05,残差序列为白噪声,用所得模型预测蚌埠市2017年1-6月梅毒月发病率,预测值与实际值吻合情况良好,实际值均在预测值的95%可信区间内。结论ARIMA模型能较好拟合蚌埠市梅毒发病情况,对梅毒防治工作提供一定的参考价值。

English Abstract

  • 梅毒是由梅毒螺旋体引起的危害严重的性传播疾病,不仅可严重损害机体多个器官,还可由母体经胎盘垂直传播给胎儿,侵犯胎儿全身器官,引起流产、早产、死胎和畸胎或胎传梅毒[1]。近年来,全球的梅毒发病率一直居高不下,我国梅毒的感染率和发病率也呈直线上升趋势[2]。自20世纪80年代以来,性病在我省死灰复燃,尤其是近年来梅毒发病率呈现逐年上升趋势,梅毒、淋病一直位居37种法定报告传染病的第4、5位,成为我省严重的公共卫生问题[3]。本文采用自回归滑动平均混合模型(autoregressive integrated moving average,ARIMA)拟合蚌埠市梅毒发病率,探讨模型的可行性,为蚌埠市制定梅毒防控措施提供依据。

    • 收集2008年1月至2017年6月蚌埠市各县区疾病预防控制机构和医疗机构通过中国疾病预防控制信息系统报告的梅毒疫情资料。2008-2016年各年的蚌埠市常住人口数来源于蚌埠市统计局。

    • 一般来说,把观测对象的某个指标随时间推移而形成的数据序列称为一个随机序列。显然,时间序列是一组依赖于时间t的随机变量。这组随机变量所具有的依存关系或自相关性表征了观测对象发展的延续性,而这种自相关性一旦被相应的数学模型描述出来,就可以从时间序列的过去值及现在值预测未来值[4]

    • ARIMA建模一般分为3个阶段:模型识别、模型参数估计、模型诊断。反复进行这三个步骤,最终确定一个用于预测的最优模型。(1)模型识别:建立ARIMA模型的前提条件是通过对已有时间序列原始数据进行差分或数据变换,使该序列满足零均值且方差不随时间变化而变化,根据差分后自相关图、偏相关图判断序列是否平稳,从而确定差分次数d和/或D,又称为阶,差分后平稳的自相关图、偏相关图与理论ARIMA模型[5]对比,识别出模型的形式。(2)模型参数估计:在季节性ARIMA(p,d,q)×(P,D,Q)s乘积模型中,p、d、q和P、D、Q分别是非季节和季节性自回归(AR)、差分(I)、移动平均(MA)的阶,s是一个季节性周期中所包含的时点数。通过自相关图、偏相关图估计模型的参数p、q、P、Q。据文献[6]报道,P和Q很少超过2,一般取0、1、2,且p、d、P、Q不能同时取0。参数估计采用非条件最小二乘法,选用各参数有统计学意义的预测模型,进行拟合优度检验,依据贝叶斯信息准则(Schwartz Bayesian Information Criterion,BIC)判断模型的优劣,BIC值越小模型的拟合效果越好。(3)模型诊断:模型的诊断检查验证所建立的模型是否适合本研究的数据分析,一个适合的模型残差应是随机的,即为白噪声,残差序列的自相关(ACF)和偏相关(PACF)不应与0差异有统计学意义;Box-Jenkins Q检验结果无统计学意义说明模型的残差未违反白噪声的假设。

    • 采用ARIMA模型的拟合和预测分析。

    • 蚌埠市2008-2016年梅毒发病率的时间序列图(见图 1)显示,蚌埠市梅毒月发病率呈现上升趋势;在大多数年份中,发病率高峰在当年的第三季度,其次为第二季度;随着序列的时间推移,发病高峰与低谷的间距增大(以年分组进行方差齐性检验Levene统计量=2.203,P < 0.05,序列方差不齐)。原序列不符合零均值平稳性要求,应对原序列进行平稳化处理。

      图  1  蚌埠市2008-2016年梅毒月发病率的时间序列图

    • 随着序列的时间推移,月发病率增加,发病高峰与低谷的间距增大(原序列方差不齐),所以首先对原序列进行对数转换,再进行一阶差分使序列平稳,差分后的平稳序列记为Z(见图 2)。

      图  2  经对数转换及一般一阶差分后的时间序列图

    • 平稳序列是将原序列经过对数转换和一阶差分得到,故有d=1,Z的ACF和PACF(见图 3)。根据图 3,初步选定非季节模型=0或1,q=1。季节模型的P、Q判断比较困难,P和Q很少超过2,一般取0、1、2,且p、d、P、Q不能同时取0。对以上几种情况经过模型的拟合优度、参数估计情况、残差情况进行综合判断。

      图  3  经对数转换及一般一阶差分后的自相关图和偏自相关图

    • 选取不同p、d、P、Q组合进行拟合优度检验,选取BIC较小,模型参数估计有意义的模型为较优模型,通过比较结合实际获得较优模型ARIMA(0, 1, 1)(1, 0, 0)12, 此时非季节滑动平均系数MA1=0.725(t=10.42, P < 0.01), 季节滑动平均系数SMA1=-0.298(t=3.11, P < 0.01), BIC=-4.604。绘制ARIMA(0, 1, 1)(1, 0, 0)12模型的残差值得ACF图和PACF图(见图 4)对模型进行诊断;本模型残差序列的ACF和PACF均在95%可信区间内,并且残差序列的Box-Jenkins统计结果显示统计量差异无统计学意义(P>0.05), 说明残差是随机分布的, 因此可以用ARIMA(0, 1, 1)(1, 0, 0)12模型来预测蚌埠市梅毒发病情况。

      图  4  模型残差自相关和偏自相关图

    • 运用模型对蚌埠市2008年1月至2017年6月各月发病率进行预测并比较,其中以2008-2016年的发病率作为模型拟合点,对2017年1-6月各月发病率进行预测,图 5显示该模型对2008年1月至2017年6月各月梅毒发病率的拟合值及其95%可信区间与实际发病率基本一致,表 1给出2017年1-6月各月梅毒实际发病率的预测值的比较情况,可见2017年1-6月各月梅毒发病率实际值和预测值基本趋势一致,且发病率均在预测值的95%可信区间内,除了2017年1月的发病率预测值相对偏高外,其他月份预测精确度均较高,可以认为该模型能够对发病率进行及时准确的预测,具有一定的实际意义。

      图  5  蚌埠市梅毒发病率实际值与预测值对比图

      月份 实际发病率 发病率预测值 预测值95%CI 误差 相对误差/%
      1 3.50 4.26 2.79~6.50 -0.75 -21
      2 4.24 3.78 2.44~5.86 0.46 11
      3 4.32 4.11 2.61~6.47 0.22 5
      4 4.69 4.11 2.57~6.57 0.58 12
      5 5.19 4.45 2.74~7.21 0.74 14
      6 4.77 4.32 2.63~7.09 0.45 10

      表 1  蚌埠市2017年1-6月各月梅毒发病率实际值与预测值比较

    • 时间序列是指一个依时间顺序组成的观察数据集合,随着Box和Jenkings的工作及计算机的普及, 时间序列的处理方法已经由移动平均法、指数平滑法转变为ARIMA模型,现在一般所说的时间序列模型都是指ARIMA模型和它的某种表现形式[7]。ARIMA模型综合考虑了时间序列的变化趋势、周期性,并且充分考虑时间序列的自相关性[4],在预测中具有一定精确度,早先多用于金融、天气的预测,现已广泛应用于多种传染病预测,并且在国内的研究中,ARIMA模型在不同的传染病发病的预测上具有一定的精确性和可行性[8-10]

      传染病的发病率预测是一项复杂的前瞻性研究,对于卫生部门进行制定疾病防控工作具有重要的指导意义。但是传染病的影响因素具有复杂性与多变性的特点,往往需要多方面考察,ARIMA乘积季节性模型可以将疾病发病的生物医学因素、社会因素、自然因素的综合效应统一蕴含于时间变量中分析,同时,将影响梅毒发病的气候因素、季节因素等综合考虑。本文应用乘积ARIMA(0, 1, 1)(1, 0, 0)12模型对蚌埠市2017年1-6月梅毒发病率进行预测,预测值与实际值的趋势基本一致,说明ARIMA乘积季节性模型可以用于蚌埠市梅毒发病的预测。需要注意的是ARIMA乘积模型在平稳序列时需要对序列进行差分,差分会丢失原始数据,一般对于序列要求至少有50个观测值,并且一般来说ARIMA模型在短期预测中有一定精确度,对于长期预测精确度不高[11]。本研究建立的梅毒预测模型与王永斌等[12]依据2004-2012年全国梅毒各个月发病率建立的模型ARIMA(1, 1, 0)(2, 1, 1)12不同,与郭璐等[13]依据南京市2006-2012年梅毒逐月发病率建立的模型ARIMA(0, 1, 1)(0, 1, 1)12也不同,说明了即使是对于同一疾病,不同地区、不同时间段所构建的模型可能不同。这就需要应用者依据实际情况,考虑模型状况。

      不足之处,单次建立的ARIMA模型不能作为长久不变的预测模型,想要进行动态的预测,需要不断的用新的数据进行验证,并且加入新的发病率资料,进行调整拟合使预测获得更好的精度。本研究因未获得2017年人口数据,考虑到蚌埠市全市总人口在短期内的稳定性,用2016年人口数代替2017年人口数算地发病率资料,可能会影响模型效果的评价。模型预测的发病率与实际值趋势一致,但预测值和实际值仍有一定的误差,要想获得更精确的模型,需要在实际工作中认真仔细,加强理论知识的学习,深入研究建模方法,定期使用跟新的数据矫正模型,为梅毒的防治工作提供参考。

参考文献 (13)

目录

    /

    返回文章
    返回