Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
·方法学·
武冈市农村地区心脑血管住院病例的时间
序列预测分析
吴玉攀 韦柳意 王双 陆姗 胡博睿 他福慧 陈磊 毛宗福430071武汉市,武汉大学健康学院全球健康系(吴玉攀、韦柳意、王双、胡博睿、毛宗福);430072武汉市,武汉大学全球健康研究中心(陆姗、他福慧、陈磊、毛宗福)通信作者:毛宗福,Email:zfmao@126.comDOI:10.16462/j.cnki.zhjbkz.2019.02.020
【摘要】 目的 建立武冈市农村地区心脑血管疾病(cardiocerebrovasculardisease,CVD)住院病例的预测模型,并对CVD住院病例的变化趋势进行预测分析,为医院合理配置CVD科室医疗资源提供参考依据。方法 利用 Stata140软件对武冈市2013年1月 ~2016年12月农村地区CVD住院人次月度数据构建季节性自回归移动平均混合模型(seasonalautoregressiveintegratedmovingaveragemodel,SARIMA),并对2017年武冈市农村地区CVD住院病例进行预测分析。结果 通过模型构建最终拟合的CVD住院病例预测模型为SARIMA(2,1,1)x(0,1,0)12。LjungBoxQ检验结果显示残差序列为白噪音序列(Q=1112,P=0680),说明所建模型拟合度较好,且2017年的预测结果与观测结果基本一致,总体相对误差在12%左右。预测结果显示,夏季为每年CVD住院高峰期。结论 SARIMA模型可以对武冈市CVD住院病例进行较准确的短期预测,医院可以根据不同月份CVD就医需求合理配置院内CVD科室医疗资源。
【关键词】 心脑血管;时间序列分析;自回归综合移动平均模型;季节性;预测【中图分类号】R45;R13 【文献标识码】A 【文章编号】16743679(2019)02022205基金项目:中组部全国党建研究会、原国家卫计委基层卫生司联合委托重点课题[(2017)53号]
AtimeseriespredictionandanalysisonruralinpatientwithcardiocerebrovasculardiseaseinWugang WUYupan,WEILiuyi,WANGShuang,LUShan,HUBorui,TAFuhui,CHENLei,MAOZongfuSchoolofHealthSciences,WuhanUniversity,Wuhan 430071,China(WuYP,WeiLY,WangS,HuBR,MaoZF);GlobalHealthInstitute,WuhanUniversity,Wuhan 430072,China(LuS,TaFH,ChenL,MaoZF)Correspondingauthor:MAOZongfu,Email:zfmao@126.com 【Abstract】 Objective ToestablishapredictivemodelforinpatientsofcardiocerebrovasculardiseaseinruralareasofWugangthroughtimeseriesanalysis,andpredictthechangingtrendofcardiocerebrovasculardisease,soastoofferguidanceforthehealthcareresourcesallocationandpreventionandcontrolofcardiocerebrovasculardisease.Methods Theseasonalautoregressiveintegratedmovingaveragemodel(SARIMA)wasconstructedbasedonthemonthlynumberofcasesofcardiocerebrovasculardiseaseinruralareasfromJanuary2013toDecember2016byStata140software,andthepredictiveeffectofthemodelwasverifiedwiththemonthlynumberofinpatientsofcardiocerebrovasculardiseasein2017.Results ThefinalfittingmodelofinpatientsofcardiocerebrovasculardiseasewasSARIMA(2,1,1)×(0,1,0)12.Theresidualsequenceofthemodelwasdiagnosed.ResultsofLjungBoxQtestshowedthattheresidualsequencewaswhitenoisesequence(Q=1112,P=068).Inaddition,the2017forecastwasbasicallyconsistentwiththeobservations,theoverallrelativeerrorwasaround12%.Theresultsshowedthatthesummerwasthepeakperiodofcardiovascularandcerebrovascularhospitalization.Conclusion SARIMAmodelcanaccuratelypredictthenumberofinpatientsofcardiocerebrovasculardiseaseinWugang,whichcanprovidedatasupportforthehospitaladministratortorationallyallo
·222· 中华疾病控制杂志2019年2月第23卷第2期 ChinJDisControlPrev 2019Feb;23(2)
catemedicalresourcesinthecardiovascularaccordingtotheneedsofcardiocerebrovasculartreatmentindifferentmonths.
【Keywords】 Cardiocerebrovasculardisease;Timeseriesanalysis;Autoregressivecomprehensivemovingaveragemodel;Seasonality;Prediction
Fundprogram:TheNationalPartyBuildingResearchAssociationoftheCentralOrganizationDepartmentandthePrimaryHealthDepartmentoftheformerNationalHealthandFamilyPlanningCommissionjointlycommissionedakeyproject[(2017)53].
(ChinJDisControlPrev2019,23(2):222226)
心脑血管疾病(cardiocerebrovasculardisease,CVD)是严重威胁人类生命质量和期望寿命的重大公共卫生问题之一,目前已成为世界大多数国家人
口的首要死因[1]。据世界卫生组织报道,2016年全世界大约有 4100万人死于慢性非传染性疾病(noncommunicablediseases,NCDs),其中,因 CVD死亡的人数达到了1790万,占所有因NCDs死亡人数的44%[2]。随着社会老龄化和城市化进程加快,
居民不健康生活方式流行,我国居民CVD发病呈现出在低龄化、低收入群体中快速增长及个体聚集趋
势。2017年我国 CVD患者已经超过 29亿人,每年死于 CVD近 300万人,占每年总死亡病因的51%[3]。既往研究表明季节性自回归综合移动平
均模型(seasonalautoregressiveintegratedmovingaveragemodels,SARIMA模型)可以应用于医院门急诊量的预测[4],然而针对CVD住院病例进行预测模型构建的研究却比较少。本研究通过分析2013-2017年武冈市新农合收集的 CVD住院患者资料,试图运用时间序列分析中的 SARIMA模型对2013-2016年每月 CVD住院病例数量进行建模拟合,预测2017年该市 CVD住院病例数量,并将其与实际数值比较以验证预测性能,从而为CVD的防控及医院CVD科室医疗资源配置提供科学依据。
1 资料与方法
1.1 资料 数据来源于武冈市新农合数据库管理平台,获取年限为2013年1月1日至2017年12月31日,其中2013-2016年住院数据用于建立时间序列模型,2017年住院数据用于验证模型预测能力。以住院患者出院诊断的第一诊断为主,根据国
际疾病分类标准(internationalclassificationofdiseases10,ICD10)对 CVD编码,ICD10编码中 I00I99的疾病即为 CVD病例。剔除重复和缺失数据,最终整理出武冈市2013-2017年 CVD住院患者病例14641例。因湖南省建立了全省统一的标准化医保监测管理平台,武冈市所有医疗机构均与省级医
保系统进行了对接,保证了数据质量。
1.2 方法 采用时间序列分析中的季节性自回归综合移动平均模型对 CVD住院病例数进行预测。SARIMA(p,d,q)(P,D,Q)s中,p、d、q和 P、D、Q分别表示连续模型和季节模型中自回归、差分和移动
平均的阶数,s表示季节模型的周期。d和 D的值可根据差分次数进行确定,p、q、P以及 Q的值可根据样本自相关函数(autocorrelationfunction,ACF)图和偏自相关函数(partialautocorrelationfunction,PACF)图来识别。1.3 统计分析 运用 Stata140统计软件进行数据分析,通过序列平稳→模型识别→参数估计→模型诊断→模型预测五个步骤建立 SARIMA模型,对2013-2016年武冈市农村地区 CVD住院病例进行时间序列分析,并对2017年住院病例进行预测分析。运用dickeyfuller单位根检验序列的平稳性,用BoxLjung检验评估模型的残差序列之间是否彼此独立。检验水准α=005。
2 结果
2.1 一般情况 2013-2016年,武冈市农村地区共有33463名CVD患者住院。住院患者人次数呈逐年增长趋势,并且存在明显的季节性周期,即每年
的6、7月份为“峰值”,每年的1、2月份为“谷底”。初步判断该时间序列为非平稳时间序列。见图1。2.2 SARIMA模型建模步骤2.2.1 序列相关性与平稳性检验 结合原始时间序列图(图1)和dickeyfuller单位根检验(Z(t)=-241,P=0140),可以确定原始时间序列是非平稳的,因此,需要对其进行相应的差分变换以减小序列波动。
2.2.2 模型的识别 原始序列1次非季节性差分后,ACF图PACF图与所处的时间无相关,识别为平稳序列,初步拟合为d=1的非季节性ARIMA(p,1,q)模型。又因每年6、7月份出现住院高峰,1、2月份出现住院“谷底”,且非季节性一阶差分后偏自相
关系数在12的整数倍上显著不为零,提示序列有季
·322·中华疾病控制杂志2019年2月第23卷第2期 ChinJDisControlPrev 2019Feb;23(2)
图1 武冈市2013-2016年心脑血管住院病例的时间分布序列图
Figure1 TheseriesdiagramofcardiocerebrovascularinpatientsinWugangfrom2013to2016
节性周期变动,故作时间序列周期为12的1阶季节性差分转换。从季节性差分后的ACF和PACF图以及dickeyfuller单位根检验结果(Z(t)=-1211,P<0001)可以判断,该序列已基本消除了周期性趋势,构建的季节性模型为SARIMA(P,1,Q)12。因此,最终确定的SARIMA模型为(p,1,q)x(P,1,Q)12。2.2.3 模型参数估计和模型诊断 通过1次非季节性差分和1次季节性差分后的时间序列 ACF图和PACF图可知,自相关系数在滞后1阶后落在置信区间内,但存在拖尾属性。偏自相关系数滞后3阶截尾,则 SARIMA连续模型的自回归阶数 q≤1,移动平均阶数p≤3。再考虑季节自相关特征,ACF图在滞后12阶落入2倍标准差范围,PACF图在滞后12阶落入2倍标准差范围。因此,P可能取值为0,1;Q的取值为0,1,见图2。 将满足条件 p≤3,q≤1,P≤1,Q≤1的所有值带入SARIMA(p,1,q)x(P,1,Q)12模型中,最终得到SARIMA(2,1,1)x(0,1,0)12和SARIMA(2,1,0)(0,1,0)12模型的拟合参数差异具有统计学意义,其他模型至少有一个参数差异无统计学意义(P>005),见表 1。比较两个备选模型的 AIC和 BIC值,模型 SARIMA(2,1,1)(0,1,0)12的 BIC值(BIC=288785)较小,因此,模型 SARIMA(2,1,1)(0,1,0)12为最佳模型。
表1 备选模型的参数估计Table1 TheestimationofmodelparametersSARIMA(2,1,1)(0,1,0)12B值 Z值 P值
SARIMA(2,1,0)(0,1,0)12B值 Z值 P值
AR1 -0.67 -3.68 <0.001 -0.91 -5.20 <0.001AR2 -0.57 -3.44 0.001 -0.65 -4.30 <0.001Ma1 -0.99 -3.09 0.002 - - -
图2 原始序列作周期为12的一阶季节性差分后的自相关图、偏自相关图
Figure2 Autocorrelationfigureandpartialautocorrelationfigureofthesequenceaftertwotimesdifferencing
对SARIMA(2,1,1)(0,1,0)12模型的残差序列进行检验,结果LjungBoxQ统计量差异无统计学意义(Q=1112,P=0680),可以认为残差已是随机分布的白噪声序列,即模型基本提取了原始序列的
趋势,可以用该模型进行统计学预测。
2.2.4 模型预测 利用2013-2016年武冈市CVD住院病例资料所建立的模型对2017年CVD实际住院数据进行预测分析,将实际值与模型预测值的相
对误差作为评价模型预测效果的标准,并绘制模型
拟合预测序列图。模型预测的 CVD住院患者数量的动态趋势与实际情况基本相同,见图3。模型预测的2017年武冈市 CVD住院患者人数为 11240人,与实际住院人数基本一致,表明预测能力总体可
以接受,见表2。
3 讨论
由于自然和社会环境等诸多因素都对 CVD的发生产生着错综复杂的影响,传统的因果回归分析
法往往难以明确预测变量及其影响强度[5]。而时
间序列分析作为一种实用性强的短期预测方法,可
以用时间替代各种综合影响因素进行预测分析,其
优越性尤为凸显[67]。本研究运用 SARIMA模型对武冈市2013-2017年CVD住院病例数及其变化趋
·422· 中华疾病控制杂志2019年2月第23卷第2期 ChinJDisControlPrev 2019Feb;23(2)
图3 武冈市2013-2017年心脑血管住院病例数拟合和预测情况
Figure3 TheobservationsandpredictedvaluesofcardiocerebrovascularinpatientsinWugangfrom2013to2017
表2 2017年武冈市农村心脑血管
住院病例实际值与预测值的结果比较
Table2 Comparisonbetweenpredictedandactualvaluesof
ruralcardiocerebrovascularinpatientsinWugangin2017
月份 实际值 预测值 绝对误差 相对误差
1 741 808 67 0.0902 84 731 -114 -0.1353 1007 938 -69 -0.0694 980 899 -81 -0.0835 902 989 87 0.0966 1044 979 -65 -0.0627 1112 1065 -47 -0.0428 991 939 -52 -0.0529 879 1016 137 0.15610 911 938 27 0.03011 968 954 -14 -0.01412 915 982 67 0.073合计 11295 11240 -55 -0.012
势进行分析,建立了预测模型;同时,2017年月度住院人数的预测值与实际值基本一致,这证明 SARIMA模型在模拟 CVD住院人数变化趋势中具有较好的应用价值,可以用来预测CVD住院患者数量的变化趋势。
既往研究表明 CVD发病具有显著的季节性趋势[89]。低温的冬季或冷暖交替的春季是CVD发病的危险因素[1011];也有部分研究证明在夏季,日最
高气温的增加会增加CVD急诊人次,而秋季日最高气温的增加反而作为一种保护性因素,能减少 CVD急诊人次[1213]。本研究在进行时间序列建模时也
充分考虑了季节效应,提高了模型的拟合预测精度,
研究结果与后者一致,即武冈市 CVD住院人数在6、7月份大幅增加,而冬季住院人数则相对较少,这一发现也为进一步相关研究证实提出了新的关注
点。
本文CVD住院病例在每年2月CVD住院病例呈骤减趋势。这可能由于2月正值中国农历春节,大多数病情稍缓的患者往往选择返家团聚,这一暂
时性的住院人数减少也在3月份住院人数小高峰得到了验证。同时,2月份住院人数“低谷”可能还与阳历本月是“小月”存在相关性。6、7月份 CVD住院病例呈现“高峰”,这可能与夏季温度有关。夏季
为了散热,体表血管扩张,体表血液较多,供应心脏
和大脑的血液减少。夏天体内水分流失严重,血管
容易粘稠,容易形成血栓,且闷热烦躁的天气容易引
发心率失常,也容易诱发CVD[14]。此外,夏季开空
调或者风扇使得室内外冷热交替,骤冷骤热,会引起
血管和血压的变化[15]。
SARIMA模型是时间序列建模中预测精度较高的模型,广泛应用于医院门急诊量的预测[16]。但本
模型也存在一定局限性,SARIMA模型在分析预测时只考虑时间序列本身的特性,未考虑其他影响住
院量的因素,实际应用时应结合具体问题综合分析。
另外,随着预测时间的延长,预测数据的误差也会增
大。如果用于长期预测,预测效果可能会不太理想。
本研究中,CVD的住院病例逐年上升且具有明显的季节性分布,每年的6、7月份高发,提示当地卫生部门要提早进行心血管防治规划。同时医院可以在夏
季心血管高住院月通过增设临时病床、借调卫生技
术人员和下转病病情稳定的患者到基层康复等措施
来提高医疗服务效率,最大限度满足患者就医需求,
保障人民群众健康。
利益冲突 无
参 考 文 献
[1] 王妮,吴炳义,武继磊,等.2012年山东省心脑血管疾病死亡
状况及去死因期望寿命研究 [J].中华疾病控制杂志,2017,
21(09):917920.DOI:10.16462/j.cnki.zhjbkz.2017.09.014.
WangN,WuBY,WuJL,etal.Distributionofcardiocerebral
vasculardiseasedeathanditslifeexpectancyeliminatingcausesof
deathinShandongProvincein2012[J].ChinJDisControl
Prev,2017,21(09):917920.DOI:10.16462/j.cnki.zhjbkz.
2017.09.014.
[2] WorldHealthOrganization.Worldhealthstatistics2018[EB/
OL].(2018328)[20181215]http://www.who.int/iris/bis
tream/handle/10665/272596/9789241565585eng.pdf?ua=1.
[3] 陈伟伟,高润霖,刘力生,等.《中国心血管病报告2017》概要
[J].中国循环杂志,2018,33(1):18.DOI:10.3969/j.issn.
10003614.2018.01.001.
ChenWW,GaoRL,LiuLS,etal.SummaryofChinaCardiovas
cularDiseaseReport2017[J].ChinCirculJ,2018,33(01):1
·522·中华疾病控制杂志2019年2月第23卷第2期 ChinJDisControlPrev 2019Feb;23(2)
8.DOI:10.3969/j.issn.10003614.2018.01.001.
[4] 李小升,马春柳,雷海科,等.SARIMA模型在医院门诊量预测
中的应用 [J].中国病案,2013,14(3):3740.DOI:10.3969/
j.issn.16722566.2013.03.019.
LiXS,MaCL,LeiHK,etal.ApplicationsofSARIMAModelon
PredictingOutpatientsQuantity[J].ChineseMedicalRecord,
2013,14(3):3740.DOI:10.3969/j.issn.16722566.2013.03.
019.
[5] 马翠荣,杨婕,余小金.江苏省2006-2014年城乡未成年人跌
倒病例的时间序列预测分析 [J].中华疾病控制杂志,2018,
22(2):122125,137.DOI:10.16462/j.cnki.zhjbkz.2018.02.
005.
MaCR,YangJ,YuXJ,etal.Thefallinjurycasesofurbanand
ruralareasforminorsinJiangsuProvince:atimeseriesprediction
andanalysis,2006-2014[J].ChinJDisControlPrev,2018,
22(2):122125,137.DOI:10.16462/j.cnki.zhjbkz.2018.02.
005.
[6] 易静,杜昌廷,王润华,等.自回归求和移动平均季节乘积模型
在结核病发病率预测中的应用 [J].中华预防医学杂志,
2007,41(2):118121.DOI:10.3760/j.issn:02539624.2007.
02.009.
YiJ,DuCT,WangRH,etal.Applicationsofmultipleseasonal
autoregressiveintegratedmovingaverage(ARIMA)modelonpre
dictiveincidenceoftuberculosis[J].ChinJPrevMed,2007,41
(02):118121.DOI:10.3760/j.issn:02539624.2007.02.009.
[7] 王芳,柴宗举,刘雯,等.出血性脑卒中发病趋势及时间序列分
析 [J].中国老年学杂志,2013,33(17):41284130.DOI:
10.3969/j.issn.10059202.2013.17.012.
WangF,ChaiZJ,LiuW,etal.Incidencetrendandtimeseries
analysisofhemorrhagicstroke[J].ChinJGer,2013,33(17):
41284130.DOI:10.3969/j.issn.10059202.2013.17.012.
[8] 谷少华,陆蓓蓓,边国林,等.大气可吸入颗粒物对心血管疾病
急救人次的短期影响 [J].环境与职业医学,2016,33(10):
965969.DOI:10.13213/j.cnki.jeom.2016.16140.
GuSH,LuBB,BianGL,etal.ShortTermEffectofInhalable
ParticulateMattersonEmergencyAmbulanceDispatchesforCardi
ovascularDiseases[J].JournalofEnvironmental&Occupational
Medine,2016,33(10):965969.DOI:10.13213/j.cnki.jeom.
2016.16140.
[9] 张霞,刘起勇.高温热浪对心脑血管病影响研究进展 [J].中
国公共卫生,2014,30(2):242243.DOI:10.11847/zggg
ws2014300238.
ZhangX,LiuQY.Researchontheeffectsofhightemperature
heatwavesoncardiovascularandcerebrovasculardiseases[J].
ChineseJournalofPublicHealth,2014,30(2):242243.DOI:
10.11847/zgggws2014300238.
[10]刘方,张金良,陆晨.北京市气温与脑卒中发病关系的时间序
列研究 [J].中华流行病学杂志,2004(11):4852.DOI:10.
3760/j.issn:02546450.2004.11.011.
LiuF,ZhangJL,LuC.Therelationshipoftemperatureand
strokeincidenceinBeijing:atimeseriesstudy[J].ChinJEpide
miol,2004(11):4852.DOI:10.3760/j.issn:02546450.2004.
11.011.
[11]常倩,叶云杰,汪庆庆,等.南京市大气污染物与居民心脑血管
疾病死亡的相关性 [J].环境与职业医学,2017,34(12):
10411045.DOI:10.13213/j.cnki.jeom.2017.17433.
ChangQ,YeYJ,WangQQ,etal.Correlationbetweenairpollu
tantsandcardiocerebrovascularmortalityinNanjing[J].Journal
ofEnvironmental&OccupationalMedine,2017,34(12):1041
1045.DOI:10.13213/j.cnki.jeom.2017.17433.
[12]许安阳,张丽娟,李觉,等.上海市温度和大气污染对居民心血
管疾病门急诊人数的影响 [J].同济大学学报(医学版),
2017,38(01):114118,123.DOI:10.16118/j.10080392.
2017.01.024.
XuAY,ZhangLJ,Lij,etal.Effectsoftemperatureandairpol
lutiononoutpatientandemergencyvisitsforcardiovasculardisea
sesinShanghai[J].JournalofTongjiUniversity(MedicalSci
ence),2017,38(01):114118,123.DOI:10.16118/j.1008
0392.2017.01.024.
[13]YangJ,ZhouM,OuCQ,etal.Seasonalvariationsoftempera
turerelatedmortalityburdenfromcardiovasculardiseaseandmyo
cardialinfarctioninChina[J].EnvironPollut,2017,5(224):
400406.DOI:10.1016/j.envpol.2017.02.020.
[14]顾恺,何红.高血压患者夏季和冬季动态血压监测值的差异
[J].中华高血压杂志,2016,24(6):578580.DOI:10.
16439/j.cnki.16737245.2016.06.019.
GuK,HeH.Differencesbetweensummerandwinterambulatory
bloodpressuremonitoringvaluesinpatientswithhypertension
[J].ChineseJournalofHypertension,2016,24(6):578580.
DOI:10.16439/j.cnki.16737245.2016.06.019.
[15]吕阳,王志盟,陈滨.室内空气环境与高龄者心脑血管疾病关
联性研究进展 [J].建筑科学,2018,34(2):124130.DOI:
10.13614/j.cnki.111962/tu.2018.02.21.
LvY,WangZM,ChenB.AreviewoftheRelationshipbetween
IndoorAirEnvironmentandCardiovascularandCerebrovascular
DiseaseintheElderly[J].BuildingScience,2018,34(2):124
130.DOI:10.13614/j.cnki.111962/tu.2018.02.21.
[16]廉恒丽,俞剑琴,傅映晖.ARIMA与SARIMA模型在医院门诊
人次与出院人次预测中的应用 [J].中国医院统计,2017,24
(02):8184.DOI:10.3969/j.issn.10065253.2017.02.001.
LiangHL,YuJQ,FuYH.ApplicationofARIMAandSARIMA
modelinpredictinghospitaloutpatientsanddischarges[J].Chi
neseJournalofHospitalStatistics,2017,24(02):8184.DOI:
10.3969/j.issn.10065253.2017.02.001.
(收稿日期:20180917)
(修回日期:20181119)
(本文编辑:王海莉)
·622· 中华疾病控制杂志2019年2月第23卷第2期 ChinJDisControlPrev 2019Feb;23(2)