在“健康中国”战略深入推进的时代浪潮中,提升全民健康水平成为关乎国家发展与民生福祉的核心议题。随着科技飞速发展,健康医疗大数据与人群队列研究成为精准解锁健康密码的关键钥匙。“健康中国”战略明确提出,要完善健康保障、优化健康服务,构建全方位、全周期的健康服务体系。在此背景下,作为获取高水平医学证据的核心载体,人群队列研究对于揭示疾病成因、阐明演变规律、制定精准防控与诊疗策略具有不可替代的战略意义。在浙江省省委省政府的支持下,由浙江大学牵头,联合浙江省疾病预防控制中心和浙江省肿瘤医院,在项目首席科学家吴息凤教授带领下开展的“健康浙江百万人群队列(Hope Cohort)”项目应运而生,这不仅是对国家战略的积极响应,更是推动我国精准健康与数字化医疗迈向新高度的重大科研实践。
宏伟蓝图:构建超大规模多维度人群队列
该项目计划招募100万人,其中涵盖65万人的自然人群子队列,以及35万人的专病子队列(含肿瘤、代谢综合征、心血管疾病患者)。为支撑后续研究,项目系统收集多维度数据——从微观的基因组、蛋白组等生物分子信息,到中观的个人生活方式、体检及临床诊疗信息,再到宏观的环境及社会因素,同时对参与者开展长期追踪随访,为精准健康研究奠定坚实的数据基础。
项目旨在通过构建超大规模人群队列,开展跨尺度多模态健康医疗大数据获取、融合与辨析技术研究、高维度生物信息精准检测及智能计算等系列研究和转化应用,着力打造全球顶尖的高能级科创平台,实现疾病“预防-诊断-治疗-预后”的基础研究突破,构建数智赋能的疾病防诊治与健康管理体系,为精准健康和数字健康的发展提供强力支撑,提升全民健康。为实现这一目标,项目在实施过程中形成了独特的技术路径与研究架构,凸显出鲜明的创新特色。

创新实践:多维度整合与全链条、高质量的研究体系
在数据采集与研究架构设计上,吴息凤教授团队依托大数据和人工智能时代浪潮,构建了兼具广度、深度与精度的研究体系,形成六大独特显著优势。
其一,“全链条”覆盖疾病全生命周期的研究架构。在统一顶层设计下,队列同时包含自然人群子队列及肿瘤、代谢综合征、心血管疾病专病子队列,这一特点显著区别并优于当前UKB、All of US等国际大型前瞻性队列。通过覆盖疾病“预防、筛查、诊断、治疗、预后”全链条,系统构建贯穿“健康-疾病连续体”的研究平台,使项目在建设早期即可开展系列研究,为建立全链条疾病防诊治体系、支持居民健康提供有力支撑。
其二,“多维度”且深度整合AI的信息采集。队列采集流行病学调查、体检、临床诊疗记录(EMR)、医学影像等多类数据及遥感宏观环境数据;问卷含超400变量,覆盖社会经济、生活方式等,还含吸烟、睡眠等新型暴露信息;生物样本含血液、尿液等。最终构建起反映“宏观环境-个体行为-微观分子”交互作用的全景式健康数据库,为复杂疾病机制研究提供支持。
其三,“前沿性”采用AI赋能的研究范式。数据采集端部署自然语言处理技术解析非结构化临床文本,用深度学习算法实现医学影像智能标注;暴露评估引入睡眠质量多维量表、尼古丁依赖程度诊断、认知功能和情绪评估等工具,同步获取街景绿视率等新型建成环境数据,提升时空精度;还精细化测运动、膳食,构建健康生活方式得分,并围绕衰老精准评估与干预,构建AI赋能模型工具。
其四,“动态性”联通省内多家登记系统。队列主动对接省卫健委健康大脑、省疾控慢病监测网络、省肿瘤筛查登记平台及省公安厅死亡数据库等,实现研究对象健康和死亡结局的精细捕捉,确保研究终点数据的准确性和医学溯源性,为疾病进展模型提供持续演化的真实世界证据流。
其五,“高质量”全周期质控方案。队列建立从问卷培训、数据和样本采集、样本处理和运输,到数据存储、数据分析、样本入库和样本测序的全链条质量管理体系,严格保障队列资源的高质量和科学价值,为后续研究的可靠性奠定基础。
其六,凸显“应用性”生态优势,构建一系列基于人工智能算法的工具:基于问卷数据生成个体化健康评估报告(提出个性化干预建议),基于体检指标生成生物学衰老评估报告,基于膳食频率问卷生成个性化膳食报告,以及覆盖12类肿瘤的多场景立体化个体化风险预测模型,使前沿科研成果及时惠及公众健康决策。
这些创新设计相互衔接,既实现了数据采集的全面性与准确性,又通过架构优化和技术赋能,打破传统队列研究的局限,为精准健康研究提供了体系化支撑。
阶段性科研成果:数据积累、平台落地与应用转化
截至2025年9月上旬,项目已在浙江省11个地级市228个项目点深入实施,累计纳入人数突破66万,同时在数据积累、平台建设与应用转化方面取得一系列阶段性成果。
在数据积累方面,项目完成6万名参与者的全基因组测序(WGS),其中1万人的数据已归档至GSA-human平台;开展大规模多组学检测,包括1万人宏基因组检测及蛋白质组、代谢组、单细胞测序及时空组学等;医学影像数据也大幅积累,胸部平扫CT突破14万人次,脑部MRI突破2.6万人次。
在平台建设方面,项目建成“现场-实验室-数据分析”全流程布局的干湿实验室,包括1400万样本量的自动化生物样本库,一站式样本处理-核酸提取-建库测序-转录-蛋白-代谢检测平台,以及总存储量高达8.1PB的高性能服务器集群(其存储容量与吞吐效率在国内同类型队列中处于领先地位);同时建成“汇-通-管-用-评”五位一体的标准化大数据信息平台,以及完整的智能健康问卷调查系统、膳食健康调查系统、调查员管理系统、生物样本管理系统、数据交互追踪系统和数据统计分析系统,实现从数据采集到存储分析的全流程支撑。
基于海量数据与平台支撑,团队在多个研究领域实现关键突破。例如,围绕衰老的精准评估和干预,通过AI模型证实适量运动、合理膳食等生活方式因素与延缓衰老的紧密联系,为个性化健康管理方案提供科学依据;2025年8月,团队基于全基因组测序对一万多名中国个体进行全基因组扫描,成功识别出与肺癌相关的调控元件,为肺癌早期诊断、风险预测和精准治疗开辟新路径;此前,团队还在《Trends in Cancer》发表综述,全面阐述健康医疗大数据与人工智能技术在癌症研究中的应用,为该领域提供理论指导与实践方向。

“健康浙江百万人群队列(Hope Cohort)”项目的成果已产生广泛深远影响。学术上,以独特架构与海量数据,为全球健康研究提供资源范例,提升我国国际学术地位,吸引国际合作;临床层,生物学衰老评估报告、12类肿瘤风险预测模型等,支撑疾病早诊、精准治疗与干预;公共卫生上,长期追踪助政府定防控策略,AI健康工具提升公众健康意识。
展望未来,随着队列数据的持续积累与研究深入,吴息凤教授将带领团队进一步挖掘数据价值,开发更多精准有效的疾病预测与干预模型,推动科研成果临床转化与应用;同时,针对海量数据带来的算力与存储挑战,团队将积极探索和拥抱前沿技术,提升数据治理能力,确保项目行稳致远。作为我国健康医疗领域的重大科研实践,“健康浙江百万人群队列(Hope Cohort)”项目将持续为精准健康和数字健康发展贡献力量,为实现“健康中国”战略目标注入源源不断的动力。(葛艳)
