11月27日,在上海市经济和信息化委员会、上海市卫生健康委员会、上海市疾病预防控制局和上海申康医院发展中心的指导下,上海库帕思科技有限公司发布了全国首个卫生健康行业语料库。
上海市卫生健康行业语料库立足于健康中国国家战略,构建卫生健康领域具有前瞻性的高质量“语料魔方”,同步构建语料专项治理规程和工具链体系,推动卫生健康领域数据治理从基于规则到模型驱动的模式转变。临床医学语料库,覆盖100多个二、三级专科科目,适配智能化就医咨询、门急诊分诊、辅助诊疗、医疗质控、临床教学和临床研究等近20种应用场景,语料规模达5TB。公共卫生语料库,聚焦基础资源、业务资源、主题资源三大类,细分至传染病动态监测、慢性病及其危险因素、免疫规划和疾病控制等61个科目。语料规模达3TB。
后续市经济信息化委将依托市语料平台不断完善行业语料库,推动卫生健康领域语料规模和结构质量持续迭代。建立一批多模态、高质量、专业化的通用和专用语料库和应用平台,打造多层次语料体系,支撑基础大模型研发和垂类应用。聚焦前沿大模型训练需求,推动打造大规模、综合性、多模态的基础大模型训练语料库。