万达信息受邀出席中国首场语料主题论坛，发布“智慧医疗语料数据集”产品

在人工智能的发展中，算法、算力和数据是三大关键要素，其中语料数据是决定大模型能力的天花板。高质量的语料数据为模型提供了丰富的训练素材，使算法能够学习和理解复杂的语言模式和语义结构。因此，语料数据在大模型开发中起到了决定性作用，是模型能力提升的关键基础。

7月6日，由大模型语料联盟、上海库帕思科技有限公司、上海市数商协会、上海市人工智能行业协会联合主办的“语料筑基，智生时代”2024WAIC语料主题论坛在上海世博中心隆重举行。万达信息股份有限公司（简称“万达信息”）高级副总裁李光亚先生作为受邀企业代表出席本次论坛，并在论坛上发布了“智慧医疗语料数据集”产品。

本次论坛围绕高质量语料数据如何高效供给赋能大模型产业发展，通过专业化、链接型、前瞻性三个维度，向市场传递重构语料生态的顶层设计理念。会上，各路大咖就“大模型的演进”、“语料数据的供给”以及“构建方法与路径”等问题做了深入的阐述和交流。

为打响高质量语料品牌，进一步激发市场主体语料创新活力，增强供给侧能级，加速医疗健康、城市交通等重点行业的大模型产业发展，会上万达信息、复旦大学智能医学研究院、上海工创中心等单位集中发布了十大语料数据产品。万达信息作为国内大数据领域的先行者，本次发布了“智慧医疗语料数据集”。该产品覆盖10000多种疾病知识、1500项检查检验知识、10万条药品说明书、1000余份专家共识和临床指南:500+疾病、600 多证型、1000 多种方剂、2000 多种中药、10000多个中医标准术语等，训练实体500万个，关系2000万条，总训练Token数达60亿，主要应用于电子病历、智能问诊、风险预测、辅助诊断等七大医疗场景。

高质量、大规模、安全可信的语料资源是迈向AI时代的重要基石。因此，本次论坛上发布了“语料生态服务大模型可持续发展倡议”，旨在建立模型训练、语料供给、学术研究、第三方服务等多方机构合作机制，携手打造资源共享、互利共赢、国际融通的“语料生态圈”，有力支撑大模型科研攻关，更好推动大模型产业创新发展。

万达信息作为共同发起方，遵循“大模型语料数据联盟”语料建设导则规范；构建医疗健康多模态语料采集、预处理、标注、对齐、应用专用工具集；实现模型精调、压缩量化，支撑大模型快速场景适配；实现多算力资源下模型服务构建、模型混合管理及推理快速部署服务；支撑赋能医疗健康大模型应用高效训练、供给、运营一站式服务。

“语料筑基，智生时代”，随着大数据和云计算技术的发展，自然语言处理技术的不断进步，更好地理解和处理人类语言，从而推动智慧应用的广泛落地将成为数字化时代最重要的时代特征。万达信息将持续布局前沿语料数据，深化语料构建方法，加强语料运营规范，为高质量语料数据赋能大模型产业发展作出贡献。