原标题:贵阳大数据交易所发布939个高质量数据集 建好AI训练“数据粮仓”
“这就像在沙漠里寻找特定形状的沙粒。”近日,面对大模型厂商提出的特殊需求,贵阳大数据交易所市场部产品总监李霖泽如此形容其难度。这项需求涉及100万张叉车、集装箱、包裹等物流园区对象图像及名称标注数据集,且对单场景目标物、复合目标物的形态比例有着严格限定。
为满足大模型工业级应用需求,贵数所计划联合传统物流企业与第三方专业数据治理机构协同攻关,希望通过对物流园区原始影像数据进行定向裁剪、深度加工和精细标记,致力于将原有模型对物流对象图像类型的判断准确度推向新高度。
大模型厂商主动寻求合作的背后,是贵数所高质量数据集专区构建的蓬勃生态与平台能力支撑。作为不到一年时间就已聚集46家生态伙伴、发布939个高质量数据集的专业化平台,在区域高质量数据集产业生态的发展起到了良好的带头示范作用。
贵数所高质量数据集专区广泛覆盖“数据要素×”金融服务、气象服务、现代农业、工业制造、医疗健康、商贸流通等重点领域,犹如一个让数据实现从“能用”到“好用”质变的“数据粮仓”。用户只需轻点鼠标,即可按使用场景、获取方式精准检索所需的高质量数据集,彻底改变了以往大海捞针式的低效找寻模式。
去年底,国家发展改革委等部门联合印发《关于促进数据产业高质量发展的指导意见》,首次提出“高质量数据集”概念。今年2月,国家数据局在北京召开高质量数据集建设工作启动会,明确提出积极推进落实“人工智能+”行动,推动高质量数据集建设,高效赋能行业发展。在旺盛的市场需求与有力的政策推动双重作用下,高质量数据集建设全速驶入快车道。
贵数所专区上架的高质量数据集,其价值不仅体现在数量优势上,更在于多样性与系统性——涵盖文字、音频、图片、视频等多种模态,以及TTS(文本转语音)、OCR(光学字符识别)等跨模态数据。“多模态与跨模态数据的核心价值,在于打破信息孤岛,让AI实现更接近人类认知的综合决策。”李霖泽解释说,大模型训练如同学生学习——单一模态数据好比只捧着课本死记硬背,而多模态数据则像同时打开了文字教材、音频讲解与视频演示的多媒体课堂。
贵州中医药大学第一附属医院在贵数所上架的“CT影像+病理报告+基因数据”跨模态数据集,因其显著价值获得了“2024年度建设高质量数据集综合排名前十市场主体”称号,成为医疗数据要素价值化的标杆案例。
“传统单一影像数据好比让AI只看X光片,跨模态数据集突破了传统局限,如同为AI诊断系统赋予‘望闻问切’的多维感知能力。”李霖泽说,这种融合使AI诊断系统可同步分析影像特征、文本描述和分子标记,将病症早期筛查准确率显著提升。
瞄准智慧医疗蓝海,贵数所医疗数据专区计划携手中南大学湘雅医院等区域头部医疗机构,共同建立区域医疗行业可信数据空间,实现多模态医疗数据的跨机构安全流通、共享与交易,促进医疗数据要素高效配置与价值释放。
同样的赋能效应延伸至更广泛领域。在工业场景中,“设备运行视频+传感器数据+维修日志”的多模态融合,可助力预测性维护模型提前识别设备故障,降低停机损失;在农业领域,“土壤墒情+气象数据+作物生长图像”数据集可支撑智慧农场系统,实现农药减量增效、亩产提升目标。
“我们计划联合无人机厂商及管控平台厂商等相关生态,开发低空经济数据专区,登记上架低空经济相关高质量数据集。”李霖泽表示,贵数所将联合贵州大数据集团“数据开发利用加工基地”及第三方专业数据标注、治理机构,打造“高质量数据集产品化服务”,为数据提供商提供一站式数据处理服务,将原始数据加工打包成高质量数据集。(记者 李姗)
-
无相关信息