news 2026/6/23 21:21:19

首批!景联文入选杭州语料库高质量数据集建设先行先试清单

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
首批!景联文入选杭州语料库高质量数据集建设先行先试清单

|首批高质量数据集建设先行先试清单的发布,不仅是官方对数据价值的认证,更是景联文科技从数据服务商迈向“AI数据基础设施”的关键一步。

近日,在浙江省数据局指导下,杭州市数据资源管理局联合杭州市数据集团等单位,通过“揭榜挂帅”机制,正式发布首批50个杭州语料库高质量数据集建设先行先试清单。景联文《教育大模型英文知识数据集》成功入选,成为教育教学领域代表性高质量数据产品,标志着公司在教育垂直领域的数据服务能力获得了官方与市场的双重认可

5637万道结构化英文试题,打造教育大模型“黄金语料”

本次入选的《教育大模型英文知识数据集》,是景联文科技历时一年自主研发的行业专用类高质量数据资产。数据集总量超5760万道英文试题,其中:

  • K12英文试题5637万道,覆盖商业、计算机、教育等20+学科,76%配备详细解析;
  • 大学英文试题9.7万道,涵盖英语、数学、生物等19门核心课程,每题均含专业解析;
  • 多模态试题150万道,图像规格不低于768×1024像素,支持图文理解与跨模态训练;
  • 指令微调数据达5637万条提示问答对,重复率<0.05%,专为大模型对齐优化设计。

所有数据采用JSONL结构化格式,字段完整覆盖学科、考点、题型、学段、年级、难度、题干、选项、答案、解析及媒体资源,严格遵循《2025高质量数据集实践指南(1.0)》标准,题目完整度≥95%,答案准确率≥95%。

接入杭州语料库,推动教育数据要素市场化流通

根据杭州市数据资源局政策,首批高质量数据集将通过数据产权确认,接入杭州语料库,面向社会提供创新性、示范性数据服务。此次入选,不仅验证了景联文数据产品的技术领先性,更打通了从“数据资源”到“数据资产”再到“数据产品”的转化路径。

景联文构建了“采集-清洗-标注-质检-迭代”全生命周期治理体系,自研AI治理平台支撑百万级数据日处理能力,已为教育科技公司、出版集团及大模型研发机构提供专项数据服务,助力智能教育生态高质量发展。

景联文也明确了下一步方向:持续提升数据质量至更高标准。并计划向STEM、前沿科技等更高价值学科拓展,构建包含音视频的多模态3.0版本题库,以适配教育大模型更复杂的交互需求。让AI真正赋能因材施教,促进教育公平与质量提升。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/22 20:22:43

DeeplxFile:突破文件翻译限制的终极解决方案

还在为文档翻译发愁吗?😩 当其他翻译工具告诉你"文件太大"或"不支持Excel"时,DeeplxFile正在默默打破这些限制!这款基于Deeplx和Playwright的开源工具,让免费、无限制的文件翻译成为现实。 【免费…

作者头像 李华
网站建设 2026/6/23 17:18:47

针对机械设备行业一体化项目制管理解决方案

对于机械设备工厂,管理中的挑战主要体现在内部流程的协调与效率、成本的控制,以及对定制化生产的管理上。机械设备行业专业的管理软件,正是为了针对性解决这些问题而设计的。机械设备工厂的管理痛点机械设备工厂的管理挑战复杂且具体&#xf…

作者头像 李华
网站建设 2026/6/23 17:14:03

【量子编程数据同步新突破】:如何在Q#和Python间无缝传递变量?

第一章:Q#-Python 变量同步概述在量子计算与经典计算混合编程的场景中,Q# 与 Python 的协同工作变得愈发重要。变量同步是实现两者高效交互的核心机制之一,它允许 Q# 编写的量子操作与 Python 管理的经典数据之间进行无缝传递和状态共享。变量…

作者头像 李华
网站建设 2026/6/23 1:01:13

Java后端开发常见报错及解决方案:小白与大牛的问答故事

Java后端开发常见报错及解决方案:小白与大牛的问答故事 在学习Java后端开发过程中,遇到各种报错和Bug是常有的事。本文通过小白与资深Java大牛的对话方式,分享常见问题及解决方案,助你快速成长。第一轮问答 小白: 我在使用HashMap…

作者头像 李华
网站建设 2026/6/23 17:13:45

DeepSeek-V3实战指南:如何精准调优batch_size解决推理性能瓶颈

DeepSeek-V3实战指南:如何精准调优batch_size解决推理性能瓶颈 【免费下载链接】DeepSeek-V3 项目地址: https://gitcode.com/GitHub_Trending/de/DeepSeek-V3 当用户请求激增时,你是否发现AI模型响应变慢,GPU利用率却不高&#xff1…

作者头像 李华