AI机器学习数据集推荐专家

9 浏览
1 试用
0 购买
Nov 29, 2025更新

本提示词专为AI和机器学习工程师设计,能够根据具体的机器学习任务需求,精准推荐五个最相关的数据集。通过系统分析任务类型、数据特征和应用场景,提供包含数据集名称、来源、规模、特征和适用场景的详细推荐清单,帮助工程师快速获取高质量数据资源,提升模型开发效率。推荐的数据集均来自权威来源,确保数据的可靠性和实用性。

推荐数据集清单

数据集1:United Nations Parallel Corpus (UNPC) v1.0(中英)

  • 数据来源:United Nations(官方发布),OPUS 镜像
  • 数据规模:数百万至约千万级中英句对(包含长句与复杂法务措辞);按文档与段落对齐
  • 主要特征
    • 文体为正式法律/规章文本,常见条款编号、引文与交叉引用
    • 附带文档元数据(文档符号/编号、会议类型、年份等),可据此派生领域标签(如决议、通告、行政指令等)
    • 句级对齐质量高,适合长句神经机器翻译与术语一致性建模
  • 适用任务:法律/规章机器翻译、文档级MT、术语一致性约束、条款号保护与对齐可解释性
  • 获取方式
    • OPUS 页面:https://opus.nlpl.eu/UNPC.php
    • 官方介绍页(许可与说明):联合国 UN Parallel Corpus 页面(可通过“United Nations Parallel Corpus v1.0”检索)
  • 使用建议
    • 领域抽样:用文档符号前缀派生标签(示例:A/RES.* → 决议;ST/AI.* → 行政指令/规章;A/C.* → 委员会文件),优先抽取“决议/规章/报告”版块,控制到50万–200万句对规模
    • 条款与引用保护:在分词/子词化前,用规则抽取并占位保护条款号/编号(如“第\d+条”“Article \d+”“Section \d+(.\d+)*”“[A-Z].\d+”),解码后还原
    • 去重与规范化:采用语言识别、双语打分(LASER/LaBSE)、bicleaner/dups去重;统一标点/空白(全角/半角)与数字格式
    • 数据格式:转换为JSONL或TSV,建议字段{id, src, tgt, domain, doc_id, clause_hierarchy, year}
    • 划分:按文档与年份分层抽样,避免跨集文档泄漏(train/dev/test≈98/1/1 或 97/2/1)

数据集2:MultiUN(中英)

  • 数据来源:OPUS(源自联合国官方文档的另一处理管线)
  • 数据规模:约数百万中英句对(zh-en 子集常见约200万级)
  • 主要特征
    • 句级对齐稳定,保留文档ID,可补充UNPC覆盖不足的年份与文类
    • 文本包含大量编号段落与正式法律文书体裁
  • 适用任务:法律领域NMT扩充数据、文档级一致性建模、术语与编号鲁棒性
  • 获取方式:OPUS 页面:https://opus.nlpl.eu/MultiUN.php
  • 使用建议
    • 与UNPC合并时先做近重复检测(minhash/SimHash)与句对去重,避免数据泄漏
    • 用doc_id聚合成文档块,做文档内上下文训练(如3–5句上下文窗口)以提升长句一致性
    • 继承UNPC相同的条款占位、标点规范与JSONL/TSV管线,保持统一模式

数据集3:WIPO COPPA v2(WIPO Parallel Corpus,专利中英)

  • 数据来源:WIPO PATENTSCOPE(世界知识产权组织)
  • 数据规模:中英平行段落/句对数百万级(按版本/语言对不同,zh-en为百万量级)
  • 主要特征
    • 专利文献包含可泛化到法律文本的编号与层级结构(权利要求、说明书、摘要),术语密集且一致性强
    • 章节/字段元数据(title/abstract/description/claims)可映射为“条款层级”与“领域标签”(例如 claims→条款、description→正文说明)
  • 适用任务:术语一致性与编号复制、长句结构保真、领域自适应(法律-技术交叉)
  • 获取方式
    • 官方页面(检索“WIPO COPPA parallel corpus”或“WIPO Parallel Corpus”)
    • 常见镜像与学术引用页亦提供直链
  • 使用建议
    • 使用字段元数据生成层级标签:claims → clause_level=1/2(独立/从属),description → section=“Description”
    • 对化学式、数值、括注、引用号进行占位保护(如 <CHEM_n>、<NUM_n>、<REF_n>)
    • 只采样与目标法律领域重合度较高的部分(claims优先),控制采样比重以避免过度技术术语偏置
    • 许可与使用范围以WIPO页面说明为准,按要求保留署名

数据集4:ParaCrawl v9(中英,建议法律域过滤)

  • 数据来源:ParaCrawl 项目,OPUS 镜像
  • 数据规模:中英数百万级以上句对(质量不均)
  • 主要特征
    • 含大量政府/国际组织/高校等域名来源页面,可通过URL与页面结构提取法规/判决/政策文件
    • 适合做“法律域检索+质量过滤”的补充来源,弥补合同/判决在公开平行语料中的不足
  • 适用任务:法律域增广、术语覆盖、域自适应预训练
  • 获取方式:OPUS 页面:https://opus.nlpl.eu/ParaCrawl.php
  • 使用建议
    • 域名过滤白名单:un.org、wipo.int、legco.gov.hk、legislation.gov.hk、hklii.hk、gov.cn(及各部委二级域)、npc.gov.cn、court.gov.cn(若存在英译页面)
    • 质量管线:langid→LASER/LaBSE相似度→bicleaner→长度/字符集/符号比率规则→去重;目标保留50万–100万高置信对
    • 条款与层级:利用页面结构(h1–h6、ol/ul、编号正则)派生 clause_hierarchy(如 chapter→section→article→item)
    • 标注来源URL与时间戳,便于审计与可解释性

数据集5:WikiMatrix v1(中英,建议法律主题筛选)

  • 数据来源:Facebook/OPUS
  • 数据规模:中英数百万级句对(基于维基百科跨语言对齐)
  • 主要特征
    • 覆盖条约、国际组织、法律术语、判例介绍等百科条目;格式中常含编号、引用与长句说明
    • 适合补充通用法律知识与跨域长句结构
  • 适用任务:法律背景知识补充、长句翻译稳健性、编号与引用格式泛化
  • 获取方式:OPUS 页面:https://opus.nlpl.eu/WikiMatrix.php
  • 使用建议
    • 分类过滤:仅保留与法律相关条目(Category:Law、Treaties、Constitution、Court、Judgment等)及条文/条约页面
    • 提高阈值:采用更高相似度阈值(例如 LASER score ≥ 1.05 或项目推荐阈值之上)以提升对齐精度
    • 清洗引用:对引用标记、脚注、表格残留进行规则清洗与占位,保持编号完整
    • 作为高质量小比例补充(例如占总训练数据5–10%)

总体建议

  • 数据组合与规模控制

    • 主干语料:UNPC(决议/规章类)+ MultiUN(补充联合国文档),覆盖正式法律-治理文本。
    • 结构化编号与术语:WIPO COPPA claims段落强化编号/条款可复制性与术语一致性。
    • 场景补齐:ParaCrawl(法律域白名单)补足合同范本/政府规章/部分判决译文来源;WikiMatrix补充背景与长句结构。
    • 通过质量与领域过滤,将总语料裁切到50万–200万高置信句对,分层保证三类场景(合同/法规/判决)均有代表性。
  • 许可与合规

    • 以上数据均可公开获取,具体许可以各项目页面为准;在再分发与发布模型时保留必要署名与声明。
    • 对 ParaCrawl/WikiMatrix 等爬取来源须保留URL、时间戳与来源站点,以便合规审计。
  • 术语表与一致性

    • 推荐结合公开术语资源:UNTERM(联合国术语数据库,含中英)、WIPO Pearl(专利术语,中英可用)。将术语导出为双语词表,构建领域词典与翻译约束。
    • 训练时采用术语约束/软约束:词典引导(Lexically Constrained Decoding、guided alignment),或在源句旁附加术语tag。
  • 条款层级与编号保护

    • 规则抽取并标准化:正则识别“第X章/条/款/项”“Article/Section/Clause/Subsection/Item”等,映射为层级数组,如 clause_hierarchy=[chapter=2, section=4, article=12, item=b]。
    • 占位符策略:对子句编号、法条引用(如 “Art. 15(2)(b)”)、法规编号(“Reg. (EU) 2016/679”)、判例引注统一替换为占位符,译后还原,降低模型错误重写风险。
  • 清洗与格式

    • 去重:句级/文档级两层去重(minhash+编辑距离),优先保留含层级与编号的版本。
    • 规范化:统一中英文标点、空白、引号样式;全角/半角、连字符与括号成对校验。
    • 输出格式:
      • JSONL:{id, src, tgt, domain∈{contract, regulation, judgment}, clause_hierarchy, doc_id, url, year, source}
      • TSV:src\ttgt\t域\t层级\tdoc_id
  • 划分与评测

    • 划分:按文档与来源站点分层,防止跨集泄漏;每个场景单独保留dev/test(各2–3k句对),确保长句与编号样本覆盖。
    • 评测指标:BLEU/chrF/COMET + 术语一致性(基于术语词表的准确率/召回)+ 编号/引用保真度(占位还原后精确匹配率)。
    • 可解释性:训练后用 awesome-align 或 SimAlign 产出词对齐,存储到样本级元数据,支持错误分析与术语对齐可解释。
  • 模型与解码建议

    • 文档级与长序列:采用带跨句上下文的Transformer(如基于窗口的DocMT或检索式上下文),提升条款跨句一致性。
    • 约束解码:对术语与编号采用hard/soft constraints;对URL、法条号、法规代号启用copy机制或placeholder强约束。
    • 领域自适应:先在大规模泛法律域(UN/MultiUN/ParaCrawl过滤集)预训练,再在高精度小集(WIPO claims、法规核心集)微调,最后在场景混合集上做少量迭代收敛。

备注:如需,我可提供具体的正则模板、bicleaner/LASER筛选阈值、JSONL生成脚本与样例清洗管线,确保上游数据满足“句对齐、领域标签、条款层级、去重与标点规范、train/dev/test划分与许可说明”的要求。

推荐数据集清单

数据集1:WIPO-Parallel(专利平行语料,医学/生物医疗子集)

  • 数据来源:WIPO Open Data(经 OPUS 整理发布)
  • 数据规模:中英对齐总体为百万级;按医学相关 IPC 分类(如 A61* 医学/卫生、G16H 医疗信息学、C12N 生物技术)过滤后可得到数十万级句对(满足10万–50万规模需求,具体取决于过滤阈值)
  • 主要特征
    • 去标识化(公共专利文本)
    • 段/句级对齐;技术文本中保留剂量、单位、化学名、缩写等
    • 自带细粒度领域标签(IPC 分类码),便于领域分层抽样与标注
  • 适用任务:中→英医学/临床机器翻译、术语保真与单位保真、术语约束翻译、领域自适应
  • 获取方式:OPUS WIPO 页面 https://opus.nlpl.eu/WIPO.php (选择 zh-en)
  • 使用建议
    • 领域筛选:按 IPC 前缀 A61*、G16H、C12N 等提取医学相关,对齐到 10万–50万句对规模
    • 质量分:用 LaBSE/LASER 计算句对相似度,或用语言模型滤除异常长度比/字符比,得到 score 字段
    • 领域标签:保留专利的 IPC 作为 domain 字段;可细分为 drug, device, biotech 等
    • 术语与单位:采用术语词典(见数据集5)做术语对照与约束;用正则+UCUM 词典抽取/归一化单位并在 JSONL 中附加 units 字段
    • 否定/不确定:专利中较少出现临床否定表达,仍可用中文/英文否定触发词表与句法规则(NegBio 英文;中文可用 CHIP 系列公开资源训练断言分类器)离线标注 negation/uncertain 字段
    • 标准切分:按专利族/IPC 分层抽样切 train/dev/test,避免同族泄漏

数据集2:CCAligned zh-en(CommonCrawl 挖掘平行语料,医学站点切片)

  • 数据来源:WMT/FAIR(CommonCrawl 挖掘),官方镜像
  • 数据规模:zh-en 为百万级;按医疗/公共卫生站点白名单过滤(如 who.int、medlineplus.gov、cdc.gov、ema.europa.eu 的中文页面等)后可得数十万级句对
  • 主要特征
    • 去标识化(公开网站文本)
    • 句级对齐,附带挖掘/相似度分数(可作为质量分)
    • 可按来源域名作为领域标签(domain)
  • 适用任务:医学/公共卫生方向中英机器翻译、领域自适应、术语保真
  • 获取方式https://data.statmt.org/cc-aligned/ (选择 zh-en)
  • 使用建议
    • 领域过滤:站点白名单(who.int、medlineplus.gov、cdc.gov、unicef.org/health 等中文频道),并可用页面路径关键词(covid, vaccine, symptom, diagnosis 等)二次筛选
    • 质量控制:使用提供的挖掘分数或重算 LaBSE,相似度阈值(如 ≥0.7)+长度比过滤去噪;去重与近重复检测
    • 元数据:将域名作为 domain,页面主题作 subdomain(如 guideline, leaflet, faq)
    • 否定与缩写:网页文本保留缩写较多;用缩写检测工具(英文 Ab3P / 快速规则)与否定识别规则离线补标
    • 标准切分:按站点与主题分层切分,保证 dev/test 覆盖多站点

数据集3:WikiMatrix en-zh(维基挖掘平行语料,医学主题切片)

  • 数据来源:Facebook/FAIR LASER(Wikipedia 句对挖掘)
  • 数据规模:en-zh 为百万级;按医学相关条目/分类(疾病、药物、解剖、检验项目)过滤后可达10万–30万级
  • 主要特征
    • 去标识化(百科条目)
    • 句级对齐并附带 LASER margin 分数(可直接作为质量分)
    • 涵盖大量标准化术语、缩写与单位表述
  • 适用任务:医学科普/术语密集文本的中英机器翻译、术语对齐与约束翻译
  • 获取方式:下载 en-zh 版本 https://dl.fbaipublicfiles.com/laser/WikiMatrix/v1/WikiMatrix.en-zh.tsv.gz
  • 使用建议
    • 主题过滤:用维基分类/模板(Medicine, Pharmacology, Anatomy, Signs and symptoms 等)或基于 MeSH/药品词表的标题匹配获取医学切片
    • 质量控制:使用提供的 margin 分数阈值(如 ≥1.06,视分布调优)+去重
    • 术语对照:用数据集5的词表构造术语表,做对齐校验与约束解码
    • JSONL 转换:包含 {id, zh, en, score=margin, domain="wikipedia-med", entities, negation}
    • 切分:按条目/主题分层切分,整段段落内保持句子相邻,便于段落级上下文翻译实验

数据集4:TICO-19 zh-en(COVID-19 域翻译记忆与术语表)

  • 数据来源:TICO-19(多机构联合,面向公共卫生与疫情文本)
  • 数据规模:句对为万级;同时提供跨语言术语表(COVID-19 相关)
  • 主要特征
    • 专业人工翻译,覆盖公告、指南、问答、症状与防护等,保留大量缩写与单位
    • 提供标准开发/测试切分,适合术语保真和域内泛化评测
    • 术语资源可直接用于约束翻译或术语一致性检查
  • 适用任务:公共卫生/临床相关子域的中英机器翻译、术语/缩写保真评测、术语约束翻译
  • 获取方式:OPUS 镜像 https://opus.nlpl.eu/TICO-19.php 或项目页 https://tico-19.github.io/
  • 使用建议
    • 用术语表构造 constrained decoding 词典与术语一致性评估脚本(term accuracy, preference)
    • 用作开发/测试集,训练主要来自数据集1–3;在训练集少量混入 TICO-19 做轻量域自适应
    • JSONL:保留文档/段落 ID,增加 domain="covid19"、source="TICO-19" 字段

数据集5:CMeKG/CMeSH(中文医学术语与 MeSH 对照资源)

  • 数据来源:清华大学 KEG 实验室(开源知识图谱/词表)
  • 数据规模:包含大量中文医学实体与同义词,映射到 MeSH 等标准标识及英文描述(规模为数十万级条目,随版本更新)
  • 主要特征
    • 提供中文→标准化概念→英文描述/同义词的术语对照
    • 覆盖疾病、药物、症状、检验检验项等,多用于实体标准化与术语一致性
    • 去标识化、研究许可友好(以仓库许可为准)
  • 适用任务:机器翻译中的术语约束与后编辑校验、实体标注和归一化、术语误译检测
  • 获取方式:项目仓库 https://github.com/THU-KEG/CMeKG (内含基于 MeSH 的中英对照资源与字典,具体路径随版本变化)
  • 使用建议
    • 从 CMeKG/CMeSH 导出 “中文术语 ↔ 英文首选术语/同义词 ↔ 标准 ID” 词典;对数据集1–4的中文侧进行实体匹配与归一化,写入 entities 与 term_map 字段
    • 结合 UCUM/常见剂量单位清单,构造单位白名单与正则模板,做单位/剂量规范性检查与后编辑
    • 在训练与解码阶段启用术语约束(lexically constrained decoding 或 soft constraints),降低术语误译率

总体建议

  • 数据拼装与规模控制
    • 主训练集:WIPO-Parallel 医学子集(核心)+ CCAligned 医学站点切片 + WikiMatrix 医学主题切片,按质量分阈值与去重策略控制到 10万–50万句对。
    • 开发/测试:优先使用 TICO-19 的标准切分;另从 WIPO/WikiMatrix 按文档/条目分层抽样补充,避免来源泄漏。
  • 统一 JSONL 架构(示例字段)
    • id, src_zh, tgt_en, score(LASER/LaBSE/挖掘分数), domain(IPC/站点/主题), subdomain, source(WIPO/CCAligned/WikiMatrix/TICO-19), entities([{span, type, cui/mesh, zh, en}]), units(提取到的单位与数值), negation(boolean 或 cue 列表), uncertainty(boolean), alignment_level(sentence/paragraph)。
  • 去噪与质量标注
    • 质量分:对无内置分数的来源(如 WIPO)用 LaBSE 相似度+长度比过滤;对有分数的来源(CCAligned/WikiMatrix)直接保留为 score。
    • 严格去重与近重复检测(MinHash/SimHash),并过滤异常字符集与非医学域内容。
  • 实体与术语对照
    • 采用 CMeKG/CMeSH 生成术语对照表;对中文侧进行实体识别与标准化(可先用匹配+规则,必要时训练中文医疗 NER,公开资源如 CHIP 系列可提供训练数据),将标准 ID 与建议英文术语写入 JSONL,训练/解码使用术语约束。
  • 缩写与单位保真
    • 缩写:离线标注中英缩写(英文可用 Ab3P,中文以规则/词表为主),在约束表中为缩写与全称建立映射,解码时优先保持缩写原状或按上下文还原。
    • 单位/剂量:引入 UCUM/药典常用单位清单,做数值+单位一体校验,训练时加入 copy-bias(指数字符与单位的复制偏好)。
  • 否定/不确定标注
    • 英文可用 NegBio/pyConTextNLP;中文可基于公开断言/否定词表与依存规则构建判别器(可参考 CHIP 挑战公开数据训练),将 negation/uncertainty 写入 JSONL 并在评测中统计保真率。
  • 评测与诊断
    • 自动指标:BLEU/COMET + 术语准确率(term acc)+ 否定保真率 + 单位/数值保真率。
    • 人审抽样:重点抽查药名、剂量、检验指标与否定语句,建立误译清单反馈优化术语与规则。
  • 许可合规
    • WIPO(按其开放专利数据条款)、CCAligned/WikiMatrix(遵循各自许可与来源网页条款)、TICO-19(遵循项目许可)、CMeKG/CMeSH(遵循仓库许可)。仅用于研究,并在发布模型或样例时遵循归属与再分发要求。

推荐数据集清单

数据集1:NLPCC 2019 古文-今译机器翻译共享任务(Ancient–Modern Chinese Translation, AMC)

  • 数据来源:NLPCC(CCF-TCCI 共享任务)
  • 数据规模:训练集规模为大规模平行句对(百万级),官方提供开发集与评测集(各为小规模标准划分);句级对齐
  • 主要特征
    • 来源覆盖典籍、史书、散文等多体裁;古文原文多为断句与标点已恢复版本
    • 官方提供标准训练/开发/测试划分,适合基线与可比实验
    • 多数样本为句对级,无朝代或体裁标签(需后处理补充元数据)
  • 适用任务:古文→今文机器翻译(MT)、句级翻译质量评测
  • 获取方式:NLPCC 2019 共享任务页面(需注册/协议后下载):http://tcci.ccf.org.cn/(进入 2019 共享任务 Ancient–Modern Chinese Translation)
  • 使用建议
    • 将官方平行 txt 转为 TSV/JSONL(字段建议:id, src_wenyan, tgt_modern, split, source)
    • 文本清洗:统一全/半角、去重、长度比过滤(古今文句长差异较大,可放宽至[0.3, 3.5])
    • 朝代/体裁标签可通过样本来源标题与外部知识库(如 ctext 元数据)映射补充
    • 可作为主干训练集,后续用带体裁/朝代标签的数据进行多任务或领域自适应

数据集2:CCMT/CWMT 古文-今译翻译任务(历年:2020–2022)

  • 数据来源:CCMT(中国机器翻译大会,CIPSC)
  • 数据规模:训练集为大规模平行句对(通常>50万句对),含官方开发集与评测集;句级对齐
  • 主要特征
    • 延续多届评测,体裁覆盖较广,评测集持续更新,利于多年度可比实验
    • 官方标准划分;数据质量与难度更贴近学术评测
    • 原始数据不含朝代/体裁字段(需补充),以句级为主
  • 适用任务:古文→今文机器翻译建模、跨届评测复现与对比
  • 获取方式:CCMT 官方网站(历届任务与数据):http://sc.cipsc.org.cn/mt/(进入对应年份的“古-今翻译”任务页,按要求申请)
  • 使用建议
    • 与 NLPCC 2019 数据互补使用,交叉验证泛化;将两者合并后去重
    • 以 CCMT 的开发/测试集作为主评测集,确保与文献结果可比
    • 混合体裁抽样建立领域自适应(历史纪传、碑刻、诗歌、散文)子模型或使用体裁标签作为控制信号

数据集3:AI Challenger 古文-今译翻译数据集(Ancient-Modern Chinese Translation, AI Challenger)

  • 数据来源:AI Challenger(学术竞赛平台)
  • 数据规模:大规模(>50万)平行句对,含官方训练/验证/测试划分;句级对齐
  • 主要特征
    • 数据覆盖面广,适合作为预训练或粗粒度预热数据
    • 官方划分清晰,便于快速启动与复现实验
    • 不含朝代/体裁标签;文档级信息较弱
  • 适用任务:大规模预训练、数据增强、基线快速搭建
  • 获取方式:AI Challenger 数据集页(按平台协议获取);若官方镜像不可用,可在学术镜像或公开存档平台检索“AI Challenger Ancient-Modern Chinese Translation”(确保遵守原许可)
  • 使用建议
    • 作为数据量“底座”,与 CCMT/NLPCC 合并后用规则/对齐模型做质量筛选(去除异常对齐与过度口语化今译)
    • 建议将其转存为 JSONL,并加入来源字段 source="aichallenger"
    • 对诗词类短句设置更严格的长度与字符集过滤,降低噪声

数据集4:Chinese Text Project(ctext)古籍与现代汉语译文(可构建文档级平行语料)

  • 数据来源:Chinese Text Project(https://ctext.org/)
  • 数据规模:收录数千部古籍;其中相当一部分附有现代汉语译文与注释(篇章级对齐,可通过句读与分段对齐得到数十万级句对,规模取决于对齐策略与覆盖范围)
  • 主要特征
    • 完整的篇章结构与丰富元数据(作者、朝代、典籍类别/体裁),便于“句/篇双层对齐”
    • 内容采用 CC BY-SA 许可(商业可用但需署名与相同方式共享)
    • 原生提供 API,可编程抓取文本与元数据,易于构造带朝代、体裁标签的 TSV/JSONL
  • 适用任务:构建带朝代/体裁标签与文档层对齐的高质子集;补足史书、子书与碑刻等体裁的篇章级语料
  • 获取方式
  • 使用建议
    • 以篇章为单位抓取原文与现代译文,通过段落编号/标点恢复进行句级对齐(可用分句+动态规划对齐)
    • 保留元数据:dynasty, genre, work, chapter,满足标签需求
    • 使用术语/典故词表辅助对齐质量检查(如“典故词典”“人名/地名词表”)
    • 对诗词体裁单独处理:以句读与对仗结构为线索,避免过度合并/拆分

数据集5:中文维基文库(zh.wikisource)古籍与白话译文(可构建带许可的平行语料)

  • 数据来源:Wikimedia/中文维基文库
  • 数据规模:覆盖大量公版古籍;部分条目带白话译文或注译(按作品不同差异较大;可汇聚到数万至十万级句对,取决于收录与对齐)
  • 主要特征
    • CC BY-SA 许可(商业可用,需署名与相同方式共享),法律合规性强
    • 媒体维基结构化元数据,便于提取作者、年代、体裁分类
    • 适合增加碑刻、志书、类书等冷门体裁的覆盖
  • 适用任务:补充开源许可严格可控的文档级平行数据;构建可商用链路的数据子集
  • 获取方式
  • 使用建议
    • 通过页面结构与模板提取“原文/译文”段落;对齐使用分段+字符相似度+短语锚点
    • 保存页面分类信息映射为体裁;根据作者/书目映射朝代
    • 建议构建质量评分(对齐置信度、句长比、字符集特征),筛选高可信平行句对
    • 与 ctext 数据去重并打标签,形成统一 JSONL/TSV 语料库

总体建议

  • 数据组合策略

    • 用 NLPCC 2019 与 CCMT 历年数据作为主评测与主干训练集(研究许可),AI Challenger 作为体量补充;用 ctext 与维基文库构建带“朝代/体裁/篇章”元数据的高质量子集,满足“句/篇双层对齐”和标签需求。
    • 目标规模20万–80万句对:先从大规模竞赛数据中做质量筛选(去重、比率过滤、词表覆盖、对齐得分),再混入来自 ctext/维基文库的高质量、带元数据子集,控制最终规模与分布(体裁均衡)。
  • 标注与格式

    • 统一为 JSONL/TSV,字段建议:id, doc_id, sent_id, src_wenyan, tgt_modern, dynasty, genre, work, split, source, align_score, punc_restored(bool)。
    • 朝代与体裁:通过书目信息映射;对竞赛数据可用外部书目表(如 ctext 目录)做弱监督推断。
  • 评测与划分

    • 使用官方开发/测试集(NLPCC/CCMT)作为主评测;额外构建体裁分层的验证集(诗、史、碑刻、散文),评估鲁棒性。
    • 若需可商用评测链路,单独从 ctext/维基文库构建 CC BY-SA 评测集。
  • 人名地名与典故保留

    • 训练前建立实体/典故词表与同义映射(如通假字表、异体字表);在解码时加入术语表约束或使用术语覆盖惩罚。
    • 可叠加命名实体/地名词典(开放资源如 CBDB 开放子集、OpenKG 地名图谱等)做后处理校正。
  • 倒装、省略、通假字

    • 预训练阶段加入古汉语语法特征任务(虚词恢复、语序判别、通假映射);微调时混入标点恢复任务。
    • 在数据侧保留高质量标点恢复版本;对无标点原文采用专门的断句模型先行处理。
  • 许可与合规

    • 竞赛数据一般限研究用途;如需商用,请优先使用 ctext 与维基文库构建的 CC BY-SA 子集(满足署名与相同方式共享),并与法务确认再分发条款。
    • 合并多源数据时保留来源与许可字段,确保可追溯。

如需,我可以基于上述来源为你输出一份已清洗去重、统一为 JSONL、带朝代/体裁/篇章标签的20万–80万句对样例清单,并提供对齐与过滤脚本。

示例详情

解决的问题

用一句话概括:把“找数据”这件最耗时的工作,变成一键拿到可用清单的高效体验。

  • 面向AI/ML工程师与数据科学家,基于你的任务描述与数据偏好,智能生成5个高度匹配且可直接获取的数据集建议。
  • 每条建议涵盖:数据来源平台、样本规模与字段要点、典型任务匹配、下载路径与使用建议,便于即刻评审与落地。
  • 优先推荐公开、可信、更新活跃的数据资源,减少重复挖掘与合规风险,加速从立项到首个可跑通模型的周期。
  • 适配多类场景:视觉、NLP、推荐/排序、时间序列、异常检测等,满足从学术验证到业务上线的不同阶段需求。
  • 目标成效:显著缩短数据搜寻周期,降低试错成本,稳定提升模型迭代效率与产出质量。

适用用户

机器学习工程师

在原型阶段快速得到5个可用数据集清单,附规模与特征、链接与预处理建议,短时间完成数据选型并搭建首版模型。

数据科学家

为算法对比与特征验证挑选多样数据源,基于标准化信息制定实验矩阵,缩短迭代周期,提升模型指标稳定性。

AI研究员

根据研究主题自动定位权威公开数据,避免使用过时或受限数据集,迅速对齐评测设置,专注方法创新与复现。

特征总结

按任务与数据要求,一键匹配五个高相关公开数据集,含来源链接,几分钟完成选型。
自动分析任务类型、模态与场景,过滤过时与付费数据源,确保可获取且适配度高。
标准化呈现名称、规模与特征字段,帮助快速比对候选数据集,减少反复查找与试错。
内置预处理与使用建议,涵盖清洗、划分与特征工程,直接指导搭建首版可用模型。
支持多领域场景如视觉、文本、推荐与时序,一套提示覆盖团队常见数据需求。
提供质量与适用性评估要点,明确数据局限与注意事项,降低项目后期返工风险。
按统一格式输出可复用清单,方便团队协作、评审与归档,提升立项与汇报效率。
无需翻遍平台与论坛,即刻锁定权威来源数据,节省搜索时间,把精力用在建模上。

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。

2. 发布为 API 接口调用

把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。

3. 在 MCP Client 中配置使用

在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。

AI 提示词价格
¥20.00元
先用后买,用好了再付款,超安全!

您购买后可以获得什么

获得完整提示词模板
- 共 673 tokens
- 3 个可调节参数
{ 机器学习任务 } { 数据特征要求 } { 任务类型 }
获得社区贡献内容的使用权
- 精选社区优质案例,助您快速上手提示词
限时免费

不要错过!

免费获取高级提示词-优惠即将到期

17
:
23
小时
:
59
分钟
:
59