🔥 会员专享文生文数据可视化

AI机器学习数据集推荐专家

👁️ 135 次查看

📅 Nov 29, 2025

💡 核心价值： 本提示词专为AI和机器学习工程师设计，能够根据具体的机器学习任务需求，精准推荐五个最相关的数据集。通过系统分析任务类型、数据特征和应用场景，提供包含数据集名称、来源、规模、特征和适用场景的详细推荐清单，帮助工程师快速获取高质量数据资源，提升模型开发效率。推荐的数据集均来自权威来源，确保数据的可靠性和实用性。

终身会员免费复制

🎯 可自定义参数（3个）

机器学习任务

具体的机器学习任务描述，包括要解决的问题和目标

数据特征要求

对数据集特征的具体要求，如数据格式、标注情况、样本数量等

任务类型

机器学习任务的类型

🎨 效果示例

总体建议

数据组合与规模控制
- 主干语料：UNPC（决议/规章类）+ MultiUN（补充联合国文档），覆盖正式法律-治理文本。
- 结构化编号与术语：WIPO COPPA claims段落强化编号/条款可复制性与术语一致性。
- 场景补齐：ParaCrawl（法律域白名单）补足合同范本/政府规章/部分判决译文来源；WikiMatrix补充背景与长句结构。
- 通过质量与领域过滤，将总语料裁切到50万–200万高置信句对，分层保证三类场景（合同/法规/判决）均有代表性。
许可与合规
- 以上数据均可公开获取，具体许可以各项目页面为准；在再分发与发布模型时保留必要署名与声明。
- 对 ParaCrawl/WikiMatrix 等爬取来源须保留URL、时间戳与来源站点，以便合规审计。
术语表与一致性
- 推荐结合公开术语资源：UNTERM（联合国术语数据库，含中英）、WIPO Pearl（专利术语，中英可用）。将术语导出为双语词表，构建领域词典与翻译约束。
- 训练时采用术语约束/软约束：词典引导（Lexically Constrained Decoding、guided alignment），或在源句旁附加术语tag。
条款层级与编号保护
- 规则抽取并标准化：正则识别“第X章/条/款/项”“Article/Section/Clause/Subsection/Item”等，映射为层级数组，如 clause_hierarchy=[chapter=2, section=4, article=12, item=b]。
- 占位符策略：对子句编号、法条引用（如 “Art. 15(2)(b)”）、法规编号（“Reg. (EU) 2016/679”）、判例引注统一替换为占位符，译后还原，降低模型错误重写风险。
清洗与格式
- 去重：句级/文档级两层去重（minhash+编辑距离），优先保留含层级与编号的版本。
- 规范化：统一中英文标点、空白、引号样式；全角/半角、连字符与括号成对校验。
- 输出格式：
  - JSONL：{id, src, tgt, domain∈{contract, regulation, judgment}, clause_hierarchy, doc_id, url, year, source}
  - TSV：src\ttgt\t域\t层级\tdoc_id
划分与评测
- 划分：按文档与来源站点分层，防止跨集泄漏；每个场景单独保留dev/test（各2–3k句对），确保长句与编号样本覆盖。
- 评测指标：BLEU/chrF/COMET + 术语一致性（基于术语词表的准确率/召回）+ 编号/引用保真度（占位还原后精确匹配率）。
- 可解释性：训练后用 awesome-align 或 SimAlign 产出词对齐，存储到样本级元数据，支持错误分析与术语对齐可解释。
模型与解码建议
- 文档级与长序列：采用带跨句上下文的Transformer（如基于窗口的DocMT或检索式上下文），提升条款跨句一致性。
- 约束解码：对术语与编号采用hard/soft constraints；对URL、法条号、法规代号启用copy机制或placeholder强约束。
- 领域自适应：先在大规模泛法律域（UN/MultiUN/ParaCrawl过滤集）预训练，再在高精度小集（WIPO claims、法规核心集）微调，最后在场景混合集上做少量迭代收敛。

备注：如需，我可提供具体的正则模板、bicleaner/LASER筛选阈值、JSONL生成脚本与样例清洗管线，确保上游数据满足“句对齐、领域标签、条款层级、去重与标点规范、train/dev/test划分与许可说明”的要求。

总体建议

数据拼装与规模控制
- 主训练集：WIPO-Parallel 医学子集（核心）+ CCAligned 医学站点切片 + WikiMatrix 医学主题切片，按质量分阈值与去重策略控制到 10万–50万句对。
- 开发/测试：优先使用 TICO-19 的标准切分；另从 WIPO/WikiMatrix 按文档/条目分层抽样补充，避免来源泄漏。
统一 JSONL 架构（示例字段）
- id, src_zh, tgt_en, score（LASER/LaBSE/挖掘分数）, domain（IPC/站点/主题）, subdomain, source（WIPO/CCAligned/WikiMatrix/TICO-19）, entities（[{span, type, cui/mesh, zh, en}]）, units（提取到的单位与数值）, negation（boolean 或 cue 列表）, uncertainty（boolean）, alignment_level（sentence/paragraph）。
去噪与质量标注
- 质量分：对无内置分数的来源（如 WIPO）用 LaBSE 相似度+长度比过滤；对有分数的来源（CCAligned/WikiMatrix）直接保留为 score。
- 严格去重与近重复检测（MinHash/SimHash），并过滤异常字符集与非医学域内容。
实体与术语对照
- 采用 CMeKG/CMeSH 生成术语对照表；对中文侧进行实体识别与标准化（可先用匹配+规则，必要时训练中文医疗 NER，公开资源如 CHIP 系列可提供训练数据），将标准 ID 与建议英文术语写入 JSONL，训练/解码使用术语约束。
缩写与单位保真
- 缩写：离线标注中英缩写（英文可用 Ab3P，中文以规则/词表为主），在约束表中为缩写与全称建立映射，解码时优先保持缩写原状或按上下文还原。
- 单位/剂量：引入 UCUM/药典常用单位清单，做数值+单位一体校验，训练时加入 copy-bias（指数字符与单位的复制偏好）。
否定/不确定标注
- 英文可用 NegBio/pyConTextNLP；中文可基于公开断言/否定词表与依存规则构建判别器（可参考 CHIP 挑战公开数据训练），将 negation/uncertainty 写入 JSONL 并在评测中统计保真率。
评测与诊断
- 自动指标：BLEU/COMET + 术语准确率（term acc）+ 否定保真率 + 单位/数值保真率。
- 人审抽样：重点抽查药名、剂量、检验指标与否定语句，建立误译清单反馈优化术语与规则。
许可合规
- WIPO（按其开放专利数据条款）、CCAligned/WikiMatrix（遵循各自许可与来源网页条款）、TICO-19（遵循项目许可）、CMeKG/CMeSH（遵循仓库许可）。仅用于研究，并在发布模型或样例时遵循归属与再分发要求。

总体建议

数据组合策略
- 用 NLPCC 2019 与 CCMT 历年数据作为主评测与主干训练集（研究许可），AI Challenger 作为体量补充；用 ctext 与维基文库构建带“朝代/体裁/篇章”元数据的高质量子集，满足“句/篇双层对齐”和标签需求。
- 目标规模20万–80万句对：先从大规模竞赛数据中做质量筛选（去重、比率过滤、词表覆盖、对齐得分），再混入来自 ctext/维基文库的高质量、带元数据子集，控制最终规模与分布（体裁均衡）。
标注与格式
- 统一为 JSONL/TSV，字段建议：id, doc_id, sent_id, src_wenyan, tgt_modern, dynasty, genre, work, split, source, align_score, punc_restored(bool)。
- 朝代与体裁：通过书目信息映射；对竞赛数据可用外部书目表（如 ctext 目录）做弱监督推断。
评测与划分
- 使用官方开发/测试集（NLPCC/CCMT）作为主评测；额外构建体裁分层的验证集（诗、史、碑刻、散文），评估鲁棒性。
- 若需可商用评测链路，单独从 ctext/维基文库构建 CC BY-SA 评测集。
人名地名与典故保留
- 训练前建立实体/典故词表与同义映射（如通假字表、异体字表）；在解码时加入术语表约束或使用术语覆盖惩罚。
- 可叠加命名实体/地名词典（开放资源如 CBDB 开放子集、OpenKG 地名图谱等）做后处理校正。
倒装、省略、通假字
- 预训练阶段加入古汉语语法特征任务（虚词恢复、语序判别、通假映射）；微调时混入标点恢复任务。
- 在数据侧保留高质量标点恢复版本；对无标点原文采用专门的断句模型先行处理。
许可与合规
- 竞赛数据一般限研究用途；如需商用，请优先使用 ctext 与维基文库构建的 CC BY-SA 子集（满足署名与相同方式共享），并与法务确认再分发条款。
- 合并多源数据时保留来源与许可字段，确保可追溯。

如需，我可以基于上述来源为你输出一份已清洗去重、统一为 JSONL、带朝代/体裁/篇章标签的20万–80万句对样例清单，并提供对齐与过滤脚本。

📖 如何使用

⚡ 模式 1：即插即用（手动档）

直接复制参数化模版。手动修改 {{变量}} 即可快速发起对话，适合对结果有精准预期的单次任务。

加载中...

💬 模式 2：沉浸式引导（交互档）

一键转化为交互式脚本。AI 将化身专业面试官或顾问，主动询问并引导您提供关键信息，最终合成高度定制化的专业结果。

转为交互式 →

🚀 模式 3：原生指令自动化（智能档）

无需切换，输入 / 唤醒 8000+ 专家级提示词。插件将全站提示词库深度集成于 Chat 输入框。基于当前对话语境，系统智能推荐最契合的 Prompt 并自动完成参数化，让海量资源触手可及，从此彻底告别“手动搬运”。

安装插件 →

🔌 发布为 API 接口

将 Prompt 接入自动化工作流，核心利用平台批量评价反馈引擎，实现"采集-评价-自动优化"的闭环。通过 RESTful 接口动态注入变量，让程序在批量任务中自动迭代出更高质量的提示词方案，实现 Prompt 的自我进化。

发布 API →

🤖 发布为 Agent 应用

以此提示词为核心生成独立 Agent 应用，内嵌相关工具（图片生成、参数优化等），提供完整解决方案。

创建 Agent →

🛠️ 提示词工具

🕒 版本历史

当前版本

v2.1 2024-01-15

优化输出结构，增强情节连贯性

✨ 新增章节节奏控制参数
🔧 优化人物关系描述逻辑
📝 改进主题深化引导语
🎯 增强情节转折点设计

v2.0 2023-12-20

重构提示词架构，提升生成质量

🚀 全新的提示词结构设计
📊 增加输出格式化选项
💡 优化角色塑造引导

v1.5 2023-11-10

修复已知问题，提升稳定性

🐛 修复长文本处理bug
⚡ 提升响应速度

v1.0 2023-10-01

首次发布

🎉 初始版本上线

COMING SOON

版本历史追踪，即将启航

记录每一次提示词的进化与升级，敬请期待。

💬 用户评价

4.8

⭐⭐⭐⭐⭐

基于 28 条评价

5星

85%

4星

12%

3星

👤

电商运营 - 张先生

⭐⭐⭐⭐⭐ 2025-01-15

双十一用这个提示词生成了20多张海报，效果非常好！点击率提升了35%，节省了大量设计时间。参数调整很灵活，能快速适配不同节日。

效果好节省时间

👤

品牌设计师 - 李女士

⭐⭐⭐⭐⭐ 2025-01-10

作为设计师，这个提示词帮我快速生成创意方向，大大提升了工作效率。生成的海报氛围感很强，稍作调整就能直接使用。

创意好专业

COMING SOON

用户评价与反馈系统，即将上线

倾听真实反馈，在这里留下您的使用心得，敬请期待。

试用后开通会员即可无限使用

加载中...

AI机器学习数据集推荐专家

🎯 可自定义参数（3个）

🎨 效果示例

推荐数据集清单

数据集1：United Nations Parallel Corpus (UNPC) v1.0（中英）

数据集2：MultiUN（中英）

数据集3：WIPO COPPA v2（WIPO Parallel Corpus，专利中英）

数据集4：ParaCrawl v9（中英，建议法律域过滤）

数据集5：WikiMatrix v1（中英，建议法律主题筛选）

总体建议

推荐数据集清单

数据集1：WIPO-Parallel（专利平行语料，医学/生物医疗子集）

数据集2：CCAligned zh-en（CommonCrawl 挖掘平行语料，医学站点切片）

数据集3：WikiMatrix en-zh（维基挖掘平行语料，医学主题切片）

数据集4：TICO-19 zh-en（COVID-19 域翻译记忆与术语表）

数据集5：CMeKG/CMeSH（中文医学术语与 MeSH 对照资源）

总体建议

推荐数据集清单

数据集1：NLPCC 2019 古文-今译机器翻译共享任务（Ancient–Modern Chinese Translation, AMC）

数据集2：CCMT/CWMT 古文-今译翻译任务（历年：2020–2022）

数据集3：AI Challenger 古文-今译翻译数据集（Ancient-Modern Chinese Translation, AI Challenger）

数据集4：Chinese Text Project（ctext）古籍与现代汉语译文（可构建文档级平行语料）

数据集5：中文维基文库（zh.wikisource）古籍与白话译文（可构建带许可的平行语料）

总体建议

📖 如何使用

🛠️ 提示词工具

🕒 版本历史

💬 用户评价

热门提示词

热门角色

热门业务

大模型API

使用我们的提示词工具

AI开发者

产品经理

商业分析师

电商运营人员

法律从业者

财务规划师

市场营销人员

品牌营销人员

新媒体运营

提示词工程

数据分析

写作

内容创作

内容营销

SEO

工具

商业战略

策略

DeepSeek

OpenAI

Claude

Gemini

Grok

Qwen

Kimi

AI机器学习数据集推荐专家

🎯 可自定义参数（3个）

🎨 效果示例

推荐数据集清单

数据集1：United Nations Parallel Corpus (UNPC) v1.0（中英）

数据集2：MultiUN（中英）

数据集3：WIPO COPPA v2（WIPO Parallel Corpus，专利中英）

数据集4：ParaCrawl v9（中英，建议法律域过滤）

数据集5：WikiMatrix v1（中英，建议法律主题筛选）

总体建议

推荐数据集清单

数据集1：WIPO-Parallel（专利平行语料，医学/生物医疗子集）

数据集2：CCAligned zh-en（CommonCrawl 挖掘平行语料，医学站点切片）

数据集3：WikiMatrix en-zh（维基挖掘平行语料，医学主题切片）

数据集4：TICO-19 zh-en（COVID-19 域翻译记忆与术语表）

数据集5：CMeKG/CMeSH（中文医学术语与 MeSH 对照资源）

总体建议

推荐数据集清单

数据集1：NLPCC 2019 古文-今译机器翻译共享任务（Ancient–Modern Chinese Translation, AMC）

数据集2：CCMT/CWMT 古文-今译翻译任务（历年：2020–2022）

数据集3：AI Challenger 古文-今译翻译数据集（Ancient-Modern Chinese Translation, AI Challenger）

数据集4：Chinese Text Project（ctext）古籍与现代汉语译文（可构建文档级平行语料）

数据集5：中文维基文库（zh.wikisource）古籍与白话译文（可构建带许可的平行语料）

总体建议

示例详情

📖 如何使用

🛠️ 提示词工具

🕒 版本历史

💬 用户评价

提交反馈

热门提示词

热门角色

热门业务

大模型API

使用我们的提示词工具

反馈问题