×
¥
查看详情
🔥 会员专享 文生文 其它

AI数据采集策略设计

👁️ 129 次查看
📅 Nov 29, 2025
💡 核心价值: 本提示词专为AI/ML工程师设计,用于制定专业的数据采集策略。通过系统化分析AI任务需求,综合考虑数据源选择、质量保障、标注流程等关键要素,生成完整可执行的数据采集方案。该策略涵盖数据需求分析、采集方法设计、质量控制体系等核心模块,确保数据采集过程科学规范,为机器学习项目提供高质量数据支撑。适用于计算机视觉、自然语言处理、推荐系统等多种AI应用场景。

🎯 可自定义参数(4个)

AI任务描述
具体的AI或机器学习任务描述
数据规模要求
数据采集的规模要求
应用领域
AI应用的具体领域
质量等级
数据质量等级要求

🎨 效果示例

数据需求分析

  • 任务与目标

    • 面向三域中文命名实体识别(NER):医疗(疾病/药物/操作)、金融(机构/产品)、公共服务(地点/部门)。
    • 支持高一致性标注方案:BIOES编码、嵌套实体、跨句指代(coreference)。
    • 数据服务于信息抽取与检索问答,需高精度、可持续迭代。
  • 数据规模与分布

    • 首批12万句,三域均衡:医疗4万、金融4万、公共服务4万。
    • 月滚动新增2万句,三域基本均分(各约6.7k),延续首批分布结构。
    • 难例占比10%(共1.2万句),覆盖长句、歧义、嵌套/跨句复杂现象、口语化、拼写变体、术语稀有词。
    • 标注复核抽检20%。
  • 来源类型与建议占比(按域内分布)

    • 医疗:政策/规范20%,百科/知识库30%,论坛问答30%,客服/咨询对话20%。
    • 金融:政策/监管通告35%,百科/知识库15%,论坛问答20%,客服/银行/券商对话30%。
    • 公共服务:政策/政务公开50%,百科/知识库20%,民生问答/论坛15%,热线/客服对话15%。
    • 备注:所有来源需满足许可与合规要求;对话类优先采用授权与脱敏后的企业/机构数据,或基于公开FAQ生成的模板化合成数据(标注为合成,不用于评测集合)。
  • 术语与语言特征

    • 医疗:同义词/别名(疾病俗称、药品商品名/通用名)、缩写(如“乙肝”、“HBP”)、中英文混合。
    • 金融:机构全称/简称、产品系列名、版本号、法规编号。
    • 公共服务:地名层级(省/市/区/街道/网点)、部门层级(委办局/处室/科室)。
    • 需建立领域术语库与别名映射,并与标注规范联动,提升一致性。
  • 合规与伦理

    • 数据来源需明确许可(开源/公共领域/授权),遵守robots.txt、版权与署名条款。
    • 客服/对话数据必须签署数据处理协议(DPA),在采样前做严格脱敏。避免收集与任务不相关的个人敏感信息。
    • 符合中国个人信息保护法(PIPL)等要求,保留数据处理台账与审计记录。

采集方法设计

  • 公开政策与政务信息

    • 渠道:国务院/部委官网、各省市政务公开平台、央行/银保监/证监会、卫健委、医保局、市场监管总局等。
    • 方法:优先使用官方开放数据接口/下载页;无API时使用Scrapy/Requests按站点白名单爬取,遵守robots.txt,限速与重试策略,记录元数据(URL、抓取时间、许可、主题分类)。
    • 输出:按文档粒度存储,保持段落/章节结构以支持跨句标注;句子切分在标注阶段按需进行。
  • 百科与开放知识库

    • 优先选择许可清晰、可再分发资源:
      • 中文维基百科与Wikidata(CC BY-SA/ODbL),遵守署名与同许可证要求。
      • 开放知识图谱社区(如OpenKG中标注为可用的知识库,需逐库确认许可)。
    • 不建议直接采集许可不明确的商用百科(如部分商业百科),除非获得明确书面授权。
  • 论坛问答/社区内容

    • 首选具有开放许可或可获授权的平台;必要时通过站点方合作获取可用数据快照。
    • 备选:采集政府/医院/银行/公共服务热线的公开FAQ与问答稿(通常许可友好)。
    • 采集策略:关键词驱动(按术语库扩展检索)、主题聚类(KMeans/BERTopic)以覆盖多样意图与场景。
  • 客服/热线/业务对话

    • 企业/机构合作渠道:签署DPA,限定用途,数据最小化采集;仅保留与实体识别相关的对话段。
    • 脱敏在入湖前完成(见下文脱敏方案),并进行去重与噪声过滤。
    • 若授权数据不足:使用基于公开FAQ的模板/槽位合成少量对话,标注为“合成”,与真实数据隔离管理,不用于测试集与质量评估。
  • 抽取与预处理流程

    • 去重:URL/文档级去重 + 段落/句子级近重复检测(SimHash/MinHash,阈值0.85)。
    • 中文句子切分:基于标点与统计模型(如pkuseg/spaCy zh),保留文档ID、段落ID、句子序号,支持跨句指代链。
    • 质量筛选:过滤乱码、超长(>200字)或超短(<5字)句;语言检测剔除非中文主体;对话保留轮次结构。
    • 术语驱动抽样:利用术语库进行命中比例控制,确保覆盖长尾术语与别名。
    • 难例采样:按长度、实体密度、嵌套/跨句特征、错别字比例等规则与模型不确定性评分(后续迭代)采样,确保10%占比。
  • 术语库与词表扩展(持续维护)

    • 医疗:优先采用官方公开资源与许可友好的目录,如国家药监局药品注册数据库(通用名/商品名/适应症)、国家医保目录公开版本、国家/省级疾病分类目录公开文本;对受限标准(如部分编码体系)仅用于匹配验证但不再分发原文。
    • 金融:监管机构公布的机构名单、上市公司/基金/理财产品公开名录(交易所/基金业协会公开数据),注意许可证与使用范围。
    • 公共服务:行政区划代码(民政部公开)、政府部门组织架构公开名录、政务服务事项清单。
    • 别名与变体:从Wikidata派生别名、从论坛/对话中挖掘高频别称;经专家校验入库。
    • 术语库版本化管理(Git/DVC),字段示例:标准名、别名、类别、来源与许可、更新时间。
  • 预标注与主动学习

    • 预标注:字典匹配 + 许可友好的中文预训练模型微调的弱标注器(Apache/MIT许可),明确要求标注员以规范为准覆盖与纠错。
    • 主动学习(迭代阶段):基于置信度/熵/边际采样与代表性采样,提升新增2万句的有效信息密度。
  • 脱敏与合规处理(入库前)

    • 规则与模型结合:
      • 身份证:正则识别并替换为[ID_PRIV](示例:18位含校验位)。
      • 手机号:1[3-9]段正则替换为[PHONE_PRIV]。
      • 银行卡/账户:长度与校验模式识别替换为[ACCT_PRIV]。
      • 详细住址(非公共机构地址):地名词典+序列模型识别替换为[ADDR_PRIV],保留城市/区县级公共地名。
      • 姓名(自然人):中文人名模型+词典替换为[NAME_PRIV]。
      • 邮箱/订单号/社交账号:模式识别替换为相应占位符。
    • 保留与任务相关的公共实体(医院名、机关名、公共地点)且不替换。
    • 生成脱敏审计日志:替换类型、位置、规则/模型版本、日期;抽检确保误脱敏率与漏脱敏率在可控阈值内(目标<1%)。

质量控制策略

  • 规范与试标

    • 编制详细标注指南(实体定义、边界规则、嵌套优先级、跨句指代准则、歧义处理示例)。
    • 试标集3,000句(各域均衡):三轮迭代(试标→汇报→修订指南),达成收敛。
    • 目标一致性:双人标注的宏平均F1 ≥ 0.92;BIOES合法序列错误率=0。
  • 标注分层质检

    • 自动质检(100%覆盖):
      • BIOES序列合法性、嵌套不交叉性(同层不允许局部交叉)、跨句指代链闭合与无环性。
      • 术语一致性:术语库命中时类别一致率监控;别名与标准名冲突告警。
      • 分布监控:各域/来源/实体类别占比、平均实体数/句、平均长度等。
    • 人工质检:
      • 常规抽检20%(系统随机+分层):纠错并回流培训。
      • 难例100%双标+仲裁:确保复杂现象高质量。
    • 误差分类与反馈闭环:边界偏差、类别混淆、漏标/误标、嵌套层级错误、指代链错误;每周复盘改进指南与预标注器。
  • 数据校验基准集

    • 建立独立验证集(每域各3k句,含20%难例),冻结用于周期性模型评测与数据过程回归测试。
    • 指标:实体级精确率/召回率/F1(微/宏)、嵌套实体F1、跨句指代解析准确率。
  • 去偏与均衡

    • 采样与重加权确保来源、题材、句长、实体类别分布与预期一致;对热门机构/疾病设置上限,避免头部霸占。

标注流程规范

  • 标签体系

    • 实体大类:
      • 医疗:DISEASE(疾病)、DRUG(药物)、PROC(医疗操作/检查/手术)
      • 金融:ORG(机构)、PROD(金融产品)
      • 公共服务:LOC(地点/行政区/公共设施)、DEPT(部门/处室)
    • 支持嵌套与跨句指代:
      • 嵌套示例(文字描述):在“北京协和医院心内科”中,ORG=“北京协和医院”,DEPT=“心内科”,允许DEPT嵌套在ORG右侧或作为并列标注,按指南统一策略。
      • 地点内嵌机构名或机构名包含地名时,优先原则:实体边界以语义最小完整单元为主,避免同层交叉。
    • 编码:BIOES;跨句指代使用链ID(coref_id),同一实体跨句出现保持相同链ID。
  • 边界与优先级规则(要点)

    • 最小可区分:不要把修饰语(如“全国知名的”)计入实体;保留官方全称与必要限定词(如“股份有限公司”)。
    • 产品系列:当系列名与具体产品同时出现,优先标具体产品,系列可作为嵌套或并列实体,指南统一。
    • 药品:商品名与通用名并列出现时,两者均标;若以括号形式互注,分别成独立实体。
    • 地点层级:按行政区划粒度标注,不标过细到个人门牌号。
  • 跨句指代规范

    • 指代形式:代词(它/该行/该药)、省略、简称;为首次明示的“先行词”建立链,后续指代连接同一coref_id。
    • 跨段落与对话轮次:保留文档上下文与说话人信息;限定最大指代窗口(如±3句)以控制成本。
  • 工具与配置

    • 标注平台:优先选择支持嵌套与指代链的INCEpTION或同等能力平台;若使用Label Studio,需启用Span NER嵌套插件并扩展Coref功能(或在INCEpTION做指代补标)。
    • 预标注导入:字典与弱模型结果作为可编辑层;标注员修改优先。
    • 角色分工:标注员A/B、仲裁员、质检员;难例由A/B双标,仲裁员最终裁决。
  • 文档与培训

    • 标注手册(v1.0→迭代版本化),含正反例与FAQ。
    • 培训2小时+试标反馈会,考核通过后上岗;每周更新难例集与指南补充。

实施时间规划

  • 首批12万句(8周)
    • 第1周:数据合规审查与白名单、采集器开发与部署、术语库v0.9构建、标注指南v1.0、工具环境准备。
    • 第2周:数据初采与预处理、脱敏流程联调、试标集3,000句产出、三方校准会。
    • 第3-6周:规模化采集与预标注并行、正式标注启动(难例双标)、每周质检复盘与术语库迭代。
    • 第7周:集中质检(20%抽检完成)、问题回修与一致性加固、验证集冻结。
    • 第8周:最终验收与交付(数据+标注+质检报告+术语库+审计日志),沉淀规范v1.1。
  • 月滚动2万句(按月重复)
    • 周期节奏:W1采集与预标注、W2-W3标注与质检、W4汇总交付与模型回灌;同时执行主动学习样本选择。
  • 人员与产能(参考,可按供应商能力微调)
    • 标注员:18人(医疗8、金融5、公共服务5),有效产能约90句/小时,6小时/日≈540句/人/日。
    • 质检/仲裁:4人,日处理≈1,000-1,200句/人(基于抽检与回修强度)。
    • 首批工作量估算:
      • 基础标注:120,000句
      • 难例双标:12,000句×1次额外=12,000句等效
      • 抽检复核:24,000句
      • 合计约156,000“标注/复核动作”
      • 产能:18人×20日×540≈194,400动作,满足余量用于回修与迭代。
  • 基础设施
    • 数据湖与版本管理:对象存储+元数据表(URL、许可、来源、时间、脱敏版本、预标注版本、标注版本)。
    • 版本控制:DVC/Git LFS管理语料与术语库,标注平台开启任务/批次版本;自动化质量报表(周更)。

风险评估与应对

  • 许可与版权风险

    • 风险:部分来源许可不清或禁止再分发。
    • 应对:仅采集明确开放或签约授权资源;维持来源白名单与许可台账;对需要署名/同许可证的内容严格遵循,必要时只提取可用字段或使用摘要化文本而非原文段落。
  • 个人信息与敏感数据泄漏

    • 风险:客服对话含PII/财务账号/病例隐私。
    • 应对:入库前强制脱敏(规则+模型双引擎),每批次抽检;对涉及健康隐私的片段进行最小化截取与上下文重写(不影响实体类别判定)。
  • 数据分布失衡与覆盖不足

    • 风险:头部机构/疾病过多,长尾实体不足。
    • 应对:分层采样与配额控制;术语驱动的主动补样;难例与长尾加权。
  • 标注一致性与质量波动

    • 风险:嵌套/跨句规则复杂、边界歧义引发一致性下降。
    • 应对:强化试标与每周复盘;难例双标与强制仲裁;将高频混淆加入规则卡片;跟踪IAA并对低于阈值的标注员定向回训。
  • 进度与资源

    • 风险:数据源不稳定、对话授权延迟、工具链故障。
    • 应对:来源多样化与缓存;对话渠道并行推进与合成备用集;工具A/B冗余(INCEpTION+Label Studio);每日增量备份与回滚点。
  • 模型与数据共演风险

    • 风险:预标注器偏差放大、概念漂移。
    • 应对:预标注仅作参照,计入“机器影响率”指标;月度主动学习引入新分布样本;保持独立验证集不被污染。
  • 合规审计与可追溯性

    • 风险:难以举证合规链路。
    • 应对:全链路日志与版本化(来源→脱敏→预标→人工标注→质检→交付),保存至少2年;建立数据处置SOP与应急下线机制。

本方案以“合规优先、质量优先、可迭代演进”为原则,兼顾冷启动与持续滚动需求,通过术语驱动采样、难例强化与主动学习闭环,确保高精度NER在医疗、金融与公共服务三域快速落地并稳定提升。

数据需求分析

  • 任务目标与数据形态
    • 构建中文民商事法律检索问答数据集(研究级),用于训练与评估RAG召回与重排序。
    • 数据单元:问-段-答三元组;每问关联10个候选段(1正、9负)。正段需标注证据句与引用条款。
    • 规模:8万问答组;证据句标注覆盖率≥95%。
  • 场景与主题范围(高频民商事)
    • 合同(订立效力、违约责任、解除/变更、格式条款)
    • 债权债务(借贷、担保/保证、利率、逾期、抵销)
    • 物权(所有权、共有、抵押、质押、占有返还)
    • 人格权与侵权(名誉、隐私、网络侵权、产品责任、医疗损害)
    • 劳动与用工(入职/辞退、加班工资、竞业限制、工伤)
    • 婚姻家庭与继承(共同财产、彩礼、离婚协议效力、遗嘱继承)
    • 商事与公司(股东权利、出资、利润分配、股权转让、公司担保)
    • 知识产权(著作权、商标、专利民事纠纷)
    • 诉讼时效与程序(时效起算/中断/延长、管辖、送达)
  • 覆盖的复杂性维度
    • 同义/近义提问:口语化、书面化、规范术语与民间表达互转
    • 跨条款引用:主条+配套司法解释+指导性案例要旨
    • 时效差异:新旧法/司法解释版本差异、时点适用
    • 地域适用:地方性法规/司法政策差异、管辖与区域规定
  • 数据来源与合法合规前提
    • 公开法律法规与司法解释:全国人大法律法规数据库、最高法/最高检公告、各省市人大/司法厅官网
    • 公开判决书与指导性案例:经授权的法律数据库(如法信、北大法宝、无讼Open、裁判文书公开渠道在合规范围内),遵守访问条款与robots规范
    • 普法文章:司法部、法院/检察院、政府官网发布的普法材料
    • 脱敏咨询摘要:与持牌平台签约获取、或自有渠道;确保用户授权与深度去标识化
  • 数据结构与元数据规范
    • question_id、question_text、question_type(主题+意图)、region/applicable_area、time_context(事件发生时间/法版本)
    • answer_text(规范化结论+条件)、cited_articles[{law_name, article, clause, issuer, effective_date, version_id}]
    • passages[10]:text、is_positive、source_type(statute/judgment/popularization/consultation)、doc_id、publish_date、region、law_version_id、hard_negative_type(semantic/time/regional/clause)
    • evidence_sentences:正段内句级索引与字符span,支持多句;support_level(strict/partial)
    • 审核字段:annotator_id、reviewer_id、adjudication_status、IAA_batch_id
  • 数据分配与拆分
    • 主题均衡分布(每主题≥8%占比,防止数据偏斜)
    • 训练/验证/测试:70%/15%/15%,按案件与法规来源分层抽样,防止文档泄漏
    • 难度标注:基础/中等/困难(含跨条款、近似误导、时效/地域冲突)

采集方法设计

  • 数据获取渠道与策略(合规优先)
    1. 法律法规与司法解释
      • 来源:全国人大法律法规数据库、最高法公报、各省人大官网、司法部/司法厅官网
      • 方式:API/批量下载(如提供)、HTML抓取须遵守robots与版权声明;保留来源链接与版本信息
      • 标准化:解析法典层级(编/章/节/条/款/项/目)、生效/废止时间、修订历史;生成version_id与有效期区间
    2. 判决书与案例
      • 来源:经授权的商用数据库(法信/北大法宝/无讼等)或公开平台允许的范围
      • 方式:使用平台提供的导出/API;避免绕过登录、验证码等技术保护
      • 清洗:去重(标题+案号+法院+日期指纹)、结构化(案由、争议焦点、裁判要旨、法律依据)
    3. 普法文章
      • 来源:政府/法院/检察院官方站点与微信公众号文章(仅官方),保留出处
      • 清洗:去除宣传性语句、保留规范性解释与示例;标注文体为popularization
    4. 脱敏咨询摘要
      • 来源:签约平台或自有数据;获取书面授权与数据使用协议
      • 去标识化:脱敏姓名、电话、地址、证件号、车牌、账号、具体公司名等;保留案件事实要素(时间、金额区间、关系类型)以便法律适用
  • 文档处理与段落构造
    • 文本抽取:PDF/HTML转文本(优先结构化源);OCR仅用于扫描件,双通道校对(通用OCR+法律专用词典)
    • 分段策略:基于语义/结构的段落切分,目标每段200–500字;法条按条/款为段;判决按“争议焦点/裁判要点”优先
    • 规范化:繁简转换统一为简体,统一标点与全角半角;日期与金额标准化(YYYY-MM-DD、范围化金额)
  • 问题与答案生成
    • 问题来源:从判决“争议焦点”、普法“常见问答”、咨询摘要“核心提问”抽取基问。
    • 同义化生成:术语替换(担保/保证、欠款/借款)、口语化转写、书面化规范;LLM辅助生成后由法律审核员100%复核。
    • 跨条款与版本:为每问明确时间上下文与地域适用,自动匹配当时有效法条与可能的旧条;收集配套司法解释/指导案例要旨形成引用链。
    • 答案生成:基于正段与引用条款生成“结论+条件+例外”的规范化短答(150–300字),避免个案建议语气;人工审核确保与证据句一致。
  • 候选段检索与硬负样本生成
    • 初检索:BM25(ElasticSearch)+多语义向量(BGE/SimCSE中文法律领域微调)混合召回,Top50候选
    • 正段选择:包含明确适用结论的段落;要求至少1句可直接支持答案
    • 负样本构造(9条/问,优先“难负样本”)
      • 语义近似负:高相似但结论不同或条件不同
      • 条款混淆负:同法不同条/款,措辞相近但适用要件不符
      • 版本时效负:旧法/旧解释与新法冲突(明确标注version_mismatch)
      • 地域适用负:他省/市地方性规定与题目地域不符
      • 程序/实体错位负:程序性条款回应实体问题
      • 普法泛化负:普法段落未提供可验证的规范结论
    • 近似段:在正段所在文档中选取与证据句相邻但不包含关键要件的段落,构成“近似但不支持”的困难负

质量控制策略

  • 验收指标
    • 证据句覆盖率≥95%(正段中至少1句标注为支持句)
    • 引用条款准确率≥97%(法名、条、款、版本完整)
    • 负样本“困难度”占比≥70%(基于相似度阈值与人工评估)
    • IAA(双标注一致性)Cohen’s kappa≥0.80(证据句与条款选择)
  • 自动校验
    • 法规版本一致性检查:question.time_context与cited_articles.effective_date是否匹配;冲突自动告警
    • 地域一致性检查:question.region与passage.region/地方性法规来源匹配
    • 文本质量:乱码/OCR错误率检测(语言模型困惑度、术语词典比对),错误段落自动回流修复
    • 去重:问、答、正段三元组语义哈希;防止轻微改写重复
  • 人工质检
    • 双人标注+仲裁:每条三元组由两名标注员独立完成,冲突由资深法律审核员仲裁
    • 抽检与回归测试:每批次10%抽检,缺陷类型(条款错引、支持句错位、负样本过易)复盘与指南更新
    • 主题均衡监控:仪表盘监控主题分布,自动补采偏少主题
  • 安全与隐私
    • PII检测器:规则(身份证、手机号、银行卡、地址模式)+模型(中文PII分类器)双通道,命中即脱敏或剔除
    • 敏感实体白名单/黑名单:公司名与自然人名分类处理;自然人名一律遮蔽,公司名按合规保留/泛化
    • 访问与日志:数据访问分级、操作审计、导出白名单;原始数据与清洗数据分库隔离

标注流程规范

  • 角色分工
    • 初标注员(法律背景):选正段、标证据句、初步条款引用、生成答案
    • 复核员(资深法务):复核证据句与条款、校正答案、确认负样本困难度
    • 质控专员:一致性评估、抽检与错误回流
  • 标注准则
    • 证据句(sentence-level)
      • 至少1句直接支持答案核心结论;可标注2–3句覆盖要件与例外
      • 句粒度:以中文句号/分号/项序为边界;必要时使用子句span
      • 支持等级:strict(直接命题)、partial(需与其他句合并方成立);strict占比≥80%
    • 引用条款
      • 主条款必标;涉及司法解释或指导性案例的,要补充二级引用
      • 记录版本信息(effective_date、issuer、version_id);旧法引用需说明“历史版本”
    • 答案撰写
      • 模板:结论(是/否+条件)+法律依据(条款简述)+注意事项(时效/地域/例外)
      • 禁止个案建议与推断事实;语言规范、避免口语评价
    • 负样本确认
      • 标注hard_negative_type;确保与问题高相关但不支持答案
      • 近似段需说明“缺失要件/地域不符/版本不符”等原因
  • 工具与数据格式
    • 工具:Label Studio/Doccano(句级span+多标签支持)、内嵌法规版本面板
    • 输出格式:JSONL,每条含question、answer、passages[10]、evidence_spans、cited_articles、metadata
    • 追踪字段:annotator_id、reviewer_id、revision_history、quality_flags
  • 流程与SOP
    1. 机器候选生成(Top50)→ 初标选正段+标证据句+答复草案 → 复核调整 → 负样本确认 → 质检抽检 → 入库
    2. 冲突仲裁:两人标注不一致时,复核员在48小时内裁决并记录原因标签
    3. 回流与迭代:缺陷类型每周汇总,更新标注手册与负样本生成规则

实施时间规划

  • 人员与产能假设
    • 标注团队:30名(含20初标、8复核、2质控),法律背景优先
    • 有效工时:6小时/日/人;平均每问全流程约6分钟
    • 日产能:约30×6小时×10问/小时≈1,800问/日(含复核并行)
  • 时间线(12–14周)
    1. 周1–2:需求细化、主题taxonomy确定、合规审查与数据源签约;搭建抓取/解析流水线与索引
    2. 周3–4:语料清洗、段落切分、法规版本库构建;召回与重排序初版(BM25+向量)
    3. 周5–10:批量生成与标注(滚动迭代),每周小结与手册更新;达成证据句覆盖≥90%
    4. 周8–11:难负样本加强、跨条款与时效/地域样本补齐;覆盖提升至≥95%
    5. 周11–12:全面质检、IAA评估、错误回流、数据分层拆分(train/dev/test)
    6. 周13–14:最终验收与文档发布,留出缓冲处理合规与撤稿项
  • 里程碑与验收
    • M1(周4):索引可用,法规版本库上线
    • M2(周8):完成4万问,证据句覆盖≥90%,IAA≥0.75
    • M3(周12):完成8万问,证据句覆盖≥95%,IAA≥0.80,负样本困难度达标
    • M4(周14):数据卡、数据字典、变更日志与合规报告交付

风险评估与应对

  • 法律与合规风险
    • 版权/许可:判决书与商用数据库版权不明时,停止采集;仅使用授权接口与允许范围;保留协议与访问日志
    • 隐私泄露:咨询摘要必须有用户授权与去标识化;自动+人工双重PII审查;敏感命中即剔除
    • 机器人与访问限制:严格遵守robots.txt与站点条款;设置合理频率与缓存;拒绝绕过技术保护
  • 数据质量风险
    • 法规版本错配:建立版本库与时间匹配器;发现错配自动告警与回流
    • 错引/误引:引用工具内置法条检索与校验;抽检纠错与黑榜机制(高错误率标注员暂缓)
    • 负样本过易:相似度阈值动态调参;人工校准困难度分布;引入跨版本/地域混淆样本
  • 偏差与覆盖风险
    • 主题偏斜:仪表盘监控+欠采主题定向补充(劳动、知识产权等)
    • 文体偏差:确保四来源比例均衡,避免判决风格压倒性占比
  • 工程与进度风险
    • OCR/解析失败:优先结构化源;对难件建立人工处理通道
    • 产能不足:增补外包标注员(合规培训)、延长工作日或延长周期
  • LLM使用风险
    • 同义问生成与答案草案需100%人工审核,禁止直接入库;建立“机器建议”标记与责任边界
    • 防止模型幻觉:答案必须有证据句支撑与条款引用,否则不合格

以上方案针对中文民商事高频问题的RAG训练需求,覆盖数据来源合规、候选段严格构造、证据与条款精确标注、难负样本生成与全面质控,确保达到研究级质量与规模目标。

数据需求分析

  • 任务与标签层级
    • 单位:评论为基本样本单元,句子为极性标注单元;评论内对每个方面-观点表达抽取三元组。
    • 标签:
      • 句级极性:Positive / Negative / Neutral(混合句按主导极性标注;无法判定则Neutral)
      • 三元组:<Aspect_term_or_category, Opinion_expression_span, Sentiment_polarity>
      • 辅助标记:Negation(含否定触发词及作用域)、Sarcasm(讽刺/反语)、Code-switch(跨语种混杂)
    • 词表映射:品牌与品类映射到统一知识库ID(如 Wikidata QID、GS1 GPC/Google Product Taxonomy 节点)
  • 语种与规模
    • 总量:200,000 条评论,中文/英文/西语三语。
    • 建议语种配比(可在±5%内调整以满足类目覆盖):EN 80,000;ZH 70,000;ES 50,000。
  • 长短比例与长度定义
    • 目标:短:长 = 8:2。
    • 阈值(用于采样与质检,不做强规范化):
      • EN/ES:短 ≤ 30 词;长 > 30 词
      • ZH:短 ≤ 60 字;长 > 60 字
  • 来源与域外迁移
    • 渠道配比:电商平台评论约 70%(结构化、含品牌/类目信息),社媒短评约 30%(更强口语化与噪声,利于域外迁移)。
    • 预留专用域外测试集(约10,000条,三语均衡,社媒占比高)用于迁移评估。
  • 类目覆盖
    • 覆盖前50个电商核心品类;每类建议≥2,000 条评论,Top10 热门类目适度增采至 5,000–6,000 条;跨语种均衡。
    • 类目体系:以 Google Product Taxonomy/GS1 GPC 为主干,建立三语对齐映射。
  • 讽刺样本
    • 目标:5%(10,000 条),按语种与渠道比例分层采样与定向召回。
  • 质量等级
    • 标准级:双标注+抽检仲裁;Cohen’s kappa ≥ 0.70(句极性),≥ 0.65(三元组是否一致);覆盖度、长度分布和类目配额达标。
  • 数据发布与训练支持
    • 支持增量训练:版本化快照(v0.1、v0.2…),每版新增10–30k;保留审计与变更日志。
    • 支持跨域评估:单独维护 OOD 测试集与时间切片测试集。

采集方法设计

  • 合规数据来源与获取策略(仅使用合规渠道,遵守各平台ToS与隐私法规)
    • 电商平台评论
      • 授权与合作:与平台或合规数据服务商签约获取评论与元数据(品牌、品类、上架信息)。
      • 开放数据集:Multilingual Amazon Reviews Corpus (MARC)、Amazon Reviews (AWS Open Data) 等作为冷启动与补充(注意不同数据集许可条款)。
    • 社媒短评(公开可访问、经官方API或签约)
      • X/Twitter API(含Academic/Enterprise)基于关键词、品牌/类目、话题标签检索;遵守内容再分发规则(必要时仅存储ID与特征向量,内部再水合)。
      • Reddit API(产品相关子版块)、YouTube Data API(测评视频评论),地区与语言过滤。
      • 中文社媒:通过官方开放接口或经授权数据提供方(遵守平台ToS),按话题与品牌检索。
  • 采样与召回策略
    • 分层配额:按语种×渠道(平台/社媒)×类目三维分层,动态监控配额完成度。
    • 长度控制:抓取后按阈值打标长短,欠配方向定向增采。
    • 讽刺定向召回:
      • 英文:#sarcasm、#irony、“yeah right”“as if”“great…” + 🙄/🙃 等表情
      • 西语:#sarcasmo #ironía,“sí claro”“qué bien…”反讽上下文
      • 中文:“真香”(按上下文判定)、“呵呵”“笑死”“狗头/🤡/🙂”、引号反语等
      • 设计正负种子词结合情境共现规则与弱监督模型预筛。
    • 口语化与拼写变体保留:采集保留原文,不进行拼写纠正;仅做轻清洗(不可见字符;统一换行编码)。
    • 品牌与品类覆盖:
      • 品牌词典:Wikidata 品牌实体 + GS1/OPD/企业白名单,含别名、音译、大小写/空格/符号变体。
      • 类目:从平台分类/Google Taxonomy抽取50类,手工审校三语映射。
    • 域外迁移支持:社媒与非头部平台、冷门品牌、跨地区方言/俚语样本定额≥15%。
  • 处理与存储流水线
    • 合规模块:ToS校验、采集来源登记、许可证元数据。
    • 语言与编码识别:fastText LID + 规则修正(检测中英/英西混杂);
    • 去重:URL/商品ID维度硬去重 + 文本MinHash(Jaccard 0.85阈值)近重复清理。
    • 句子切分:多语句子边界器(考虑中文无空格、Emoji与URL);保留字符偏移。
    • 轻匿名化:移除手机号/邮箱/订单号/地理精确坐标等PII;品牌/品名白名单保护不过滤。
    • 数据结构(JSONL建议):
      • id, lang, source, timestamp, product_id(optional), category_id, brand_id
      • text_raw, text_lightclean, length_class, code_switch_flag
      • pretag: brand_hits[], category_candidates[], sarcasm_candidate(bool), negation_cues[]
      • ann: sentences[], sentence_polarity[], triplets[ {aspect_span, aspect_cat_id, opinion_span, polarity, negation_scope[], sarcasm_flag} ]
      • legal: license, tos_ref, user_id_hash(optional), pii_check_pass

质量控制策略

  • 自动化质检
    • 语言一致性:采样≥98%语种判定正确;混杂样本单独标识,不强行剔除。
    • 长短配额:每日/每周仪表盘监控,偏差>2个百分点自动触发增采。
    • 去重率:总体重复率<1%;近重复报警清单复核。
    • 品牌/类目覆盖:按三语统计Top-N品牌/类目分布,低于阈值自动提示采样器。
    • 讽刺占比:保持在5%±0.5%,不足则扩大定向召回规则。
  • 标注一致性
    • 预标金集:每语种各500条跨类目多现象样本作为培训与日检集。
    • IAA(每周):句极性 Cohen’s kappa ≥0.70;三元组“严格匹配”(span±2字符、极性一致)≥0.65;若未达标,组织共识会与指引修订。
    • 重点难例二次审校:含讽刺/否定/多方面/跨语种混杂样本,抽样20%仲裁。
  • 规则与模型联动
    • 弱监督预标:否定触发词表(en: not/no/never/without; es: no/nunca/jamás; zh: 不/没/无/非)、反语标记词+表情清单;作为标注建议,不做硬约束。
    • 品牌/类目映射校验:词表匹配 + 模糊匹配(Levenshtein ≤2)+ Wikidata同义对齐,人工复核异常对齐。
  • 数据安全与合规
    • PII检测:NER(人名/地名/地址/邮箱/电话/订单号样式)+正则;人工抽检1%。
    • 访问控制:分环境权限,原文与标注分层访问;日志留存与溯源。

标注流程规范

  • 人员与工具
    • 工具:支持多层标注与span偏移(如 Label Studio/LightTag/Prodigy);内置词表联想与QA检查。
    • 角色:标注员A/B双人独立标注;质检员C仲裁;语言专家每周复盘。
  • 步骤与准则
    1. 句子极性
      • 单句单标签:Positive/Negative/Neutral。出现正负并存,取主导情感(依据语义强度与篇幅)。
      • 否定:若否定改变极性,按反转后极性标注,并记录negation_cues与scope。
      • 讽刺:若字面与语境矛盾,以语境真实极性为准,sarcasm_flag=True。
    2. 三元组抽取
      • Aspect_term_or_category:
        • 明示方面:产品属性词,如“电池”“做工”“物流”。
        • 隐式方面:无明确词但可归属品类常见方面(如“太贵了”→价格),此时填写aspect_cat_id并留空term或填抽象词位。
      • Opinion_expression_span:紧邻评价性词/短语(含表情符号、叠词、语气词);保留原文与偏移。
      • Sentiment_polarity:与句极性可不同(句内不同方面可不同极性)。
      • 多三元组:同一句可有多个不同方面与观点。
      • 强度(可选):-2/-1/0/+1/+2 用于后续加权训练(标准级可选做)。
    3. 否定与作用域
      • 标注否定触发词与影响的opinion/方面范围;多重否定按语义解析后确定最终极性。
    4. 讽刺判定
      • 以语境为准:夸张、反语、引号反讽、与事实对比、表情/话题提示;若无足够证据则不标讽刺。
    5. 品牌/品类映射
      • 先从文本匹配品牌/品类词表,若存在同名/歧义,结合商品元数据或上文上下文判定;无法确定则标UNK并记录候选。
    6. 口语化与拼写
      • 保留全部变体(如“amazzzing”“不咋地”“buenísimoooo”);不做纠错,必要时在注释栏说明含义。
  • 质量控制节点
    • 日常抽检:每人每日5%样本复核;错因分类(指南不清/疲劳/语言难点)闭环改进。
    • 复杂样本库:讽刺/否定/多方面/俚语样本沉淀为训练题,周更。

实施时间规划

  • 周期与里程碑(约12–14周)
    • 第1–2周:需求冻结与资源准备
      • 确认50类目清单与三语映射;签约数据源/供应商;工具与词表初始化;金标准集构建(各语种500条)。
    • 第3–4周:试采与试标
      • 试采各渠道各语种各≥5,000条;指引培训与迭代;IAA达标后规模化推进。
    • 第5–10周:规模化采集与标注
      • 按配额滚动采样与标注;每周产出20–30k条;自动化质检+抽检仲裁;讽刺/类目/长度配额动态纠偏。
    • 第11周:补齐与平衡
      • 针对短板类目/语种/讽刺占比定向补采;完善品牌别名与长尾覆盖。
    • 第12周:终检与交付
      • 全量一致性与覆盖度审计;生成数据卡与数据词典;交付v1.0。
    • 第13–14周(可选):v1.1增量包与OOD测试集扩充。
  • 人力与产能(标准质量估算)
    • 标注效率(80%短、20%长;含三元组):短60条/时,长30条/时。
    • 工时:短160k/60≈2,667小时;长40k/30≈1,333小时;质检与仲裁20%≈800小时;合计≈4,800小时。
    • 团队配置:20名标注员+3名质检+1名语言专家,周产能≈600小时,8周可完成主体标注。

风险评估与应对

  • 合规与版权
    • 风险:平台ToS限制、再分发限制、PII泄露。
    • 应对:仅使用官方API/签约数据;必要时只存储内容ID+注释、内部再水合;严格PII脱敏与访问控制;保留许可与溯源记录。
  • 分布与覆盖偏差
    • 风险:热门类目与头部品牌过度代表;讽刺/长文本不足。
    • 应对:分层配额+仪表盘预警;定向召回与配额锁定;对长文本与讽刺样本设置独立采样通道。
  • 语言与口语噪声
    • 风险:拼写变体、表情、方言造成标注不一致。
    • 应对:扩充多语俚语/表情释义表;跨语培训与难例库;允许注释解释,不做强规范化。
  • 三元组粒度不一致
    • 风险:方面粒度参差(属性 vs 品类级)。
    • 应对:提供方面层级表与判定优先级(优先属性,其次品类);严格span与类别校验规则。
  • 讽刺与否定歧义
    • 风险:IAA降低。
    • 应对:提供多语言讽刺典型模式库;强制困难样本二次审;定期共识会修订指南。
  • 去重与泄漏
    • 风险:同一评论跨渠道重复;训练-测试穿越。
    • 应对:多键合并与MinHash去重;按时间与渠道分层切分,冻结测试集。
  • 增量与版本漂移
    • 风险:后续增量分布偏移影响模型稳定。
    • 应对:版本化数据卡;保持核心配额不变;提供时间切片评估集与漂移监控。

附:交付物清单

  • 规范文档:标注指南(多语)、方面层级表与品牌词表(含别名)、否定/讽刺触发词清单。
  • 数据资产:JSONL全量标注数据、数据卡(来源/配额/质量指标/已知偏差)、覆盖度报告与IAA报告、版本变更日志。
  • 工具与脚本:采集与清洗脚本、去重与语言检测、质量仪表盘、数据验证Schema。

示例详情

📖 如何使用

模式 1:即插即用(手动档)
直接复制参数化模版。手动修改 {{变量}} 即可快速发起对话,适合对结果有精准预期的单次任务。
加载中...
💬 模式 2:沉浸式引导(交互档)
一键转化为交互式脚本。AI 将化身专业面试官或顾问,主动询问并引导您提供关键信息,最终合成高度定制化的专业结果。
转为交互式
🚀 模式 3:原生指令自动化(智能档)
无需切换,输入 / 唤醒 8000+ 专家级提示词。 插件将全站提示词库深度集成于 Chat 输入框。基于当前对话语境,系统智能推荐最契合的 Prompt 并自动完成参数化,让海量资源触手可及,从此彻底告别“手动搬运”。
安装插件
🔌 发布为 API 接口
将 Prompt 接入自动化工作流,核心利用平台批量评价反馈引擎,实现"采集-评价-自动优化"的闭环。通过 RESTful 接口动态注入变量,让程序在批量任务中自动迭代出更高质量的提示词方案,实现 Prompt 的自我进化。
发布 API
🤖 发布为 Agent 应用
以此提示词为核心生成独立 Agent 应用,内嵌相关工具(图片生成、参数优化等),提供完整解决方案。
创建 Agent

🕒 版本历史

当前版本
v2.1 2024-01-15
优化输出结构,增强情节连贯性
  • ✨ 新增章节节奏控制参数
  • 🔧 优化人物关系描述逻辑
  • 📝 改进主题深化引导语
  • 🎯 增强情节转折点设计
v2.0 2023-12-20
重构提示词架构,提升生成质量
  • 🚀 全新的提示词结构设计
  • 📊 增加输出格式化选项
  • 💡 优化角色塑造引导
v1.5 2023-11-10
修复已知问题,提升稳定性
  • 🐛 修复长文本处理bug
  • ⚡ 提升响应速度
v1.0 2023-10-01
首次发布
  • 🎉 初始版本上线
COMING SOON
版本历史追踪,即将启航
记录每一次提示词的进化与升级,敬请期待。

💬 用户评价

4.8
⭐⭐⭐⭐⭐
基于 28 条评价
5星
85%
4星
12%
3星
3%
👤
电商运营 - 张先生
⭐⭐⭐⭐⭐ 2025-01-15
双十一用这个提示词生成了20多张海报,效果非常好!点击率提升了35%,节省了大量设计时间。参数调整很灵活,能快速适配不同节日。
效果好 节省时间
👤
品牌设计师 - 李女士
⭐⭐⭐⭐⭐ 2025-01-10
作为设计师,这个提示词帮我快速生成创意方向,大大提升了工作效率。生成的海报氛围感很强,稍作调整就能直接使用。
创意好 专业
COMING SOON
用户评价与反馈系统,即将上线
倾听真实反馈,在这里留下您的使用心得,敬请期待。

试用后开通会员即可无限使用

加载中...