¥
立即购买

多层数据整理

510 浏览
49 试用
12 购买
Nov 24, 2025更新

通过专家视角,高效整理数据集并生成多层级分类结构,支持清晰可读的层次化呈现。适用于数据分析和管理任务,确保分类标准统一、逻辑直观,便于后续数据处理与可视化分析。

引言与重要性 在电商多店铺场景中,订单明细往往存在类目混用、SKU重复、品牌别名、跨店合并等问题。建立统一口径与层级化分类不仅能提高数据可用性与分析效率,还能显著减少后续报表、模型与运营策略的偏差与重复工作。本次任务旨在以四层分类(L1-L4)为主轴,配合地区、时间、渠道等横向维度,重建清晰、逻辑直观、可复制的分类体系与统计框架。

分步骤分析与分类流程

  1. 主键与去重
  • 建立统一主键:GlobalOrderID(跨店唯一订单ID) + SKU_Master(主SKU) + LineNo(行号)作为订单行主键。
  • 去重规则:相同(GlobalOrderID, SKU_Master, LineNo)保留最新履约状态;若LineNo缺失,用(ShopID, OrderID, SKU_Master, Qty, Amount)指纹去重。
  • 交叉校验:对SKU跨店映射,优先品牌+型号+规格的主档字段;无法匹配标记Unknown-UNK。
  1. 品牌与别名合并
  • 构建品牌主档Brand_Master(中文主名+规范缩写),基于同义词字典将别名统一归并。
  • 品类与用途/材质提取:从商品名、初始标签与二级类目中抽取关键词,按规则表映射到标准类目。
  1. 四层分类重建
  • L1业务域:商品/用户/交易/履约。
  • L2商品维度:品类/用途/材质(标准三轴)。
  • L3品类细分与规格:子品类、型号/尺码/容量/颜色等。
  • L4SKU映射:统一到SKU_Master(含品牌主档)。
  • 非商品域的L2-L4:保持四层结构一致性(详见树状展示)。
  1. 横向维度标准化
  • 地区:省/市标准行政名称与缩写;地名别称合并。
  • 时间:月(2024M01-2024M09)、季度(2024Q1-Q3),以支付时间/成交时间为准。
  • 渠道:统一为搜索-SEA、社交-SOC、直播-LIVE。
  1. 缺失值与优惠聚合
  • 缺失统一标记Unknown-UNK。
  • 优惠类型聚合:按类型(满减/折扣/券/满赠/包邮/无优惠)汇总,不拆分至单券ID,便于横向对比。
  1. 质检与一致性
  • 一致性校验:同SKU不同店铺类目是否一致;同一品牌不同别名是否已合并。
  • 冲突解决:若品类存在多解,以商品用途优先,其次材质,最后初始标签;保留冲突日志。

如何识别并建立主分类与子分类

  • 识别策略:基于词典规则(商品名、二级类目、品牌型号),按“用途>品类>材质”的优先级映射;难例通过人工白名单。
  • 子分类构建:在品类下细分“子品类>规格属性(尺码/容量/颜色/型号/材质等级)”,规格值标准化。
  • SKU映射:SKU原始编码→SKU_Master,通过品牌主档+型号+关键规格的唯一组合生成。

结果的清晰层级呈现指导

  • 使用中文主名+规范缩写,所有层级路径可复制;节点命名保持“域-缩写/类-缩写”的一致格式。
  • 每个节点在统计表中均可作为切片维度;横向维度(地区/时间/渠道)与四层分类可笛卡尔组合。

有效标记建议

  • Unknown统一为Unknown-UNK,避免多种“无/空/N/A”的混用。
  • 品牌缩写建议3-5字符(如苹果-APL、华为-HWV)。
  • 渠道缩写固定为SEA/SOC/LIVE;省份缩写如广东-GD、江苏-JS。
  • 优惠类型缩写统一:满减-MJ,折扣-PCT,优惠券-COUP,满赠-GIFT,包邮-FS,无优惠-NODISC。

数据整理与优化建议

  • 建立规则版本化与变更日志,便于回溯与审计。
  • 引入数据质量监控:类目覆盖率、Unknown占比、别名归并命中率。
  • 每月复盘字典与新增SKU/品牌,避免规则漂移。
  • 输出标准化标签列(Category_Path, SKU_Label, User_Segment, Deal_Channel),作为BI与建模统一输入。

—— 以下为结构化输出(树状展示、汇总模板、命名规范与字典、可复制清单与示例标签) ——

L1 业务域

商品-GDS

  • L2 品类/用途/材质
    • 品类示例
      • 服饰-APP
      • 美妆-BEA
      • 家居-HOME
      • 食品-FNB
      • 数码-ELC
      • 母婴-MNB
      • 户外-OUT
      • 个护-PERS
    • 用途示例
      • 运动-SPORT
      • 清洁-CLN
      • 收纳-ORG
      • 护肤-SKN
      • 烹饪-COOK
    • 材质示例
      • 棉-CTN
      • 真皮-LTH
      • 不锈钢-SS
      • 玻璃-GLS
      • 食品级硅胶-SIL
  • L3 品类细分与规格(举例)
    • 服饰-APP
      • 上衣 > T恤/衬衫/卫衣
      • 下装 > 裤子/裙装
      • 规格:尺码(S/M/L/XL)、颜色(黑/白/蓝)、袖长(短/长)、材质(棉-CTN/涤纶-PES)
    • 美妆-BEA
      • 护肤 > 面霜/精华/洁面
      • 彩妆 > 口红/粉底/眼影
      • 规格:容量(30ml/50ml)、肤质(干/油/敏)、功效(保湿/抗氧)
    • 家居-HOME
      • 收纳 > 置物架/收纳盒
      • 厨具 > 锅/刀具/杯
      • 规格:尺寸(小/中/大)、材质(不锈钢-SS/玻璃-GLS)
    • 数码-ELC
      • 手机/配件 > 手机/充电器/耳机
      • 规格:型号、内存(64/128/256G)、颜色
  • L4 SKU映射
    • SKU_Master:品牌主档 + 型号 + 关键规格(示例:华为-HWV P60 256G 黑)
    • 关联:Brand_Master、Model、Spec_Key、原始SKU、店铺SKU别名

用户-CST

  • L2 用户维度(类型/RFM)
    • 类型:新客-NEW / 老客-OLD
    • RFM分层:高价值-HV / 中价值-MV / 低价值-LV / 流失风险-LR
  • L3 细分与规格
    • RFM评分桶:R(1-5)×F(1-5)×M(1-5) → 9或25格箱
    • 行为规格:近30天购买次数、客单价区间、近90天回购
  • L4 用户ID映射
    • CustomerID_Mask(脱敏ID) → 用户画像标签集

交易-TRX

  • L2 渠道
    • 搜索-SEA
    • 社交-SOC
    • 直播-LIVE
  • L3 优惠类型
    • 满减-MJ / 折扣-PCT / 优惠券-COUP / 满赠-GIFT / 包邮-FS / 无优惠-NODISC
  • L4 订单ID映射
    • GlobalOrderID → 订单行(含金额、优惠、数量、支付时间)

履约-FUL

  • L2 发货时效
    • 次日达-NDD / 48小时-48H / 72小时-72H / 超时-OT
  • L3 退换类型
    • 退货-RET / 换货-EXC / 拒收-REF / 无退换-NORET
  • L4 履约单映射
    • FulfillmentID / Warehouse / Carrier → 订单行

横向维度

地区-REG

  • 省-PRV:广东-GD / 江苏-JS / 浙江-ZJ / 北京-BJ / 上海-SH / …
  • 市-CTY:广州市 / 深圳市 / 杭州市 / 南京市 / 北京市 / 上海市 / …

时间-TIM

  • 月-MON:2024M01 … 2024M09
  • 季度-QTR:2024Q1 / 2024Q2 / 2024Q3

渠道-CHN

  • 搜索-SEA / 社交-SOC / 直播-LIVE(与交易域保持一致)

汇总统计模板(各节点订单数与GMV)

  • 统计口径
    • Orders:去重后的GlobalOrderID计数(可按订单行或订单头,建议订单头)
    • GMV:成交金额(含优惠后实付或含税前后需明确,建议采用“实付金额”)
    • 维度组合:任意节点路径 × 地区 × 时间 × 渠道
  • 汇总示例(演示用,非真实数据)
    • 节点:商品-GDS > 品类=服饰-APP
      • Orders=12,345 | GMV=¥8,760,000
    • 节点:商品-GDS > 品类=美妆-BEA > 子品类=护肤>面霜
      • Orders=3,210 | GMV=¥2,150,000
    • 节点:交易-TRX > 渠道=直播-LIVE > 优惠=满减-MJ
      • Orders=5,980 | GMV=¥3,420,000
    • 节点:履约-FUL > 时效=超时-OT
      • Orders=450 | GMV=¥310,000
    • 节点:用户-CST > 类型=新客-NEW > RFM=HV
      • Orders=1,120 | GMV=¥890,000
  • 输出格式(推荐)
    • NodePath: L1>…|L2>…|L3>…|L4(optional) | REG>省/市 | TIM>月/季 | CHN>渠道 | Orders= n | GMV= amount

命名规范

  • 节点命名:中文主名-缩写(大写英字母,3-5字符)
  • Unknown:Unknown-UNK
  • 省份缩写:GD/JS/ZJ/BJ/SH/…
  • 渠道缩写:SEA/SOC/LIVE
  • 优惠缩写:MJ/PCT/COUP/GIFT/FS/NODISC
  • 示例:护肤-SKN、运动-SPORT、不锈钢-SS、食品-FNB、家居-HOME

同义词映射字典(示例)

  • 品牌别名
    • 苹果/Apple/apple官方 → 苹果-APL
    • 华为/HUAWEI/华为官方旗舰店 → 华为-HWV
    • 耐克/Nike/NIKE官方 → 耐克-NIKE
    • 阿迪达斯/adidas/ADIDAS → 阿迪达斯-ADI
  • 品类与用途
    • 面霜/保湿霜/乳霜 → 面霜
    • 连衣裙/裙子/女裙 → 连衣裙
    • 手机/智能手机/手机整机 → 手机
    • 收纳盒/整理盒/储物盒 → 收纳盒
    • 清洁/去污/洗涤 → 清洁-CLN
  • 材质
    • 不锈钢/钢/不锈钢材 → 不锈钢-SS
    • 棉/纯棉/全棉 → 棉-CTN
    • 硅胶/食品级硅胶 → 食品级硅胶-SIL
  • 地区
    • 广州/广州市 → 广州市
    • 深圳/深圳市 → 深圳市
  • 渠道
    • 短视频/社交/平台内社交 → 社交-SOC
  • 优惠类型
    • 店铺满减/满减券 → 满减-MJ
    • 直降/限时折扣 → 折扣-PCT
    • 平台券/店铺券 → 优惠券-COUP
    • 买赠/满额赠 → 满赠-GIFT
    • 包邮券/免邮 → 包邮-FS

可复制的层级清单与示例标签

  • 层级清单(示例节点)
    • L1>商品-GDS | L2>品类=服饰-APP | L3>子品类=上衣>T恤 | 规格=短袖/棉-CTN | L4>SKU=耐克-NIKE 训练T 男 S 黑
    • L1>商品-GDS | L2>品类=美妆-BEA | 用途=护肤-SKN | 材质=玻璃-GLS | L3>子品类=面霜 | 规格=50ml/保湿 | L4>SKU=兰蔻-LAN 面霜 50ml
    • L1>交易-TRX | L2>渠道=直播-LIVE | L3>优惠=满减-MJ | L4>订单=GOID123456
    • L1>履约-FUL | L2>时效=48H | L3>退换=退货-RET | L4>履约单=FID98765
    • L1>用户-CST | L2>类型=新客-NEW | RFM=HV | L3>桶=R5F4M5 | L4>UserID=UID_xxx
  • 横向维度示例拼接
    • … | REG>省=广东-GD|市=广州市 | TIM>月=2024M07|季=2024Q3 | CHN=直播-LIVE
  • 输出样式建议
    • 使用“|”分隔,“=”赋值;所有缩写一致;Unknown统一为Unknown-UNK。

计算与落地方法(简述)

  • GMV=SUM(实付金额),按订单头或行一致定义;优惠按类型聚合(不拆券ID)。
  • Orders=COUNT DISTINCT(GlobalOrderID);若需订单行层统计则计数主键行。
  • 构建宽表字段:L1,L2,L3,L4, REG_省,REG_市, MON,QTR, CHN, Orders, GMV, Brand_Master, SKU_Master, Discount_Type。
  • 将“同义词字典/类目规则/品牌主档”三张维表与事实表订单行进行映射生成最终标签列。

如需,我可以将上述结构转换为可执行的SQL/ETL规则草案,并基于您样例数据生成真实的汇总统计。

任务简介与重要性 对2018-2024多学科科研文献语料进行标准化、去重并建立跨领域层级,有助于:

  • 统一术语与版本,降低检索噪音与重复命中;
  • 构建清晰的四层学科-方法-应用树,提升跨域可发现性;
  • 增强多维标签(时间、证据等级、开源状态)可视化分析能力;
  • 为后续自动分类与主题演化分析打下数据治理基础。

分步骤分析与分类流程

  1. 数据接入与模式定义
  • 统一字段:id, 标题, 摘要, 关键词[], 方法, 使用数据集[], 评价指标[], 作者机构, 地区, 语言, PDF结构段落, DOI/期刊信息, arXiv/预印本ID, 代码链接, 版本信息, 时间戳(年/季度)。
  • 建立语言双语字段:title_zh/title_en, abstract_zh/abstract_en;若缺失则机器翻译并标注来源。
  1. 术语与指标标准化
  • 关键词、方法、应用术语映射至规范词表(含中英别名、缩写);统一度量单位与指标缩写(如 BLEU, F1, RMSE, AUC)。
  1. 去重与版本合并
  • 精确匹配:DOI、arXiv ID、一致标题+作者组合。
  • 模糊匹配:归一化标题(去停用词/标点/大小写)、作者列表相似度、摘要指纹(MinHash),阈值≥0.85。
  • 版本策略:保留最新同行评审版为“主版本”,聚合其预印本与迭代链接至同一canonical_id;记录变更日志。
  1. 建立四层分类树
  • 一级:学科域(计算机/材料/生物医药)。
  • 二级:子领域(如 NLP、计算机视觉、储能、蛋白设计)。
  • 三级:方法论(算法/实验/仿真)。
  • 四级:应用场景(任务或具体对象)。
  • 并行维度标签:时间(年>季度)、证据等级、是否开源(代码/数据/模型)、语言。
  1. 自动归类策略
  • 规则优先:基于关键词→子领域→方法→应用的匹配优先级;从PDF结构段落(Methods/Experiments/Results)抽取信号。
  • 模型辅助:多标签文本分类(Fine-tuned transformer)+术语字典;冲突时采用优先域(如图像主导→CV,蛋白结构→生物医药)。
  • 主路径与辅路径:为跨应用论文设定1个主路径+≤2个辅路径,避免重叠与歧义。
  1. 质检与一致性
  • 抽样复核(每类≥5%)、跨语言一致性比对(术语一致率≥95%)、时间与证据等级分布异常检测。
  1. 输出与可检索化
  • 树状编号路径(如 1.1.1.4),附并行标签;导出为可查询索引(Elastic/SQL),支持按路径与标签过滤。

识别并建立主分类与子分类的方法

  • 从标题/摘要/关键词定位核心领域词(如 “Transformer”“DFT”“solid electrolyte”“protein design”)。
  • 从方法段落与评测指标识别方法论层级(算法/实验/仿真)。
  • 从任务词库定位应用场景(如 机器翻译、目标检测、固态电解质、蛋白结构预测)。
  • 证据等级依据研究设计与评测标准(定义见下“证据等级规范”)。

树状编号四层学科层级与示例条目 说明:以下为结构与示例引用条目,用于验证路径与标签设计(并非全量数据)。

1 计算机

1.1 自然语言处理 (NLP)

1.1.1 算法

1.1.1.1 预训练语言模型

  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018) | 路径: 1.1.1.1 | 年:2018Q4 | 证据:B(标准基准GLUE)| 开源:是 | 数据集:BooksCorpus,Wikipedia | 指标:GLUE(F1,ACC)
  • LLaMA: Open and Efficient Foundation Language Models (2023) | 路径: 1.1.1.1 | 年:2023Q1 | 证据:B | 开源:部分 | 数据集:多语料 | 指标:Perplexity, Zero-shot

1.1.1.2 机器翻译

  • MASS: Masked Sequence to Sequence Pre-training for Language Generation (2019) | 路径: 1.1.1.2 | 年:2019Q2 | 证据:B | 开源:是 | 数据集:WMT | 指标:BLEU

1.1.1.3 文本摘要/问答

  • PEGASUS: Pre-training with Extracted Gap-sentences (2020) | 路径: 1.1.1.3 | 年:2020Q1 | 证据:B | 开源:是 | 数据集:XSum,CNN/DailyMail | 指标:ROUGE

1.1.2 实验

1.1.2.1 基准评测

  • SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding (2019) | 路径: 1.1.2.1 | 年:2019Q3 | 证据:B | 开源:是 | 数据集:SuperGLUE | 指标:ACC,F1

1.1.3 仿真

1.1.3.1 生成过程分析

  • Analysis of Transformer Attention Patterns (2021) | 路径: 1.1.3.1 | 年:2021Q2 | 证据:C | 开源:否 | 指标:可视化/定性

1.2 计算机视觉 (CV)

1.2.1 算法

1.2.1.1 图像分类

  • ViT: An Image Is Worth 16x16 Words (2020) | 路径: 1.2.1.1 | 年:2020Q3 | 证据:B | 开源:是 | 数据集:ImageNet | 指标:Top-1 ACC

1.2.1.2 目标检测

  • DETR: End-to-End Object Detection with Transformers (2020) | 路径: 1.2.1.2 | 年:2020Q2 | 证据:B | 开源:是 | 数据集:COCO | 指标:mAP

1.2.1.3 图像分割

  • Segment Anything Model (SAM) (2023) | 路径: 1.2.1.3 | 年:2023Q2 | 证据:B | 开源:是 | 数据集:SA-1B | 指标:mIoU

1.2.2 实验

1.2.2.1 多模态评测

  • CLIP: Connecting Text and Images (2021) | 路径: 1.2.2.1 | 年:2021Q1 | 证据:B | 开源:是 | 数据集:Web-scale | 指标:Zero-shot ACC

1.2.3 仿真

1.2.3.1 合成数据

  • Synthetic Data for Object Detection (2022) | 路径: 1.2.3.1 | 年:2022Q3 | 证据:C | 开源:部分

1.3 机器学习通用

1.3.1 算法

1.3.1.1 强化学习

  • AlphaZero-like Generalized RL (2019) | 路径: 1.3.1.1 | 年:2019Q1 | 证据:B | 开源:部分 | 指标:Elo

1.3.1.2 图神经网络

  • GNN Survey and Applications (2020) | 路径: 1.3.1.2 | 年:2020Q2 | 证据:C | 开源:是

2 材料

2.1 储能

2.1.1 算法

2.1.1.1 材料性质预测(ML)

  • ML-guided Discovery of Solid-state Electrolytes (2020) | 路径: 2.1.1.1 | 年:2020Q3 | 证据:B | 开源:部分 | 数据集:Materials Project | 指标:MAE

2.1.1.2 循环寿命预测

  • Battery Degradation Modeling via GNN (2022) | 路径: 2.1.1.2 | 年:2022Q4 | 证据:B | 开源:是 | 数据集:NASA Battery | 指标:RMSE

2.1.2 实验

2.1.2.1 锂离子正极/固态电解质

  • High-Ni NMC Cathode Cycling Study (2019) | 路径: 2.1.2.1 | 年:2019Q2 | 证据:A | 开源:否 | 指标:容量(mAh/g), 保留率(%)

2.1.3 仿真

2.1.3.1 DFT/MD

  • DFT Screening of SSE Interfaces (2021) | 路径: 2.1.3.1 | 年:2021Q4 | 证据:C | 开源:是 | 指标:界面能(eV), 带隙(eV)

2.2 催化

2.2.1 算法

2.2.1.1 活性位点预测

  • ML for CO2RR Catalyst Design (2020) | 路径: 2.2.1.1 | 年:2020Q2 | 证据:B | 开源:部分 | 指标:选择性(%)

2.2.2 实验

2.2.2.1 电催化/光催化

  • Experimental Screening of HER Catalysts (2018) | 路径: 2.2.2.1 | 年:2018Q3 | 证据:A | 开源:否 | 指标:过电位(mV), Tafel斜率

2.2.3 仿真

2.2.3.1 表面反应机理

  • DFT Mechanistic Study of OER (2019) | 路径: 2.2.3.1 | 年:2019Q4 | 证据:C | 开源:是

2.3 光伏/半导体

2.3.1 算法

2.3.1.1 结构-性能映射

  • ML Prediction for Perovskite Stability (2021) | 路径: 2.3.1.1 | 年:2021Q1 | 证据:B | 开源:是 | 指标:稳定性评分

2.3.2 实验

2.3.2.1 器件制备与测试

  • High-efficiency Perovskite PV (2022) | 路径: 2.3.2.1 | 年:2022Q2 | 证据:A | 开源:否 | 指标:效率(%)

2.3.3 仿真

2.3.3.1 电子结构/载流子输运

  • TCAD-based PV Device Simulation (2020) | 路径: 2.3.3.1 | 年:2020Q4 | 证据:C | 开源:是

3 生物医药

3.1 蛋白设计

3.1.1 算法

3.1.1.1 结构预测

  • AlphaFold2 (2021) | 路径: 3.1.1.1 | 年:2021Q2 | 证据:A(CASP14)| 开源:是 | 指标:GDT_TS, TM-score

3.1.1.2 序列设计

  • ProteinMPNN (2022) | 路径: 3.1.1.2 | 年:2022Q3 | 证据:B | 开源:是 | 指标:设计成功率

3.1.2 实验

3.1.2.1 实验验证与筛选

  • Wet-lab Validation of Designed Proteins (2023) | 路径: 3.1.2.1 | 年:2023Q4 | 证据:A | 开源:部分 | 指标:表达量, 稳定性Tm

3.1.3 仿真

3.1.3.1 分子动力学

  • MD Simulation for Fold Stability (2019) | 路径: 3.1.3.1 | 年:2019Q1 | 证据:C | 开源:是 | 指标:RMSD, RMSF

3.2 药物发现

3.2.1 算法

3.2.1.1 分子生成/对接

  • DiffDock (2022) | 路径: 3.2.1.1 | 年:2022Q2 | 证据:B | 开源:是 | 指标:Top-1对接成功率

3.2.2 实验

3.2.2.1 体外/体内评估

  • Lead Optimization with Assays (2020) | 路径: 3.2.2.1 | 年:2020Q3 | 证据:A | 开源:否 | 指标:IC50, Kd

3.2.3 仿真

3.2.3.1 ADMET预测

  • ML-based ADMET Prediction (2018) | 路径: 3.2.3.1 | 年:2018Q2 | 证据:B | 开源:是 | 指标:AUROC, RMSE

3.3 基因组学/单细胞

3.3.1 算法

3.3.1.1 表达谱分析

  • scRNA-seq Dimensionality Reduction (2020) | 路径: 3.3.1.1 | 年:2020Q1 | 证据:B | 开源:是 | 指标:聚类NMI

3.3.2 实验

3.3.2.1 单细胞测序

  • High-throughput scRNA-seq Pipeline (2019) | 路径: 3.3.2.1 | 年:2019Q4 | 证据:A | 开源:部分

3.3.3 仿真

3.3.3.1 合成细胞系数据

  • Synthetic scRNA-seq Benchmark (2021) | 路径: 3.3.3.1 | 年:2021Q3 | 证据:C | 开源:是

摘要表(样本数、时间分布与开源占比) 说明:下表基于上述示例条目(非全集)以演示统计维度。导入全量数据后按同维度自动生成。

  • 总样本数(示例):24

  • 时间分布(2018-2024)

    • 2018: 3
    • 2019: 4
    • 2020: 6
    • 2021: 5
    • 2022: 4
    • 2023: 2
    • 2024: 0(示例集中未列)
  • 开源占比(代码/数据/模型至少其一):约 70.8%(17/24)

  • 按学科域分布与开源占比(示例)

    • 计算机: 12条 | 开源: 83%
    • 材料: 6条 | 开源: 50%
    • 生物医药: 6条 | 开源: 67%

术语规范与同义词表(节选)

  • 学科域
    • 计算机 = 计算机科学 = CS
    • 材料 = 材料科学 = Materials Science
    • 生物医药 = 生命科学/生物医学 = Biomedicine
  • 子领域
    • NLP = 自然语言处理
    • CV = 计算机视觉
    • 储能 = 能量存储 = Energy Storage
    • 催化 = Catalysis
    • 光伏 = Photovoltaics = PV
    • 蛋白设计 = Protein Design
    • 药物发现 = Drug Discovery
    • 基因组学 = Genomics;单细胞 = Single-cell
  • 方法论
    • 算法 = Algorithmic = Computational method
    • 实验 = Experiment = Wet lab/Testbed/Device
    • 仿真 = Simulation = DFT/MD/TCAD/Agent-based
  • 应用(示例)
    • 机器翻译 = MT = Machine Translation
    • 文本摘要 = Summarization = Abstractive/Extractive
    • 目标检测 = Object Detection
    • 图像分割 = Image Segmentation
    • 固态电解质 = SSE = Solid-state Electrolyte
    • 正极材料 = Cathode
    • 蛋白结构预测 = Protein Structure Prediction
    • 分子对接 = Molecular Docking
    • ADMET 预测 = ADMET Prediction
  • 评价指标与单位
    • NLP/CV: ACC = Accuracy, F1, BLEU, ROUGE, mAP, mIoU, Perplexity
    • 材料: 容量(mAh/g), 保留率(%), 过电位(mV), 带隙(eV), MAE, RMSE
    • 生物医药: GDT_TS, TM-score, RMSD, AUROC, IC50(nM), Kd(μM)
  • 证据等级规范(跨领域适配)
    • A:严格实验/大规模标准竞赛或第三方验证(如 CASP、器件实测、体内/体外实验)。
    • B:规范化基准或强对照实验(公开数据集、标准指标、复现可行)。
    • C:探索性/仿真/理论分析(缺少强对照或仅限模拟)。

示例引用条目与检索路径

  • AlphaFold2 → 路径: 3.1.1.1 | 标签: 年=2021Q2, 证据=A, 开源=是, 语言=英
  • SAM → 路径: 1.2.1.3 | 标签: 年=2023Q2, 证据=B, 开源=是, 语言=英
  • ML-guided SSE → 路径: 2.1.1.1 | 标签: 年=2020Q3, 证据=B, 开源=部分, 语言=英
  • BERT → 路径: 1.1.1.1 | 标签: 年=2018Q4, 证据=B, 开源=是, 语言=英

有效标记分类与子分类的建议

  • 使用规范化路径编码:domain.subdomain.method.application(如 2.1.3.1)。
  • 记录主路径(primary_path)与辅路径(secondary_paths[]),限制辅路径≤2以避免过度重叠。
  • 并行标签采用枚举型:year, quarter ∈ {Q1..Q4};evidence ∈ {A,B,C};open_source ∈ {代码,数据,模型,否}。
  • 双语字段存储规则:canonical_label 英文+中文;检索可按别名匹配。
  • 指标与单位分离存储:metric_name, metric_value, unit;避免字符串混排。
  • 去重追踪:version_chain[] 挂接所有版本ID;保留主版本元数据为可检索入口。

数据整理与优化建议

  • 构建术语字典与映射服务(JSON/SQL表),每季度更新一次;对新增术语执行半自动审核。
  • 建立重复检测流水线(精确+模糊),阈值与规则可配置;记录冲突解决定稿日志。
  • 统一评测指标与单位,提供跨领域标准化视图(如指标名词典与单位换算)。
  • 引入语言一致性校验(双语一致率)与标签覆盖率报告(缺失率上限<5%)。
  • 输出面向检索的索引(如 Elasticsearch)支持路径与标签多条件过滤;同时导出可视化仪表盘(时间/证据/开源分布)。
  • 持续集成:对新增数据运行分类、去重与质检单元测试;维护变更审计与回滚机制。

如需,我可以将上述结构转为可执行的分类字典与SQL/JSON模式,并提供自动化ETL与分类脚本示例。

引言:任务库的结构化与分类是跨团队项目协同的基础。清晰的层级与统一的词典可显著降低沟通成本,提升依赖管理与风险响应效率,并使进度度量与复盘更可控。

数据分析与分类流程(分步骤) 1.字段规范与审计

  • 收敛字段命名与取值:项目名、里程碑、任务说明、负责人角色、优先级、预估工时、截止日期、状态、依赖关系、风险标签、复盘记录。
  • 建立统一枚举:阶段(需求/设计/开发/测试/发布/运维)、优先级(高/中/低)、风险等级(高/中/低)、状态词典(待办/进行中/阻塞/完成)。
  • 同义词映射:如“待处理/未开始”归一为“待办”;“进行/处理中”归一为“进行中”;“卡住/受阻”归一为“阻塞”;“已完成/Done”归一为“完成”。

2.层级搭建与归档

  • 垂直层级:计划集(Program)> 项目(Project)> 工作流(Workstream)> 任务(Task)。
  • 横向维度:阶段、优先级、风险等级。阶段独立于状态(避免将阶段当作状态)。
  • 里程碑归档:项目级里程碑统一命名并归档到项目层,避免分散在任务层。

3.命名模板与ID体系

  • 统一命名模板(任务):[阶段] [工作流] - [动作动词+对象+范围] | P{优先级} | S{状态} | R{风险} | Role{负责人角色} | Est{工时h} | Due{YYYY-MM-DD}
  • ID编码(建议):PGM-PRJ-WS-TSK(如:DX-PORT-DEV-001),保证唯一映射并便于依赖校验。

4.依赖链与一致性校验

  • 依赖方向:通常上游阶段→下游阶段(需求→设计→开发→测试→发布→运维);跨工作流依赖需标注清晰来源。
  • 校验规则:无环(DAG)、无自依赖、同层依赖需明确里程碑或交付物;阻塞必须指向具体上游项。
  • 自动检测:构建邻接表,检测环路与悬空依赖(指向不存在ID)。

5.角色与标签归一

  • 负责人角色词典:PM/PD/Dev/QA/DevOps/Architect/ReleaseMgr/SRE。
  • 风险标签分类:技术/进度/资源/合规/外部依赖等,配合风险等级(高/中/低)与处置策略。

6.呈现与复盘

  • 树状层级用于结构化呈现;简表用于汇总态势;目录式清单用于汇报与复盘。
  • 保持全库统一标准,避免重叠或模糊分类,确保可读性与可追踪性。

统一命名模板与状态词典

  • 任务命名模板:[阶段][工作流]-[动作动词 + 对象 + 范围] | P{高/中/低} | S{待办/进行中/阻塞/完成} | R{高/中/低} | Role{角色} | Est{数字h} | Due{YYYY-MM-DD}
  • 状态词典(标准四态):
    • 待办:尚未开始,满足开始条件但未分配或未启动。
    • 进行中:已启动,资源与执行在位。
    • 阻塞:存在明确上游依赖或资源缺口导致暂停。
    • 完成:验收通过并归档。
  • 同义词映射建议:
    • 待处理/未开始 → 待办
    • 进行/处理中 → 进行中
    • 卡住/受阻 → 阻塞
    • 已完成/Done → 完成

树状结构(示例,四层:Program > Project > Workstream > Task)

数字化转型计划集(PGM: DX)

客户门户重构(PRJ: PORT)

需求(WS: REQ)

  • DX-PORT-REQ-001: [需求][需求] - 编写PRD | P{高} | S{待办} | R{中} | Role{PD} | Est{16h} | Due{2025-12-05}
    • deps: 无
  • DX-PORT-REQ-002: [需求][需求] - 访谈关键客户 | P{中} | S{进行中} | R{低} | Role{PM} | Est{12h} | Due{2025-12-03}
    • deps: 无

开发(WS: DEV)

  • DX-PORT-DEV-001: [开发][后端] - 用户服务重构 | P{高} | S{进行中} | R{中} | Role{Dev} | Est{40h} | Due{2025-12-12}
    • deps: DX-PORT-DSN-API(设计评审通过), DX-PORT-REQ-001
  • DX-PORT-DEV-002: [开发][前端] - 登录模块实现 | P{高} | S{阻塞} | R{高} | Role{Dev} | Est{32h} | Due{2025-12-15}
    • deps: DX-PORT-DEV-001(接口稳定), DX-PORT-DSN-UI(UI稿冻结)

测试(WS: QA)

  • DX-PORT-QA-001: [测试][单测] - 覆盖率提升到80% | P{低} | S{进行中} | R{低} | Role{QA} | Est{20h} | Due{2025-12-10}
    • deps: DX-PORT-DEV-001, DX-PORT-DEV-002(部分)
  • DX-PORT-QA-002: [测试][UAT] - UAT轮次1执行 | P{中} | S{待办} | R{中} | Role{QA} | Est{24h} | Due{2025-12-18}
    • deps: DX-PORT-REL-001(RC可用)

发布(WS: REL)

  • DX-PORT-REL-001: [发布][RC] - 发布候选版本RC1 | P{中} | S{待办} | R{低} | Role{ReleaseMgr} | Est{8h} | Due{2025-12-16}
    • deps: DX-PORT-QA-001(关键用例通过)

运维(WS: OPS)

  • DX-PORT-OPS-001: [运维][监控] - 监控与告警配置 | P{低} | S{完成} | R{低} | Role{SRE} | Est{10h} | Due{2025-11-28}
    • deps: 无

数据平台升级(PRJ: DATA)

设计(WS: DSN)

  • DX-DATA-DSN-001: [设计][架构] - 架构评审通过 | P{高} | S{完成} | R{中} | Role{Architect} | Est{12h} | Due{2025-11-25}
    • deps: 无
  • DX-DATA-DSN-002: [设计][模型] - 数据血缘模型设计 | P{中} | S{进行中} | R{中} | Role{DataEng} | Est{28h} | Due{2025-12-08}
    • deps: 无

开发(WS: DEV)

  • DX-DATA-DEV-001: [开发][ETL] - 管道实现 | P{高} | S{进行中} | R{中} | Role{DataEng} | Est{36h} | Due{2025-12-14}
    • deps: DX-DATA-DSN-002
  • DX-DATA-DEV-002: [开发][服务] - 元数据服务接口 | P{中} | S{阻塞} | R{高} | Role{Dev} | Est{30h} | Due{2025-12-20}
    • deps: 外部依赖:IDMS-API-1.2 发布

测试(WS: QA)

  • DX-DATA-QA-001: [测试][性能] - 性能测试基线 | P{中} | S{待办} | R{中} | Role{QA} | Est{24h} | Due{2025-12-19}
    • deps: DX-DATA-DEV-001
  • DX-DATA-QA-002: [测试][回归] - 回归测试套件 | P{中} | S{完成} | R{低} | Role{QA} | Est{16h} | Due{2025-11-27}
    • deps: 无

产品增长计划集(PGM: GR)

移动App 3.0(PRJ: APP3)

需求(WS: REQ)

  • GR-APP-REQ-001: [需求][范围] - 功能范围界定 | P{低} | S{完成} | R{低} | Role{PM} | Est{8h} | Due{2025-11-26}
    • deps: 无

设计(WS: DSN)

  • GR-APP-DSN-001: [设计][交互] - 交互原型 | P{低} | S{进行中} | R{低} | Role{PD} | Est{20h} | Due{2025-12-04}
    • deps: GR-APP-REQ-001

开发(WS: DEV)

  • GR-APP-DEV-001: [开发][推送] - 订阅模块 | P{高} | S{进行中} | R{中} | Role{Dev} | Est{32h} | Due{2025-12-13}
    • deps: GR-APP-DSN-001
  • GR-APP-DEV-002: [开发][缓存] - 离线缓存 | P{中} | S{待办} | R{中} | Role{Dev} | Est{24h} | Due{2025-12-18}
    • deps: GR-APP-DSN-001

测试(WS: QA)

  • GR-APP-QA-001: [测试][兼容] - Android兼容性测试 | P{中} | S{阻塞} | R{中} | Role{QA} | Est{20h} | Due{2025-12-20}
    • deps: 设备资源不足(外部资源)

推送系统优化(PRJ: PUSH)

开发(WS: DEV)

  • GR-PUSH-DEV-001: [开发][MQ] - 消息队列优化 | P{高} | S{进行中} | R{高} | Role{Dev} | Est{30h} | Due{2025-12-11}
    • deps: GR-PUSH-DSN-MQ(设计冻结)
  • GR-PUSH-DEV-002: [开发][重试] - 重试策略实现 | P{中} | S{完成} | R{低} | Role{Dev} | Est{16h} | Due{2025-11-29}
    • deps: 无

运维(WS: OPS)

  • GR-PUSH-OPS-001: [运维][灰度] - 灰度发布策略 | P{低} | S{待办} | R{中} | Role{SRE} | Est{12h} | Due{2025-12-21}
    • deps: GR-PUSH-DEV-001(稳定性验证)

简表汇总(示例) | 层级 | 数量(任务) | 完成率 | 优先级(H/M/L) | 风险(高/中/低) | 阻塞数 | | ---- | ---- | ---- | ---- | ---- | ---- | | Program: DX | 14 | 21% (3/14) | 5 / 7 / 2 | 2 / 7 / 5 | 2 | | Program: GR | 8 | 25% (2/8) | 2 / 3 / 3 | 1 / 4 / 3 | 1 | | 全库合计 | 22 | 23% (5/22) | 7 / 10 / 5 | 3 / 11 / 8 | 3 |

目录式清单(汇报与复盘用)

  • 本期进展
    • 完成:5项(DX:3, GR:2)
    • 进行中:8项(关键:DX-PORT-DEV-001, GR-PUSH-DEV-001)
  • 里程碑状态
    • DX-数据平台 架构评审(DX-DATA-DSN-001):已完成
    • PORT RC1(DX-PORT-REL-001):待办,预计2025-12-16
  • 关键风险与缓解
    • 外部API延迟(DX-DATA-DEV-002,R{高}):与供应方锁定时间窗,准备降级方案
    • 设备资源不足(GR-APP-QA-001,R{中}):申请云真机池,排期资源
  • 阻塞与依赖
    • 前端登录实现受后端接口稳定性影响(DX-PORT-DEV-002→DX-PORT-DEV-001)
    • 兼容性测试受设备资源阻塞(GR-APP-QA-001)
  • 下期计划
    • 完成 PORT UAT轮次1 与 RC1 发布
    • MQ优化完成后推进灰度发布策略
  • 复盘要点
    • 需求冻结晚于计划,建议前置访谈与PRD走查
    • 阻塞项需设定SLA与明确上游交付物定义(DoD)

如何识别与建立主分类及子分类(方法)

  • 主分类(Program):按战略目标或预算归属聚合;要求覆盖多项目、可跨部门。
  • 子分类(Project):按可交付产出与明确范围定义;关联里程碑。
  • 工作流(Workstream):按职能或技术线划分(需求/设计/开发/测试/发布/运维),确保任务不跨流;若跨流,拆分为多个任务并以依赖串接。
  • 任务(Task):原子化、可验收;命名遵循模板,附ID与度量字段。

标记分类与子分类的建议

  • 强制ID前缀:PGM/PRJ/WS,保证检索与统计一致。
  • 阶段与状态分离:避免“测试中”作为状态,统一为阶段字段“测试”,状态字段“进行中”。
  • 负责人角色用枚举,不填岗位名称自由文本(如“工程师A”),用Role{Dev/QA/...}并在任务备注填具体人。
  • 依赖字段专用:deps只写ID,不写自由文本;备注中再说明依赖原因。
  • 风险标签多维:风险等级+风险类型(技术/进度/资源/合规/外部依赖),便于汇总。

数据整理与优化建议

  • 建立校验脚本:每天校验状态词典、依赖环路、缺失字段(Due/Est/Role)与不合规命名。
  • 里程碑看板:项目级展示M1~M5的达成率与日期偏差,自动汇总到Program。
  • 指标体系:完成率、阻塞率、逾期率、风险暴露数(高/中/低),按Program/Project维度出报表。
  • 命名模板落地:在工作管理工具中设置创建任务的表单与模板,杜绝自由文本命名。
  • 统一优先级基准:以影响范围、紧急性、依赖强度打分,形成P{高/中/低}标准。
  • 复盘机制:每周期输出目录式清单与经验库(复盘记录字段),沉淀到知识库可检索。

说明:以上示例为结构与标准的落地样例。将现有任务库映射到该层级与词典后,即可自动生成树状视图、汇总简表与汇报清单,并持续用校验规则保持数据一致性与可用性。

示例详情

解决的问题

为用户提供高效的数据分类整理解决方案,帮助用户轻松处理复杂的数据集,快速建立多层级、逻辑清晰的分类结构,并呈现直观且易理解的格式化输出。能够满足数据分析、信息整理、项目归类等多种工作场景需求,赋能用户完成繁琐任务并显著提升效率。

适用用户

数据分析师

需要以清晰的层级结构整理大数据集,为进一步的分析和决策提供结构化基础。

市场营销人员

策划活动时快速归类和整理用户行为/市场反馈数据,精准匹配目标受众。

研究人员

整理实验数据或文献研究成果,建立清晰的主题分类,便于快速查找和展示。

特征总结

快速构建清晰的分类体系,帮助用户根据设定标准高效整理复杂数据。
多层级分类支持,实现主分类、子分类及更深层次的结构化整理。
一键生成格式化输出,呈现直观明了的层级数据结构,方便查阅与分享。
精准识别并优化数据分类逻辑,助力避免冗余或易混淆的交叉分类。
提供专家级数据整理建议,帮助用户优化数据的组织方式与可视化呈现。
高效适配多种数据场景,从销售数据、用户反馈到研究资料均可轻松管理。
灵活定制分类标准,根据具体业务需求生成定制化数据分类结果。
增强数据分析效率,通过首次整理和分类奠定可靠分析基础。
适用于各种格式要求,支持Markdown等多种层级化展示输出。

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。

2. 发布为 API 接口调用

把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。

3. 在 MCP Client 中配置使用

在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。

AI 提示词价格
¥25.00元
先用后买,用好了再付款,超安全!

您购买后可以获得什么

获得完整提示词模板
- 共 322 tokens
- 3 个可调节参数
{ 数据集描述 } { 分类标准定义 } { 期望输出格式 }
获得社区贡献内容的使用权
- 精选社区优质案例,助您快速上手提示词
使用提示词兑换券,低至 ¥ 9.9
了解兑换券 →
限时半价

不要错过!

半价获取高级提示词-优惠即将到期

17
:
23
小时
:
59
分钟
:
59