🔥 终身会员专享文生文数据分析

多层数据整理

👁️ 579 次查看

📅 Nov 24, 2025

💡 核心价值： 通过专家视角，高效整理数据集并生成多层级分类结构，支持清晰可读的层次化呈现。适用于数据分析和管理任务，确保分类标准统一、逻辑直观，便于后续数据处理与可视化分析。

终身会员免费复制

🎯 可自定义参数（3个）

数据集描述

描述你的数据集，例如：销售数据包含2023年Q1至Q2的月度销售额记录

分类标准定义

定义你的分类标准，例如：按产品类别、地区和时间顺序分类

期望输出格式

指定你偏好的输出格式，例如：使用表格或树状结构展示

🎨 效果示例

引言与重要性在电商多店铺场景中，订单明细往往存在类目混用、SKU重复、品牌别名、跨店合并等问题。建立统一口径与层级化分类不仅能提高数据可用性与分析效率，还能显著减少后续报表、模型与运营策略的偏差与重复工作。本次任务旨在以四层分类（L1-L4）为主轴，配合地区、时间、渠道等横向维度，重建清晰、逻辑直观、可复制的分类体系与统计框架。

分步骤分析与分类流程

主键与去重

建立统一主键：GlobalOrderID（跨店唯一订单ID） + SKU_Master（主SKU） + LineNo（行号）作为订单行主键。
去重规则：相同(GlobalOrderID, SKU_Master, LineNo)保留最新履约状态；若LineNo缺失，用(ShopID, OrderID, SKU_Master, Qty, Amount)指纹去重。
交叉校验：对SKU跨店映射，优先品牌+型号+规格的主档字段；无法匹配标记Unknown-UNK。

品牌与别名合并

构建品牌主档Brand_Master（中文主名+规范缩写），基于同义词字典将别名统一归并。
品类与用途/材质提取：从商品名、初始标签与二级类目中抽取关键词，按规则表映射到标准类目。

四层分类重建

L1业务域：商品/用户/交易/履约。
L2商品维度：品类/用途/材质（标准三轴）。
L3品类细分与规格：子品类、型号/尺码/容量/颜色等。
L4SKU映射：统一到SKU_Master（含品牌主档）。
非商品域的L2-L4：保持四层结构一致性（详见树状展示）。

横向维度标准化

地区：省/市标准行政名称与缩写；地名别称合并。
时间：月（2024M01-2024M09）、季度（2024Q1-Q3），以支付时间/成交时间为准。
渠道：统一为搜索-SEA、社交-SOC、直播-LIVE。

缺失值与优惠聚合

缺失统一标记Unknown-UNK。
优惠类型聚合：按类型（满减/折扣/券/满赠/包邮/无优惠）汇总，不拆分至单券ID，便于横向对比。

质检与一致性

一致性校验：同SKU不同店铺类目是否一致；同一品牌不同别名是否已合并。
冲突解决：若品类存在多解，以商品用途优先，其次材质，最后初始标签；保留冲突日志。

如何识别并建立主分类与子分类

识别策略：基于词典规则（商品名、二级类目、品牌型号），按“用途>品类>材质”的优先级映射；难例通过人工白名单。
子分类构建：在品类下细分“子品类>规格属性（尺码/容量/颜色/型号/材质等级）”，规格值标准化。
SKU映射：SKU原始编码→SKU_Master，通过品牌主档+型号+关键规格的唯一组合生成。

结果的清晰层级呈现指导

使用中文主名+规范缩写，所有层级路径可复制；节点命名保持“域-缩写/类-缩写”的一致格式。
每个节点在统计表中均可作为切片维度；横向维度（地区/时间/渠道）与四层分类可笛卡尔组合。

有效标记建议

Unknown统一为Unknown-UNK，避免多种“无/空/N/A”的混用。
品牌缩写建议3-5字符（如苹果-APL、华为-HWV）。
渠道缩写固定为SEA/SOC/LIVE；省份缩写如广东-GD、江苏-JS。
优惠类型缩写统一：满减-MJ，折扣-PCT，优惠券-COUP，满赠-GIFT，包邮-FS，无优惠-NODISC。

数据整理与优化建议

建立规则版本化与变更日志，便于回溯与审计。
引入数据质量监控：类目覆盖率、Unknown占比、别名归并命中率。
每月复盘字典与新增SKU/品牌，避免规则漂移。
输出标准化标签列（Category_Path, SKU_Label, User_Segment, Deal_Channel），作为BI与建模统一输入。

—— 以下为结构化输出（树状展示、汇总模板、命名规范与字典、可复制清单与示例标签） ——

L1 业务域

商品-GDS

L2 品类/用途/材质
- 品类示例
  - 服饰-APP
  - 美妆-BEA
  - 家居-HOME
  - 食品-FNB
  - 数码-ELC
  - 母婴-MNB
  - 户外-OUT
  - 个护-PERS
- 用途示例
  - 运动-SPORT
  - 清洁-CLN
  - 收纳-ORG
  - 护肤-SKN
  - 烹饪-COOK
- 材质示例
  - 棉-CTN
  - 真皮-LTH
  - 不锈钢-SS
  - 玻璃-GLS
  - 食品级硅胶-SIL
L3 品类细分与规格（举例）
- 服饰-APP
  - 上衣 > T恤/衬衫/卫衣
  - 下装 > 裤子/裙装
  - 规格：尺码(S/M/L/XL)、颜色(黑/白/蓝)、袖长(短/长)、材质(棉-CTN/涤纶-PES)
- 美妆-BEA
  - 护肤 > 面霜/精华/洁面
  - 彩妆 > 口红/粉底/眼影
  - 规格：容量(30ml/50ml)、肤质(干/油/敏)、功效(保湿/抗氧)
- 家居-HOME
  - 收纳 > 置物架/收纳盒
  - 厨具 > 锅/刀具/杯
  - 规格：尺寸(小/中/大)、材质(不锈钢-SS/玻璃-GLS)
- 数码-ELC
  - 手机/配件 > 手机/充电器/耳机
  - 规格：型号、内存(64/128/256G)、颜色
L4 SKU映射
- SKU_Master：品牌主档 + 型号 + 关键规格（示例：华为-HWV P60 256G 黑）
- 关联：Brand_Master、Model、Spec_Key、原始SKU、店铺SKU别名

用户-CST

L2 用户维度（类型/RFM）
- 类型：新客-NEW / 老客-OLD
- RFM分层：高价值-HV / 中价值-MV / 低价值-LV / 流失风险-LR
L3 细分与规格
- RFM评分桶：R(1-5)×F(1-5)×M(1-5) → 9或25格箱
- 行为规格：近30天购买次数、客单价区间、近90天回购
L4 用户ID映射
- CustomerID_Mask（脱敏ID） → 用户画像标签集

交易-TRX

L2 渠道
- 搜索-SEA
- 社交-SOC
- 直播-LIVE
L3 优惠类型
- 满减-MJ / 折扣-PCT / 优惠券-COUP / 满赠-GIFT / 包邮-FS / 无优惠-NODISC
L4 订单ID映射
- GlobalOrderID → 订单行（含金额、优惠、数量、支付时间）

履约-FUL

L2 发货时效
- 次日达-NDD / 48小时-48H / 72小时-72H / 超时-OT
L3 退换类型
- 退货-RET / 换货-EXC / 拒收-REF / 无退换-NORET
L4 履约单映射
- FulfillmentID / Warehouse / Carrier → 订单行

横向维度

地区-REG

省-PRV：广东-GD / 江苏-JS / 浙江-ZJ / 北京-BJ / 上海-SH / …
市-CTY：广州市 / 深圳市 / 杭州市 / 南京市 / 北京市 / 上海市 / …

时间-TIM

月-MON：2024M01 … 2024M09
季度-QTR：2024Q1 / 2024Q2 / 2024Q3

渠道-CHN

搜索-SEA / 社交-SOC / 直播-LIVE（与交易域保持一致）

汇总统计模板（各节点订单数与GMV）

统计口径
- Orders：去重后的GlobalOrderID计数（可按订单行或订单头，建议订单头）
- GMV：成交金额（含优惠后实付或含税前后需明确，建议采用“实付金额”）
- 维度组合：任意节点路径 × 地区 × 时间 × 渠道
汇总示例（演示用，非真实数据）
- 节点：商品-GDS > 品类=服饰-APP
  - Orders=12,345 | GMV=¥8,760,000
- 节点：商品-GDS > 品类=美妆-BEA > 子品类=护肤>面霜
  - Orders=3,210 | GMV=¥2,150,000
- 节点：交易-TRX > 渠道=直播-LIVE > 优惠=满减-MJ
  - Orders=5,980 | GMV=¥3,420,000
- 节点：履约-FUL > 时效=超时-OT
  - Orders=450 | GMV=¥310,000
- 节点：用户-CST > 类型=新客-NEW > RFM=HV
  - Orders=1,120 | GMV=¥890,000
输出格式（推荐）
- NodePath: L1>…|L2>…|L3>…|L4(optional) | REG>省/市 | TIM>月/季 | CHN>渠道 | Orders= n | GMV= amount

命名规范

节点命名：中文主名-缩写（大写英字母，3-5字符）
Unknown：Unknown-UNK
省份缩写：GD/JS/ZJ/BJ/SH/…
渠道缩写：SEA/SOC/LIVE
优惠缩写：MJ/PCT/COUP/GIFT/FS/NODISC
示例：护肤-SKN、运动-SPORT、不锈钢-SS、食品-FNB、家居-HOME

同义词映射字典（示例）

品牌别名
- 苹果/Apple/apple官方 → 苹果-APL
- 华为/HUAWEI/华为官方旗舰店 → 华为-HWV
- 耐克/Nike/NIKE官方 → 耐克-NIKE
- 阿迪达斯/adidas/ADIDAS → 阿迪达斯-ADI
品类与用途
- 面霜/保湿霜/乳霜 → 面霜
- 连衣裙/裙子/女裙 → 连衣裙
- 手机/智能手机/手机整机 → 手机
- 收纳盒/整理盒/储物盒 → 收纳盒
- 清洁/去污/洗涤 → 清洁-CLN
材质
- 不锈钢/钢/不锈钢材 → 不锈钢-SS
- 棉/纯棉/全棉 → 棉-CTN
- 硅胶/食品级硅胶 → 食品级硅胶-SIL
地区
- 广州/广州市 → 广州市
- 深圳/深圳市 → 深圳市
渠道
- 短视频/社交/平台内社交 → 社交-SOC
优惠类型
- 店铺满减/满减券 → 满减-MJ
- 直降/限时折扣 → 折扣-PCT
- 平台券/店铺券 → 优惠券-COUP
- 买赠/满额赠 → 满赠-GIFT
- 包邮券/免邮 → 包邮-FS

可复制的层级清单与示例标签

层级清单（示例节点）
- L1>商品-GDS | L2>品类=服饰-APP | L3>子品类=上衣>T恤 | 规格=短袖/棉-CTN | L4>SKU=耐克-NIKE 训练T 男 S 黑
- L1>商品-GDS | L2>品类=美妆-BEA | 用途=护肤-SKN | 材质=玻璃-GLS | L3>子品类=面霜 | 规格=50ml/保湿 | L4>SKU=兰蔻-LAN 面霜 50ml
- L1>交易-TRX | L2>渠道=直播-LIVE | L3>优惠=满减-MJ | L4>订单=GOID123456
- L1>履约-FUL | L2>时效=48H | L3>退换=退货-RET | L4>履约单=FID98765
- L1>用户-CST | L2>类型=新客-NEW | RFM=HV | L3>桶=R5F4M5 | L4>UserID=UID_xxx
横向维度示例拼接
- … | REG>省=广东-GD|市=广州市 | TIM>月=2024M07|季=2024Q3 | CHN=直播-LIVE
输出样式建议
- 使用“|”分隔，“=”赋值；所有缩写一致；Unknown统一为Unknown-UNK。

计算与落地方法（简述）

GMV=SUM(实付金额)，按订单头或行一致定义；优惠按类型聚合（不拆券ID）。
Orders=COUNT DISTINCT(GlobalOrderID)；若需订单行层统计则计数主键行。
构建宽表字段：L1,L2,L3,L4, REG_省,REG_市, MON,QTR, CHN, Orders, GMV, Brand_Master, SKU_Master, Discount_Type。
将“同义词字典/类目规则/品牌主档”三张维表与事实表订单行进行映射生成最终标签列。

如需，我可以将上述结构转换为可执行的SQL/ETL规则草案，并基于您样例数据生成真实的汇总统计。

任务简介与重要性对2018-2024多学科科研文献语料进行标准化、去重并建立跨领域层级，有助于：

统一术语与版本，降低检索噪音与重复命中；
构建清晰的四层学科-方法-应用树，提升跨域可发现性；
增强多维标签（时间、证据等级、开源状态）可视化分析能力；
为后续自动分类与主题演化分析打下数据治理基础。

分步骤分析与分类流程

数据接入与模式定义

统一字段：id, 标题, 摘要, 关键词[], 方法, 使用数据集[], 评价指标[], 作者机构, 地区, 语言, PDF结构段落, DOI/期刊信息, arXiv/预印本ID, 代码链接, 版本信息, 时间戳(年/季度)。
建立语言双语字段：title_zh/title_en, abstract_zh/abstract_en；若缺失则机器翻译并标注来源。

术语与指标标准化

关键词、方法、应用术语映射至规范词表（含中英别名、缩写）；统一度量单位与指标缩写（如 BLEU, F1, RMSE, AUC）。

去重与版本合并

精确匹配：DOI、arXiv ID、一致标题+作者组合。
模糊匹配：归一化标题（去停用词/标点/大小写）、作者列表相似度、摘要指纹（MinHash），阈值≥0.85。
版本策略：保留最新同行评审版为“主版本”，聚合其预印本与迭代链接至同一canonical_id；记录变更日志。

建立四层分类树

一级：学科域（计算机/材料/生物医药）。
二级：子领域（如 NLP、计算机视觉、储能、蛋白设计）。
三级：方法论（算法/实验/仿真）。
四级：应用场景（任务或具体对象）。
并行维度标签：时间（年>季度）、证据等级、是否开源（代码/数据/模型）、语言。

自动归类策略

规则优先：基于关键词→子领域→方法→应用的匹配优先级；从PDF结构段落（Methods/Experiments/Results）抽取信号。
模型辅助：多标签文本分类（Fine-tuned transformer）+术语字典；冲突时采用优先域（如图像主导→CV，蛋白结构→生物医药）。
主路径与辅路径：为跨应用论文设定1个主路径+≤2个辅路径，避免重叠与歧义。

质检与一致性

抽样复核（每类≥5%）、跨语言一致性比对（术语一致率≥95%）、时间与证据等级分布异常检测。

输出与可检索化

树状编号路径（如 1.1.1.4），附并行标签；导出为可查询索引（Elastic/SQL），支持按路径与标签过滤。

识别并建立主分类与子分类的方法

从标题/摘要/关键词定位核心领域词（如 “Transformer”“DFT”“solid electrolyte”“protein design”）。
从方法段落与评测指标识别方法论层级（算法/实验/仿真）。
从任务词库定位应用场景（如机器翻译、目标检测、固态电解质、蛋白结构预测）。
证据等级依据研究设计与评测标准（定义见下“证据等级规范”）。

树状编号四层学科层级与示例条目说明：以下为结构与示例引用条目，用于验证路径与标签设计（并非全量数据）。

1 计算机

1.1 自然语言处理 (NLP)

1.1.1 算法

1.1.1.1 预训练语言模型

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018) | 路径: 1.1.1.1 | 年:2018Q4 | 证据:B（标准基准GLUE）| 开源:是 | 数据集:BooksCorpus,Wikipedia | 指标:GLUE(F1,ACC)
LLaMA: Open and Efficient Foundation Language Models (2023) | 路径: 1.1.1.1 | 年:2023Q1 | 证据:B | 开源:部分 | 数据集:多语料 | 指标:Perplexity, Zero-shot

1.1.1.2 机器翻译

MASS: Masked Sequence to Sequence Pre-training for Language Generation (2019) | 路径: 1.1.1.2 | 年:2019Q2 | 证据:B | 开源:是 | 数据集:WMT | 指标:BLEU

1.1.1.3 文本摘要/问答

PEGASUS: Pre-training with Extracted Gap-sentences (2020) | 路径: 1.1.1.3 | 年:2020Q1 | 证据:B | 开源:是 | 数据集:XSum,CNN/DailyMail | 指标:ROUGE

1.1.2 实验

1.1.2.1 基准评测

SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding (2019) | 路径: 1.1.2.1 | 年:2019Q3 | 证据:B | 开源:是 | 数据集:SuperGLUE | 指标:ACC,F1

1.1.3 仿真

1.1.3.1 生成过程分析

Analysis of Transformer Attention Patterns (2021) | 路径: 1.1.3.1 | 年:2021Q2 | 证据:C | 开源:否 | 指标:可视化/定性

1.2 计算机视觉 (CV)

1.2.1 算法

1.2.1.1 图像分类

ViT: An Image Is Worth 16x16 Words (2020) | 路径: 1.2.1.1 | 年:2020Q3 | 证据:B | 开源:是 | 数据集:ImageNet | 指标:Top-1 ACC

1.2.1.2 目标检测

DETR: End-to-End Object Detection with Transformers (2020) | 路径: 1.2.1.2 | 年:2020Q2 | 证据:B | 开源:是 | 数据集:COCO | 指标:mAP

1.2.1.3 图像分割

Segment Anything Model (SAM) (2023) | 路径: 1.2.1.3 | 年:2023Q2 | 证据:B | 开源:是 | 数据集:SA-1B | 指标:mIoU

1.2.2 实验

1.2.2.1 多模态评测

CLIP: Connecting Text and Images (2021) | 路径: 1.2.2.1 | 年:2021Q1 | 证据:B | 开源:是 | 数据集:Web-scale | 指标:Zero-shot ACC

1.2.3 仿真

1.2.3.1 合成数据

Synthetic Data for Object Detection (2022) | 路径: 1.2.3.1 | 年:2022Q3 | 证据:C | 开源:部分

1.3 机器学习通用

1.3.1 算法

1.3.1.1 强化学习

AlphaZero-like Generalized RL (2019) | 路径: 1.3.1.1 | 年:2019Q1 | 证据:B | 开源:部分 | 指标:Elo

1.3.1.2 图神经网络

GNN Survey and Applications (2020) | 路径: 1.3.1.2 | 年:2020Q2 | 证据:C | 开源:是

2 材料

2.1 储能

2.1.1 算法

2.1.1.1 材料性质预测（ML）

ML-guided Discovery of Solid-state Electrolytes (2020) | 路径: 2.1.1.1 | 年:2020Q3 | 证据:B | 开源:部分 | 数据集:Materials Project | 指标:MAE

2.1.1.2 循环寿命预测

Battery Degradation Modeling via GNN (2022) | 路径: 2.1.1.2 | 年:2022Q4 | 证据:B | 开源:是 | 数据集:NASA Battery | 指标:RMSE

2.1.2 实验

2.1.2.1 锂离子正极/固态电解质

High-Ni NMC Cathode Cycling Study (2019) | 路径: 2.1.2.1 | 年:2019Q2 | 证据:A | 开源:否 | 指标:容量(mAh/g), 保留率(%)

2.1.3 仿真

2.1.3.1 DFT/MD

DFT Screening of SSE Interfaces (2021) | 路径: 2.1.3.1 | 年:2021Q4 | 证据:C | 开源:是 | 指标:界面能(eV), 带隙(eV)

2.2 催化

2.2.1 算法

2.2.1.1 活性位点预测

ML for CO2RR Catalyst Design (2020) | 路径: 2.2.1.1 | 年:2020Q2 | 证据:B | 开源:部分 | 指标:选择性(%)

2.2.2 实验

2.2.2.1 电催化/光催化

Experimental Screening of HER Catalysts (2018) | 路径: 2.2.2.1 | 年:2018Q3 | 证据:A | 开源:否 | 指标:过电位(mV), Tafel斜率

2.2.3 仿真

2.2.3.1 表面反应机理

DFT Mechanistic Study of OER (2019) | 路径: 2.2.3.1 | 年:2019Q4 | 证据:C | 开源:是

2.3 光伏/半导体

2.3.1 算法

2.3.1.1 结构-性能映射

ML Prediction for Perovskite Stability (2021) | 路径: 2.3.1.1 | 年:2021Q1 | 证据:B | 开源:是 | 指标:稳定性评分

2.3.2 实验

2.3.2.1 器件制备与测试

High-efficiency Perovskite PV (2022) | 路径: 2.3.2.1 | 年:2022Q2 | 证据:A | 开源:否 | 指标:效率(%)

2.3.3 仿真

2.3.3.1 电子结构/载流子输运

TCAD-based PV Device Simulation (2020) | 路径: 2.3.3.1 | 年:2020Q4 | 证据:C | 开源:是

3 生物医药

3.1 蛋白设计

3.1.1 算法

3.1.1.1 结构预测

AlphaFold2 (2021) | 路径: 3.1.1.1 | 年:2021Q2 | 证据:A（CASP14）| 开源:是 | 指标:GDT_TS, TM-score

3.1.1.2 序列设计

ProteinMPNN (2022) | 路径: 3.1.1.2 | 年:2022Q3 | 证据:B | 开源:是 | 指标:设计成功率

3.1.2 实验

3.1.2.1 实验验证与筛选

Wet-lab Validation of Designed Proteins (2023) | 路径: 3.1.2.1 | 年:2023Q4 | 证据:A | 开源:部分 | 指标:表达量, 稳定性Tm

3.1.3 仿真

3.1.3.1 分子动力学

MD Simulation for Fold Stability (2019) | 路径: 3.1.3.1 | 年:2019Q1 | 证据:C | 开源:是 | 指标:RMSD, RMSF

3.2 药物发现

3.2.1 算法

3.2.1.1 分子生成/对接

DiffDock (2022) | 路径: 3.2.1.1 | 年:2022Q2 | 证据:B | 开源:是 | 指标:Top-1对接成功率

3.2.2 实验

3.2.2.1 体外/体内评估

Lead Optimization with Assays (2020) | 路径: 3.2.2.1 | 年:2020Q3 | 证据:A | 开源:否 | 指标:IC50, Kd

3.2.3 仿真

3.2.3.1 ADMET预测

ML-based ADMET Prediction (2018) | 路径: 3.2.3.1 | 年:2018Q2 | 证据:B | 开源:是 | 指标:AUROC, RMSE

3.3 基因组学/单细胞

3.3.1 算法

3.3.1.1 表达谱分析

scRNA-seq Dimensionality Reduction (2020) | 路径: 3.3.1.1 | 年:2020Q1 | 证据:B | 开源:是 | 指标:聚类NMI

3.3.2 实验

3.3.2.1 单细胞测序

High-throughput scRNA-seq Pipeline (2019) | 路径: 3.3.2.1 | 年:2019Q4 | 证据:A | 开源:部分

3.3.3 仿真

3.3.3.1 合成细胞系数据

Synthetic scRNA-seq Benchmark (2021) | 路径: 3.3.3.1 | 年:2021Q3 | 证据:C | 开源:是

摘要表（样本数、时间分布与开源占比）说明：下表基于上述示例条目（非全集）以演示统计维度。导入全量数据后按同维度自动生成。

总样本数（示例）：24
时间分布（2018-2024）
- 2018: 3
- 2019: 4
- 2020: 6
- 2021: 5
- 2022: 4
- 2023: 2
- 2024: 0（示例集中未列）
开源占比（代码/数据/模型至少其一）：约 70.8%（17/24）
按学科域分布与开源占比（示例）
- 计算机: 12条 | 开源: 83%
- 材料: 6条 | 开源: 50%
- 生物医药: 6条 | 开源: 67%

术语规范与同义词表（节选）

学科域
- 计算机 = 计算机科学 = CS
- 材料 = 材料科学 = Materials Science
- 生物医药 = 生命科学/生物医学 = Biomedicine
子领域
- NLP = 自然语言处理
- CV = 计算机视觉
- 储能 = 能量存储 = Energy Storage
- 催化 = Catalysis
- 光伏 = Photovoltaics = PV
- 蛋白设计 = Protein Design
- 药物发现 = Drug Discovery
- 基因组学 = Genomics；单细胞 = Single-cell
方法论
- 算法 = Algorithmic = Computational method
- 实验 = Experiment = Wet lab/Testbed/Device
- 仿真 = Simulation = DFT/MD/TCAD/Agent-based
应用（示例）
- 机器翻译 = MT = Machine Translation
- 文本摘要 = Summarization = Abstractive/Extractive
- 目标检测 = Object Detection
- 图像分割 = Image Segmentation
- 固态电解质 = SSE = Solid-state Electrolyte
- 正极材料 = Cathode
- 蛋白结构预测 = Protein Structure Prediction
- 分子对接 = Molecular Docking
- ADMET 预测 = ADMET Prediction
评价指标与单位
- NLP/CV: ACC = Accuracy, F1, BLEU, ROUGE, mAP, mIoU, Perplexity
- 材料: 容量(mAh/g), 保留率(%), 过电位(mV), 带隙(eV), MAE, RMSE
- 生物医药: GDT_TS, TM-score, RMSD, AUROC, IC50(nM), Kd(μM)
证据等级规范（跨领域适配）
- A：严格实验/大规模标准竞赛或第三方验证（如 CASP、器件实测、体内/体外实验）。
- B：规范化基准或强对照实验（公开数据集、标准指标、复现可行）。
- C：探索性/仿真/理论分析（缺少强对照或仅限模拟）。

示例引用条目与检索路径

AlphaFold2 → 路径: 3.1.1.1 | 标签: 年=2021Q2, 证据=A, 开源=是, 语言=英
SAM → 路径: 1.2.1.3 | 标签: 年=2023Q2, 证据=B, 开源=是, 语言=英
ML-guided SSE → 路径: 2.1.1.1 | 标签: 年=2020Q3, 证据=B, 开源=部分, 语言=英
BERT → 路径: 1.1.1.1 | 标签: 年=2018Q4, 证据=B, 开源=是, 语言=英

有效标记分类与子分类的建议

使用规范化路径编码：domain.subdomain.method.application（如 2.1.3.1）。
记录主路径（primary_path）与辅路径（secondary_paths[]），限制辅路径≤2以避免过度重叠。
并行标签采用枚举型：year, quarter ∈ {Q1..Q4}；evidence ∈ {A,B,C}；open_source ∈ {代码,数据,模型,否}。
双语字段存储规则：canonical_label 英文+中文；检索可按别名匹配。
指标与单位分离存储：metric_name, metric_value, unit；避免字符串混排。
去重追踪：version_chain[] 挂接所有版本ID；保留主版本元数据为可检索入口。

数据整理与优化建议

构建术语字典与映射服务（JSON/SQL表），每季度更新一次；对新增术语执行半自动审核。
建立重复检测流水线（精确+模糊），阈值与规则可配置；记录冲突解决定稿日志。
统一评测指标与单位，提供跨领域标准化视图（如指标名词典与单位换算）。
引入语言一致性校验（双语一致率）与标签覆盖率报告（缺失率上限<5%）。
输出面向检索的索引（如 Elasticsearch）支持路径与标签多条件过滤；同时导出可视化仪表盘（时间/证据/开源分布）。
持续集成：对新增数据运行分类、去重与质检单元测试；维护变更审计与回滚机制。

如需，我可以将上述结构转为可执行的分类字典与SQL/JSON模式，并提供自动化ETL与分类脚本示例。

引言：任务库的结构化与分类是跨团队项目协同的基础。清晰的层级与统一的词典可显著降低沟通成本，提升依赖管理与风险响应效率，并使进度度量与复盘更可控。

数据分析与分类流程（分步骤） 1.字段规范与审计

收敛字段命名与取值：项目名、里程碑、任务说明、负责人角色、优先级、预估工时、截止日期、状态、依赖关系、风险标签、复盘记录。
建立统一枚举：阶段（需求/设计/开发/测试/发布/运维）、优先级（高/中/低）、风险等级（高/中/低）、状态词典（待办/进行中/阻塞/完成）。
同义词映射：如“待处理/未开始”归一为“待办”；“进行/处理中”归一为“进行中”；“卡住/受阻”归一为“阻塞”；“已完成/Done”归一为“完成”。

2.层级搭建与归档

垂直层级：计划集（Program）> 项目（Project）> 工作流（Workstream）> 任务（Task）。
横向维度：阶段、优先级、风险等级。阶段独立于状态（避免将阶段当作状态）。
里程碑归档：项目级里程碑统一命名并归档到项目层，避免分散在任务层。

3.命名模板与ID体系

统一命名模板（任务）：[阶段] [工作流] - [动作动词+对象+范围] | P{优先级} | S{状态} | R{风险} | Role{负责人角色} | Est{工时h} | Due{YYYY-MM-DD}
ID编码（建议）：PGM-PRJ-WS-TSK（如：DX-PORT-DEV-001），保证唯一映射并便于依赖校验。

4.依赖链与一致性校验

依赖方向：通常上游阶段→下游阶段（需求→设计→开发→测试→发布→运维）；跨工作流依赖需标注清晰来源。
校验规则：无环（DAG）、无自依赖、同层依赖需明确里程碑或交付物；阻塞必须指向具体上游项。
自动检测：构建邻接表，检测环路与悬空依赖（指向不存在ID）。

5.角色与标签归一

负责人角色词典：PM/PD/Dev/QA/DevOps/Architect/ReleaseMgr/SRE。
风险标签分类：技术/进度/资源/合规/外部依赖等，配合风险等级（高/中/低）与处置策略。

6.呈现与复盘

树状层级用于结构化呈现；简表用于汇总态势；目录式清单用于汇报与复盘。
保持全库统一标准，避免重叠或模糊分类，确保可读性与可追踪性。

统一命名模板与状态词典

任务命名模板：［阶段］［工作流］-［动作动词 + 对象 + 范围］ | P{高/中/低} | S{待办/进行中/阻塞/完成} | R{高/中/低} | Role{角色} | Est{数字h} | Due{YYYY-MM-DD}
状态词典（标准四态）：
- 待办：尚未开始，满足开始条件但未分配或未启动。
- 进行中：已启动，资源与执行在位。
- 阻塞：存在明确上游依赖或资源缺口导致暂停。
- 完成：验收通过并归档。
同义词映射建议：
- 待处理/未开始 → 待办
- 进行/处理中 → 进行中
- 卡住/受阻 → 阻塞
- 已完成/Done → 完成

树状结构（示例，四层：Program > Project > Workstream > Task）

数字化转型计划集（PGM: DX）

客户门户重构（PRJ: PORT）

需求（WS: REQ）

DX-PORT-REQ-001: [需求][需求] - 编写PRD | P{高} | S{待办} | R{中} | Role{PD} | Est{16h} | Due{2025-12-05}
- deps: 无
DX-PORT-REQ-002: [需求][需求] - 访谈关键客户 | P{中} | S{进行中} | R{低} | Role{PM} | Est{12h} | Due{2025-12-03}
- deps: 无

开发（WS: DEV）

DX-PORT-DEV-001: [开发][后端] - 用户服务重构 | P{高} | S{进行中} | R{中} | Role{Dev} | Est{40h} | Due{2025-12-12}
- deps: DX-PORT-DSN-API（设计评审通过）, DX-PORT-REQ-001
DX-PORT-DEV-002: [开发][前端] - 登录模块实现 | P{高} | S{阻塞} | R{高} | Role{Dev} | Est{32h} | Due{2025-12-15}
- deps: DX-PORT-DEV-001（接口稳定）, DX-PORT-DSN-UI（UI稿冻结）

测试（WS: QA）

DX-PORT-QA-001: [测试][单测] - 覆盖率提升到80% | P{低} | S{进行中} | R{低} | Role{QA} | Est{20h} | Due{2025-12-10}
- deps: DX-PORT-DEV-001, DX-PORT-DEV-002（部分）
DX-PORT-QA-002: [测试][UAT] - UAT轮次1执行 | P{中} | S{待办} | R{中} | Role{QA} | Est{24h} | Due{2025-12-18}
- deps: DX-PORT-REL-001（RC可用）

发布（WS: REL）

DX-PORT-REL-001: [发布][RC] - 发布候选版本RC1 | P{中} | S{待办} | R{低} | Role{ReleaseMgr} | Est{8h} | Due{2025-12-16}
- deps: DX-PORT-QA-001（关键用例通过）

运维（WS: OPS）

DX-PORT-OPS-001: [运维][监控] - 监控与告警配置 | P{低} | S{完成} | R{低} | Role{SRE} | Est{10h} | Due{2025-11-28}
- deps: 无

数据平台升级（PRJ: DATA)

设计（WS: DSN）

DX-DATA-DSN-001: [设计][架构] - 架构评审通过 | P{高} | S{完成} | R{中} | Role{Architect} | Est{12h} | Due{2025-11-25}
- deps: 无
DX-DATA-DSN-002: [设计][模型] - 数据血缘模型设计 | P{中} | S{进行中} | R{中} | Role{DataEng} | Est{28h} | Due{2025-12-08}
- deps: 无

开发（WS: DEV）

DX-DATA-DEV-001: [开发][ETL] - 管道实现 | P{高} | S{进行中} | R{中} | Role{DataEng} | Est{36h} | Due{2025-12-14}
- deps: DX-DATA-DSN-002
DX-DATA-DEV-002: [开发][服务] - 元数据服务接口 | P{中} | S{阻塞} | R{高} | Role{Dev} | Est{30h} | Due{2025-12-20}
- deps: 外部依赖：IDMS-API-1.2 发布

测试（WS: QA）

DX-DATA-QA-001: [测试][性能] - 性能测试基线 | P{中} | S{待办} | R{中} | Role{QA} | Est{24h} | Due{2025-12-19}
- deps: DX-DATA-DEV-001
DX-DATA-QA-002: [测试][回归] - 回归测试套件 | P{中} | S{完成} | R{低} | Role{QA} | Est{16h} | Due{2025-11-27}
- deps: 无

产品增长计划集（PGM: GR)

移动App 3.0（PRJ: APP3）

需求（WS: REQ）

GR-APP-REQ-001: [需求][范围] - 功能范围界定 | P{低} | S{完成} | R{低} | Role{PM} | Est{8h} | Due{2025-11-26}
- deps: 无

设计（WS: DSN）

GR-APP-DSN-001: [设计][交互] - 交互原型 | P{低} | S{进行中} | R{低} | Role{PD} | Est{20h} | Due{2025-12-04}
- deps: GR-APP-REQ-001

开发（WS: DEV）

GR-APP-DEV-001: [开发][推送] - 订阅模块 | P{高} | S{进行中} | R{中} | Role{Dev} | Est{32h} | Due{2025-12-13}
- deps: GR-APP-DSN-001
GR-APP-DEV-002: [开发][缓存] - 离线缓存 | P{中} | S{待办} | R{中} | Role{Dev} | Est{24h} | Due{2025-12-18}
- deps: GR-APP-DSN-001

测试（WS: QA）

GR-APP-QA-001: [测试][兼容] - Android兼容性测试 | P{中} | S{阻塞} | R{中} | Role{QA} | Est{20h} | Due{2025-12-20}
- deps: 设备资源不足（外部资源）

推送系统优化（PRJ: PUSH）

开发（WS: DEV）

GR-PUSH-DEV-001: [开发][MQ] - 消息队列优化 | P{高} | S{进行中} | R{高} | Role{Dev} | Est{30h} | Due{2025-12-11}
- deps: GR-PUSH-DSN-MQ（设计冻结）
GR-PUSH-DEV-002: [开发][重试] - 重试策略实现 | P{中} | S{完成} | R{低} | Role{Dev} | Est{16h} | Due{2025-11-29}
- deps: 无

运维（WS: OPS）

GR-PUSH-OPS-001: [运维][灰度] - 灰度发布策略 | P{低} | S{待办} | R{中} | Role{SRE} | Est{12h} | Due{2025-12-21}
- deps: GR-PUSH-DEV-001（稳定性验证）

简表汇总（示例） | 层级 | 数量（任务） | 完成率 | 优先级(H/M/L) | 风险(高/中/低) | 阻塞数 | | ---- | ---- | ---- | ---- | ---- | ---- | | Program: DX | 14 | 21% (3/14) | 5 / 7 / 2 | 2 / 7 / 5 | 2 | | Program: GR | 8 | 25% (2/8) | 2 / 3 / 3 | 1 / 4 / 3 | 1 | | 全库合计 | 22 | 23% (5/22) | 7 / 10 / 5 | 3 / 11 / 8 | 3 |

目录式清单（汇报与复盘用）

本期进展
- 完成：5项（DX:3, GR:2）
- 进行中：8项（关键：DX-PORT-DEV-001, GR-PUSH-DEV-001）
里程碑状态
- DX-数据平台架构评审（DX-DATA-DSN-001）：已完成
- PORT RC1（DX-PORT-REL-001）：待办，预计2025-12-16
关键风险与缓解
- 外部API延迟（DX-DATA-DEV-002，R{高}）：与供应方锁定时间窗，准备降级方案
- 设备资源不足（GR-APP-QA-001，R{中}）：申请云真机池，排期资源
阻塞与依赖
- 前端登录实现受后端接口稳定性影响（DX-PORT-DEV-002→DX-PORT-DEV-001）
- 兼容性测试受设备资源阻塞（GR-APP-QA-001）
下期计划
- 完成 PORT UAT轮次1 与 RC1 发布
- MQ优化完成后推进灰度发布策略
复盘要点
- 需求冻结晚于计划，建议前置访谈与PRD走查
- 阻塞项需设定SLA与明确上游交付物定义（DoD）

如何识别与建立主分类及子分类（方法）

主分类（Program）：按战略目标或预算归属聚合；要求覆盖多项目、可跨部门。
子分类（Project）：按可交付产出与明确范围定义；关联里程碑。
工作流（Workstream）：按职能或技术线划分（需求/设计/开发/测试/发布/运维），确保任务不跨流；若跨流，拆分为多个任务并以依赖串接。
任务（Task）：原子化、可验收；命名遵循模板，附ID与度量字段。

标记分类与子分类的建议

强制ID前缀：PGM/PRJ/WS，保证检索与统计一致。
阶段与状态分离：避免“测试中”作为状态，统一为阶段字段“测试”，状态字段“进行中”。
负责人角色用枚举，不填岗位名称自由文本（如“工程师A”），用Role{Dev/QA/...}并在任务备注填具体人。
依赖字段专用：deps只写ID，不写自由文本；备注中再说明依赖原因。
风险标签多维：风险等级+风险类型（技术/进度/资源/合规/外部依赖），便于汇总。

数据整理与优化建议

建立校验脚本：每天校验状态词典、依赖环路、缺失字段（Due/Est/Role）与不合规命名。
里程碑看板：项目级展示M1~M5的达成率与日期偏差，自动汇总到Program。
指标体系：完成率、阻塞率、逾期率、风险暴露数（高/中/低），按Program/Project维度出报表。
命名模板落地：在工作管理工具中设置创建任务的表单与模板，杜绝自由文本命名。
统一优先级基准：以影响范围、紧急性、依赖强度打分，形成P{高/中/低}标准。
复盘机制：每周期输出目录式清单与经验库（复盘记录字段），沉淀到知识库可检索。

说明：以上示例为结构与标准的落地样例。将现有任务库映射到该层级与词典后，即可自动生成树状视图、汇总简表与汇报清单，并持续用校验规则保持数据一致性与可用性。

📖 如何使用

⚡ 30秒出活：复制 → 粘贴 → 搞定

与其花几十分钟和AI聊天、试错，不如直接复制这些经过千人验证的模板，修改几个 {{变量}} 就能立刻获得专业级输出。省下来的时间，足够你轻松享受两杯咖啡！

加载中...

💬 不会填参数？让 AI 反过来问你

不确定变量该填什么？一键转为对话模式，AI 会像资深顾问一样逐步引导你，问几个问题就能自动生成完美匹配你需求的定制结果。零门槛，开口就行。

转为对话模式 →

🚀 告别复制粘贴，Chat 里直接调用

无需切换，输入 / 唤醒 8000+ 专家级提示词。插件将全站提示词库深度集成于 Chat 输入框。基于当前对话语境，系统智能推荐最契合的 Prompt 并自动完成参数化，让海量资源触手可及，从此彻底告别"手动搬运"。

即将推出

🔌 接口一调，提示词自己会进化

手动跑一次还行，跑一百次呢？通过 API 接口动态注入变量，接入批量评价引擎，让程序自动迭代出更高质量的提示词方案。Prompt 会自己进化，你只管收结果。

发布 API →

🤖 一键变成你的专属 Agent 应用

不想每次都配参数？把这条提示词直接发布成独立 Agent，内嵌图片生成、参数优化等工具，分享链接就能用。给团队或客户一个"开箱即用"的完整方案。

创建 Agent →

✅ 特性总结

快速构建清晰的分类体系，帮助用户根据设定标准高效整理复杂数据。

多层级分类支持，实现主分类、子分类及更深层次的结构化整理。

一键生成格式化输出，呈现直观明了的层级数据结构，方便查阅与分享。

精准识别并优化数据分类逻辑，助力避免冗余或易混淆的交叉分类。

提供专家级数据整理建议，帮助用户优化数据的组织方式与可视化呈现。

高效适配多种数据场景，从销售数据、用户反馈到研究资料均可轻松管理。

灵活定制分类标准，根据具体业务需求生成定制化数据分类结果。

增强数据分析效率，通过首次整理和分类奠定可靠分析基础。

适用于各种格式要求，支持Markdown等多种层级化展示输出。

🎯 解决的问题

为用户提供高效的数据分类整理解决方案，帮助用户轻松处理复杂的数据集，快速建立多层级、逻辑清晰的分类结构，并呈现直观且易理解的格式化输出。能够满足数据分析、信息整理、项目归类等多种工作场景需求，赋能用户完成繁琐任务并显著提升效率。

🕒 版本历史

当前版本

v2.1 2024-01-15

优化输出结构，增强情节连贯性

✨ 新增章节节奏控制参数
🔧 优化人物关系描述逻辑
📝 改进主题深化引导语
🎯 增强情节转折点设计

v2.0 2023-12-20

重构提示词架构，提升生成质量

🚀 全新的提示词结构设计
📊 增加输出格式化选项
💡 优化角色塑造引导

v1.5 2023-11-10

修复已知问题，提升稳定性

🐛 修复长文本处理bug
⚡ 提升响应速度

v1.0 2023-10-01

首次发布

🎉 初始版本上线

COMING SOON

版本历史追踪，即将启航

记录每一次提示词的进化与升级，敬请期待。

💬 用户评价

4.8

⭐⭐⭐⭐⭐

基于 28 条评价

5星

85%

4星

12%

3星

👤

电商运营 - 张先生

⭐⭐⭐⭐⭐ 2025-01-15

双十一用这个提示词生成了20多张海报，效果非常好！点击率提升了35%，节省了大量设计时间。参数调整很灵活，能快速适配不同节日。

效果好节省时间

👤

品牌设计师 - 李女士

⭐⭐⭐⭐⭐ 2025-01-10

作为设计师，这个提示词帮我快速生成创意方向，大大提升了工作效率。生成的海报氛围感很强，稍作调整就能直接使用。

创意好专业

COMING SOON

用户评价与反馈系统，即将上线

倾听真实反馈，在这里留下您的使用心得，敬请期待。

加载中...

AI开发者

产品经理

商业分析师

电商运营人员

法律从业者

财务规划师

市场营销人员

品牌营销人员

新媒体运营

提示词工程

数据分析

写作

内容创作

内容营销

SEO

工具

商业战略

策略

DeepSeek

OpenAI

Claude

Gemini

Grok

Qwen

Kimi

本地化翻译器

参数填写器

Web chat适配器

个性化调校

API动态调校

多层数据整理

🎯 可自定义参数（3个）

🎨 效果示例

L1 业务域

商品-GDS

用户-CST

交易-TRX

履约-FUL

横向维度

地区-REG

时间-TIM

渠道-CHN

汇总统计模板（各节点订单数与GMV）

命名规范

同义词映射字典（示例）

可复制的层级清单与示例标签

计算与落地方法（简述）

1 计算机

1.1 自然语言处理 (NLP)

1.1.1 算法

1.1.1.1 预训练语言模型

1.1.1.2 机器翻译

1.1.1.3 文本摘要/问答

1.1.2 实验

1.1.2.1 基准评测

1.1.3 仿真

1.1.3.1 生成过程分析

1.2 计算机视觉 (CV)

1.2.1 算法

1.2.1.1 图像分类

1.2.1.2 目标检测

1.2.1.3 图像分割

1.2.2 实验

1.2.2.1 多模态评测

1.2.3 仿真

1.2.3.1 合成数据

1.3 机器学习通用

1.3.1 算法

1.3.1.1 强化学习

1.3.1.2 图神经网络

2 材料

2.1 储能

2.1.1 算法

2.1.1.1 材料性质预测（ML）

2.1.1.2 循环寿命预测

2.1.2 实验

2.1.2.1 锂离子正极/固态电解质

2.1.3 仿真

2.1.3.1 DFT/MD

2.2 催化