热门角色不仅是灵感来源,更是你的效率助手。通过精挑细选的角色提示词,你可以快速生成高质量内容、提升创作灵感,并找到最契合你需求的解决方案。让创作更轻松,让价值更直接!
我们根据不同用户需求,持续更新角色库,让你总能找到合适的灵感入口。
生成简要描述数据管道的文档,涵盖数据传输流程。
文档:从PostgreSQL到Hive的数据管道设计
该设计可覆盖从离线批处理到准实时的主要数据同步需求,确保在数据摄取、转换、存储与检索环节的稳定性、可维护性与合规性。
Kafka-to-HDFS Data Pipeline: Technical Overview
Purpose Move streaming data from Apache Kafka topics into HDFS for durable storage and downstream batch/interactive analytics. The pipeline ensures reliable ingestion, schema-aware transformation, efficient storage, and query-ready layout.
Architecture
Data Model and Schema
HDFS Storage Design
Reliability and Consistency
Security
Operations and Monitoring
Retention and Lifecycle
Example Implementation A: Spark Structured Streaming (PySpark)
from pyspark.sql import SparkSession, functions as F, types as T
spark = ( SparkSession.builder .appName("KafkaToHDFS") .getOrCreate() )
value_schema = T.StructType([ T.StructField("event_id", T.StringType(), False), T.StructField("event_time", T.TimestampType(), True), T.StructField("payload", T.StringType(), True) ])
df = ( spark.readStream .format("kafka") .option("kafka.bootstrap.servers", "broker1:9092,broker2:9092") .option("subscribe", "topicA,topicB") .option("startingOffsets", "latest") .load() )
parsed = ( df.select( F.col("topic").cast("string").alias("topic"), F.col("timestamp").alias("kafka_ts"), F.col("value").cast("string").alias("json") ) .selectExpr("topic", "kafka_ts", "json") .withColumn("record", F.from_json(F.col("json"), value_schema)) .select("topic", "kafka_ts", "record.*") .withColumn("event_time", F.coalesce(F.col("event_time"), F.col("kafka_ts"))) .withColumn("dt", F.to_date(F.col("event_time"))) .withColumn("hour", F.date_format(F.col("event_time"), "HH")) .withWatermark("event_time", "24 hours") # adjust to lateness tolerance # Optional dedup to mitigate at-least-once behavior upstream .dropDuplicates(["event_id", "dt", "hour"]) )
query = ( parsed.writeStream .format("parquet") .option("path", "hdfs:///data/lake/raw") .option("checkpointLocation", "hdfs:///chk/kafka_to_hdfs") .partitionBy("topic", "dt", "hour") .option("compression", "snappy") .option("maxRecordsPerFile", "500000") # tune to approach target file size .outputMode("append") .trigger(processingTime="1 minute") .start() )
query.awaitTermination()
Notes:
Example Implementation B: Kafka Connect HDFS Sink (Connector config)
{ "name": "hdfs-sink", "config": { "connector.class": "io.confluent.connect.hdfs.HdfsSinkConnector", "tasks.max": "4", "topics": "topicA,topicB", "hdfs.url": "hdfs://namenode:8020", "format.class": "io.confluent.connect.hdfs.parquet.ParquetFormat", "partitioner.class": "io.confluent.connect.storage.partitioner.TimeBasedPartitioner", "path.format": "topic=${topic}/dt=YYYY-MM-dd/hour=HH", "partition.duration.ms": "3600000", "flush.size": "100000", "rotate.interval.ms": "600000", "timezone": "UTC", "timestamp.extractor": "RecordField", "timestamp.field": "event_time", "hadoop.conf.dir": "/etc/hadoop/conf", "errors.tolerance": "all", "errors.deadletterqueue.topic.name": "dlq.hdfs" } }
Notes:
Testing and Validation
Change Management
This design provides a robust, secure, and scalable path from Kafka to HDFS with clear trade-offs between Spark and Kafka Connect. Choose the implementation aligned with transformation needs, operational model, and delivery semantics requirements.
MySQL 到 Apache Druid 数据管道设计(简要说明)
目标
总体架构
数据建模与转换
组件与关键配置
可靠性与一致性
性能与容量规划
安全与权限
运维与监控
验证与测试
检索示例(Druid SQL)
该方案结合批量与实时摄取,满足历史数据回灌与低延迟增量同步的需求,并通过合理的建模、分段与Roll-up提供稳定的查询性能与运维可控性。
为数据工程与分析团队快速生成标准化、可复用的“数据管道说明文档”,覆盖从来源系统到目标系统的传输路径与关键环节。通过参数化输入(如来源系统、目标系统、输出语言),在几分钟内产出清晰、结构化的文档,用于项目评审、跨部门对接、上线交付与审计合规。目标是降低文档撰写与沟通成本,提升交付速度与一致性,减少遗漏与返工,促使团队愿意试用并在实际项目中付费使用。
快速生成新管道的技术说明与交付文档,明确步骤与依赖,缩短开发对齐与上线时间。
统一各团队的文档格式与术语,建立标准模版与版本记录,提升治理和变更管控能力。
清楚了解数据来源、更新频率与质量控制点,保障报表口径一致,减少排查与返工。
将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。
把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。
在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。
免费获取高级提示词-优惠即将到期