数据可视化Skill：图表生成 - 学习笔记-流行Skills

一、数据可视化Skill的设计

数据可视化Skill的核心目标是帮助用户快速将原始数据转化为直观的可视化图表，大幅降低数据可视化的技术门槛。在日常数据分析和工作中，我们经常需要将数据以图表形式展示，但手动编写绘图代码往往耗时且容易出错。通过将这一能力封装为可复用的Skill，用户只需提供数据源和目标图表类型，即可一键生成专业级别的可视化图表。

一个优秀的数据可视化Skill应当具备以下特征：支持多种图表类型以满足不同分析场景的需求、提供智能的数据映射和类型推断能力、自动选择最优的配色方案和样式、以及支持输出多种格式和交互式图表。设计的核心目标是让"从数据到图表"的过程变得像说话一样自然流畅。

快速转化

提供数据即出图表，无需手动编写绘图代码，节省大量时间

多类型支持

覆盖柱状图、折线图、饼图、散点图、热力图等主流图表类型

样式定制

自动配色方案搭配自定义选项，满足品牌和出版需求

批量输出

支持PNG/SVG/HTML多格式导出，适合嵌入报告或文档

设计原则：数据可视化Skill遵循"数据输入自动推断、图表生成一键完成、输出格式灵活切换"三大原则。自动推断减少用户手动指定参数的负担，一键完成确保操作效率，灵活切换满足不同场景的输出需求。

二、多图表类型支持

图表类型的选择直接决定了数据故事的表达效果。一个完备的数据可视化Skill需要覆盖五大类图表，以满足从探索性分析到展示汇报的全链路需求。针对每一类图表，Skill 应当根据数据的特征（维度数量、数据类型、数值范围等）自动推荐最合适的图表类型，同时允许用户手动切换。

比较类图表

比较类图表用于展示不同类别之间的数值对比，是最常用的图表类型。柱状图适用于展示分类数据的数值大小比较，条形图（横向柱状图）适合类别名称较长时的展示场景，雷达图则擅长多维度综合对比，能够一目了然地呈现多个指标在不同对象上的表现差异。Skill 在生成比较类图表时应自动对数据进行排序（默认降序），突出最优和最差项。

趋势类图表

趋势类图表的核心目的是展示数据随时间或其他有序维度的变化规律。折线图是最经典的趋势展示方式，适合连续时间序列数据；面积图在折线图的基础上填充了下方面积，视觉上更强调变化的幅度；瀑布图则专注于展示数据的累积变化过程，特别适合财务分析中的利润构成拆解。生成趋势类图表时，Skill 应自动添加趋势线或平滑曲线选项。

分布类图表

分布类图表帮助用户理解数据的统计分布特征。散点图展示两个连续变量之间的关系，通过点的聚集程度发现相关性；直方图展示单变量数据的分布形态（正态分布、偏态分布等）；箱线图则浓缩展示数据的中位数、四分位数和异常点，适合多组数据的分布对比。Skill 在生成分布类图表时应自动计算基本的统计量并在图表中标注。

构成类图表

构成类图表展示部分与整体的关系。饼图是最直观的构成展示方式，适合展示占比超过5%的类别；环形图在饼图基础上挖空中心，可用于展示多层构成关系或在中心位置放置总量信息；堆叠图（堆叠柱状图/堆叠面积图）则在展示总体趋势的同时呈现各组成部分的变化。Skill 应自动将占比过小的类别合并为"其他"类别。

关系类图表

关系类图表揭示数据之间的复杂联系。热力图通过颜色矩阵直观展示多变量之间的相关性强度；桑基图展示流量或数值在多个阶段之间的流动和分配关系；树图通过嵌套矩形展示分层数据的占比关系，兼顾了层级结构和数值大小两个维度。这类图表通常涉及多维数据，Skill 需要自动完成数据的交叉透视和聚合计算。

# 图表类型选择逻辑
        输入: data, chart_type=None
        输出: 生成的图表

        IF chart_type 指定:
          使用指定类型生成
        ELSE:
          自动推断最佳类型:
            IF 数据包含时间字段:
              推荐: 折线图 / 面积图
            ELIF 数据包含多个分类字段:
              推荐: 柱状图 / 条形图 / 雷达图
            ELIF 数据为单变量数值:
              推荐: 直方图 / 箱线图
            ELIF 数据为两变量数值:
              推荐: 散点图
            ELIF 数据为构成比:
              推荐: 饼图 / 环形图

三、数据源处理

数据源处理是数据可视化Skill的入口环节，决定了图表的输入质量和灵活性。Skill 应当提供统一的数据接入接口，屏蔽不同数据源格式之间的差异，让用户以一致的方式使用各种来源的数据。无论是在数据分析工具中导出的CSV文件、API接口返回的JSON数据、还是数据库查询得到的结构化结果，都应能被无缝接入。

CSV文件读取

CSV是最常见的数据交换格式之一。Skill 应支持自动检测分隔符（逗号、制表符、分号等）、编码格式（UTF-8、GBK、Latin-1等）以及表头行位置。数据读取后自动识别每列的数据类型（数值、文本、日期、布尔值等），并对缺失值进行标记和处理。用户可以通过指令指定哪些列作为X轴、哪些列作为Y轴、哪些列用于分组或着色。

JSON数据解析

JSON格式常用于Web API和NoSQL数据库。Skill 需要能够处理嵌套的JSON结构，通过路径表达式（如 $.data.sales[*].amount）提取目标数据，自动将其展开为扁平化的表格结构。对于数组类型的JSON数据，Skill 应自动识别可用于分组的键和可用于绘图的数值键，并给出数据预览供用户确认。

SQL查询结果

对于需要从数据库中获取数据的场景，Skill 应支持直接接受SQL查询语句作为输入。用户提供数据库连接信息和SQL查询，Skill 执行查询后直接将结果集用于图表生成。这种模式特别适合构建数据看板和定期报告，每次运行Skill时自动从数据库拉取最新数据生成最新图表。支持常见数据库（MySQL、PostgreSQL、SQLite、SQL Server等）。

数据自动推断

数据自动推断是Skill智能化的关键体现。在接收到数据后，Skill 应当自动完成以下操作：识别每列的数据类型和取值范围、检测数据中的异常值和缺失值、判断数据的维度和粒度、根据数据特征推荐适合的图表类型和聚合方式。用户无需手动指定数据映射关系，Skill 会自动将数据列匹配到图表的横轴、纵轴、图例等元素上。

# 数据加载与预处理流程
        def load_data(source, format="auto"):
            # 自动检测格式
            if format == "auto":
                format = detect_format(source)

            # 根据格式加载
            if format == "csv":
                df = read_csv(source, encoding="auto", delimiter="auto")
            elif format == "json":
                df = read_json(source, flatten=True)
            elif format == "sql":
                df = query_database(source)

            # 自动类型推断
            df = infer_column_types(df)

            # 数据预览
            return summarize(df)

核心要点：数据源处理的关键在于"自动检测"和"灵活适配"。自动检测减少用户手动指定的麻烦，灵活适配确保各种数据来源都能被顺畅处理。建议在数据加载后始终返回预览信息，让用户有机会在生成图表前确认数据是否正确加载。

四、图表代码生成

图表代码生成是数据可视化Skill的核心能力。Skill 内部集成了多种主流可视化库的代码生成引擎，能够根据用户指定的图表类型和样式自动生成对应库的绘图代码。用户可以选择直接输出最终图表，也可以获取生成的代码进行二次修改和定制。这种"代码可获取"的设计理念兼顾了效率提升和学习成长的双重需求。

Matplotlib / Python 绘图代码

Matplotlib是Python生态中最成熟的可视化基础库，适用于科学出版物和学术论文中的静态图表。Skill 能够生成完整的Matplotlib绘图代码，包括数据加载、图表创建、样式设置、标签添加和保存导出等全链路。生成的代码遵循PEP 8规范并包含必要的注释，用户可以直接复制到Python环境中运行或进一步修改。

# Matplotlib 自动生成代码示例
        import matplotlib.pyplot as plt
        import pandas as pd

        # 数据
        df = pd.read_csv("sales_data.csv")
        categories = df["category"]
        values = df["revenue"]

        # 创建柱状图
        fig, ax = plt.subplots(figsize=(10, 6))
        bars = ax.bar(categories, values, color="#2c9f6e", edgecolor="white")

        # 样式设置
        ax.set_title("各品类营收对比", fontsize=16, pad=20)
        ax.set_xlabel("品类", fontsize=12)
        ax.set_ylabel("营收（万元）", fontsize=12)
        ax.spines["top"].set_visible(False)
        ax.spines["right"].set_visible(False)

        # 数值标注
        for bar in bars:
            height = bar.get_height()
            ax.text(bar.get_x() + bar.get_width()/2., height,
                    f"{height:.1f}", ha="center", va="bottom")

        plt.tight_layout()
        plt.savefig("chart_output.png", dpi=300)
        plt.show()

Plotly 交互式图表

Plotly擅长生成交互式图表，支持鼠标悬停查看数据详情、缩放平移、点击筛选等交互操作，非常适合Web展示和数据探索场景。Skill 生成的Plotly图表代码包含完整的交互配置，悬停提示模板、缩放模式和布局响应式设置。生成的HTML文件可直接在浏览器中打开，享受完整的交互体验。

ECharts 前端配置

ECharts是百度开源的前端可视化库，在大屏展示和数据看板领域应用广泛。Skill 能够生成完整的ECharts option 配置对象，涵盖标题、图例、坐标轴、数据系列、工具箱和视觉映射等全部组件。生成的配置可以直接粘贴到ECharts的实例化代码中使用，适合前端开发者的集成场景。

// ECharts 自动生成配置示例
        option = {
            title: { text: "月度销售趋势", left: "center" },
            tooltip: { trigger: "axis" },
            legend: { data: ["销售额", "利润额"], bottom: 0 },
            xAxis: {
                type: "category",
                data: ["1月","2月","3月","4月","5月","6月"]
            },
            yAxis: { type: "value" },
            series: [
                {
                    name: "销售额",
                    type: "line",
                    data: [120, 135, 150, 142, 168, 185],
                    smooth: true,
                    lineStyle: { width: 3 },
                    areaStyle: { opacity: 0.15 }
                },
                {
                    name: "利润额",
                    type: "bar",
                    data: [30, 35, 42, 38, 45, 52],
                    itemStyle: { color: "#e67e00" }
                }
            ]
        };

配色方案与样式定制

配色方案直接影响图表的美观度和信息传达效果。Skill 内置了多套经过专业设计师验证的配色方案，包括：学术出版风格（色调克制、适合论文配图）、商业报告风格（色彩鲜明、适合PPT展示）、色盲友好风格（使用色盲患者可辨识的配色方案）、以及深色背景风格（适合大屏和数据看板）。用户可以通过指令切换配色方案，也可以自定义颜色值。此外，Skill 还支持全局样式设置，包括字体大小、坐标轴样式、图例位置、网格线透明度等。

配色建议：学术论文推荐使用色盲友好配色（如ColorBrewer的Set2方案），确保在黑白打印时仍可区分；商业报告推荐品牌色系，与公司VI保持一致；数据看板推荐深色背景高饱和配色，提升屏幕上的视觉冲击力。自定义配色时注意色彩之间的对比度和和谐度。

五、批量生成和导出

批量生成和导出功能将数据可视化Skill从单次工具升级为可支撑生产环境的效率平台。在数据分析项目中，经常需要为多个维度或分类生成大量图表，比如按月生成销售趋势图、按地区生成业绩对比图、按产品线生成利润分析图等。人工逐一生成这些图表不仅耗时，而且难以保证样式的一致性。批量生成能力让这一切变得自动化。

多维度批量生成

用户可以通过指定分组维度（如"按月份"、"按部门"、"按产品类别"）让Skill自动拆分数据并为每个分组生成一张图表。所有生成的图表使用统一的样式模板，确保整体风格一致。用户还可以指定图表的布局排版方式（如2x3网格、4x4网格等），批量图表自动排列为一张大图或一个多页PDF文档。

多格式导出

Skill 支持多种输出格式以满足不同使用场景：PNG格式适合嵌入文档和PPT、SVG格式适合矢量编辑和印刷出版、HTML格式保留交互功能适合Web发布。用户可以通过一条指令同时导出多种格式，无需逐一操作。导出时自动设置合理的分辨率（PNG默认300 DPI满足出版要求），SVG导出时会清理不必要的冗余代码减小文件体积。

嵌入报告与文档

生成的图表可以自动嵌入到报告模板中。Skill 支持将图表插入到Markdown文档、Jupyter Notebook、HTML报告等格式中，自动完成图片路径引用或Base64编码内嵌。对于需要定期更新的报告，Skill 可以记住报告模板和图表配置，每次更新数据后重新运行即可生成刷新图表后的完整报告。

# 批量生成指令示例
        skill: 数据可视化
        action: batch_generate
        config:
          data_source: "monthly_sales.csv"
          chart_type: ["bar", "line", "pie"]
          group_by: "region"
          style: "corporate_blue"
          export:
            formats: ["png", "svg", "html"]
            layout: "3x3"
            dpi: 300
          embed:
            report: "monthly_report.md"
            position: "after_summary"

性能注意事项：批量生成大量图表时，注意以下几点：数据量过大的图表建议先进行数据采样或聚合；大批量导出PNG格式会消耗较多内存和磁盘空间，建议优先使用SVG矢量格式；HTML格式的交互图表单个文件体积相对较大，批量生成时注意控制文件总大小以便于分发。

核心要点：批量生成的核心价值在于"一次配置、重复执行"。通过将图表样式、布局、格式等参数固定为配置模板，用户可以在数据更新后一键重新生成整套图表，彻底告别手动调整的重复劳动。建议将常用的图表配置保存为配置文件，纳入版本管理。