数据库查询Skill：自然语言SQL查询

一、数据库查询Skill的设计

数据库查询Skill的核心目标是让用户能够用自然语言描述查询需求，系统自动将其转换为正确的SQL语句并执行，最终以友好的格式展示查询结果。这一设计大幅降低了数据库查询的门槛，使非技术用户也能快速从数据库中获取业务数据。

该Skill的设计理念是"智能代理即查询助手"——用户无需记忆复杂的SQL语法、表结构或字段名，只需用日常语言描述"想要什么数据"，Skill便能自动完成从理解意图到生成SQL再到结果展示的全流程。这对于产品经理、运营人员、业务分析师等角色尤其有价值，他们可以自助获取数据洞察，而无需每次都向数据团队提出查询请求。

在实际设计中，该Skill需要集成的能力包括：数据库Schema元数据读取、自然语言到SQL的智能转换、安全的查询执行沙箱、以及结果的可视化格式化输出。这些能力共同构成了一个完整且安全的数据库查询代理。

降低查询门槛

无需掌握SQL语法，用自然语言直接提问，系统自动完成转换和执行

快速获取数据

从提出需求到获得结果，整个过程在几秒内完成，大幅提升数据获取效率

安全可控

强制只读模式，禁止写操作，自动限制查询行数，杜绝误操作风险

多库支持

支持PostgreSQL、MySQL、SQLite等多种主流数据库，灵活适配不同业务场景

二、Schema自动读取

Schema自动读取是数据库查询Skill的基石。在将自然语言转换为SQL之前，Skill需要首先了解数据库中存在哪些表、每个表包含哪些字段、字段的数据类型和注释信息，以及表与表之间的关联关系。只有掌握了这些信息，才能准确地生成符合数据库结构的SQL查询。

Schema读取的核心流程如下：首先通过数据库MCP（Model Context Protocol）工具连接到目标数据库，然后执行元数据查询语句获取所有表的列表。对于每一张表，进一步查询其字段详情，包括字段名、数据类型、是否为主键、是否有默认值、以及字段注释等信息。此外，还需要读取索引信息和外键关系，构建出完整的数据库关系图。

Schema信息示例

-- 获取所有表信息（PostgreSQL）
SELECT table_name, table_type, table_comment
FROM information_schema.tables
WHERE table_schema = 'public';

-- 获取字段信息
SELECT column_name, data_type, is_nullable,
       column_default, character_maximum_length
FROM information_schema.columns
WHERE table_name = 'orders';

获取的Schema信息会被组织成一个结构化的上下文对象，在生成SQL时作为系统提示的一部分传递给大语言模型。这样模型就能清楚地知道有哪些表可以用、字段叫什么名字以及它们之间的关系，从而生成正确的SQL。

要点提示：Schema读取应当在每次查询时动态刷新，因为数据库结构可能发生变化。同时可以缓存Schema信息以减少重复查询开销，但需要设置合理的缓存失效策略（例如每小时刷新一次）以保持数据新鲜度。

三、自然语言转SQL

自然语言转SQL是整个Skill的核心能力。当用户输入一个查询需求时，例如"查询上个月销量前十的商品"，Skill需要理解用户的意图，并结合Schema上下文生成正确的SQL语句。

这一过程涉及多个技术环节：首先是意图识别，确定用户想要查询什么、按什么条件过滤、用什么维度分组、是否需要排序和限制条数；然后是Schema匹配，将用户提到的业务概念（如"商品""销量""上个月"）映射到具体的数据库表和字段上；最后是SQL生成，将分析结果转化为符合语法的SQL语句。

查询转换示例

/* 用户提问：查询每个分类下商品的平均价格，按降序排列 */

/* 生成的SQL： */
SELECT
    c.category_name,
    ROUND(AVG(p.unit_price), 2) AS avg_price
FROM products p
JOIN categories c ON p.category_id = c.category_id
GROUP BY c.category_name
ORDER BY avg_price DESC;

对于更复杂的查询，系统需要支持多表JOIN、GROUP BY聚合、HAVING过滤、子查询、窗口函数等高级SQL特性。例如"查询每个部门工资排名前三的员工"就会涉及到窗口函数的使用，而"查询最近一个月有订单但去年同月没有订单的客户"则需要子查询或集合操作。

核心要点：生成的SQL必须在执行前展示给用户预览，让用户确认SQL的正确性和意图是否符合预期。这既是一个透明性保障，也是一个安全机制，用户可以及时发现潜在的不正确查询并加以修正。

四、查询结果格式化

原始SQL查询返回的结果通常是结构化的行和列数据，直接展示给用户不够直观。查询结果格式化模块负责将查询结果转化为用户友好的呈现方式，让数据一目了然。

默认情况下，查询结果以表格形式展示，表头使用字段名或字段注释，支持列宽自适应和交替行颜色。对于返回大量数据的查询，自动启用分页功能，每页显示一定数量的行，用户可以通过翻页浏览完整结果集。同时提供排序功能，用户可以点击列标题按该列排序。

结果格式多样性

为满足不同用户的需求，查询结果支持多种输出格式的切换：

表格视图（默认）：适合快速浏览和数据对比，支持分页和排序
JSON格式：适合开发者和API集成场景，结构化的数据交换格式
CSV格式：适合数据导出和进一步分析，可下载为文件

自动统计分析

除了展示原始数据外，系统还会自动对结果进行一些基本的统计分析，帮助用户快速把握数据特征：

记录总数：查询返回的总行数
数值列统计：对数值型字段计算总和、平均值、最大值、最小值
分类分布：对枚举型和字符串型字段统计不同值的出现频次
空值率：各字段的空值比例

使用技巧：当查询返回聚合数据（如按月份的销售额趋势）时，系统会主动建议适合的数据可视化类型，如折线图、柱状图或饼图，帮助用户更直观地理解数据中的趋势和模式。

五、安全限制和实践

数据库查询Skill在提供便捷查询能力的同时，必须将安全放在首位。毕竟让AI直接连接生产数据库并执行查询，如果缺乏完善的安全机制，可能会造成数据泄露或误操作风险。因此安全限制是Skill设计中不可忽视的核心环节。

核心安全策略

安全规则	说明	实现方式
强制只读	仅允许SELECT查询，禁止INSERT/UPDATE/DELETE等写操作	在执行前解析SQL，检查非SELECT语句直接拒绝
行数限制	自动添加LIMIT子句，防止大数据量全表扫描	默认LIMIT 100，用户可调整上限（不超过1000）
危险操作拦截	禁止DROP、TRUNCATE、ALTER、CREATE等DDL操作	SQL关键字黑名单匹配 + 语法树分析双重校验
超时保护	查询执行超时自动终止，避免长时间运行	设置statement_timeout（如30秒），超时后自动取消
敏感字段脱敏	对密码、手机号、身份证等敏感字段自动脱敏	根据字段名模式匹配（如含password、phone等关键词）

查询安全检查流程

每一次查询在执行前都会经过完整的安全检查流水线：

def safety_check(sql_query, db_config):
    # 1. SQL语法解析
    parsed = parse_sql(sql_query)

    # 2. 检查是否为只读查询
    if parsed.statement_type != 'SELECT':
        raise SafetyViolation("仅允许SELECT查询")

    # 3. 检查危险关键字
    blocked_keywords = ['DROP', 'TRUNCATE', 'ALTER', 'CREATE']
    for kw in blocked_keywords:
        if kw in sql_query.upper():
            raise SafetyViolation(f"禁止使用 {kw} 操作")

    # 4. 自动添加LIMIT限制
    if 'LIMIT' not in sql_query.upper():
        sql_query += ' LIMIT 100'

    # 5. 设置查询超时
    db_config.statement_timeout = 30000  # 30秒

    return sql_query

安全警示：数据库查询Skill应当使用独立的只读数据库账号进行连接，从数据库层面就限制写操作权限。即使上层安全检查出现漏洞，数据库权限也能作为最后一道防线。永远不要在生产数据库上直接使用该Skill，应使用只读副本或专门的查询从库。

多数据库支持

为了适应不同的业务场景，数据库查询Skill需要支持多种主流数据库系统。虽然SQL语法大体相同，但不同数据库在数据类型、函数、分页语法、元数据查询方式等方面存在差异。Skill需要能够识别数据库类型并针对性地调整生成的SQL。

例如，分页查询在MySQL中使用LIMIT/OFFSET，在PostgreSQL中同样使用LIMIT/OFFSET但支持更丰富的语法，而在SQL Server中则需要使用OFFSET/FETCH NEXT或TOP语法。Schema元数据的查询方式也各不相同，PostgreSQL使用information_schema，MySQL使用SHOW TABLES和DESCRIBE，SQLite则使用sqlite_master系统表。

支持多数据库的最佳实践是在Skill配置中声明数据库类型，然后在SQL生成模板中根据数据库类型选择对应的语法变体。这样可以在统一的自然语言查询接口之下，灵活适配不同的数据库后端。