AI应用实践-智能BI(智能问数与智能数据分析)
商业智能(BI)
商业智能(BI)
定义:根据IBM的定义,商业智能(BI)是一套用于收集、管理和分析组织数据以生成为业务战略和运营提供洞察信息的技术流程。
商业智能与业务分析的关系:商业智能 (BI) 属于描述性信息,它可基于当前业务数据基础来实现更明智的业务决策。因此,业务分析 (BA) 是 BI 的一个子集,它可提供规范性和前瞻性的分析。它是 BI 基础设施的总括,其中包括用于识别和存储决策所需数据的工具。
BI工具历史
历史:固定报表BI->自助式BI->智能BI
固定报表式BI
定义:通过手工编写复杂的SQL代码,固定代码定期调度查询执行,查询数据呈现作为固定报表使用。
典型使用对象:数据工程师、数据开发者。
数据刷新频率:每月、每周。
主要交互方式:即席查询。
技术发展背景:信息化。
典型工具:国内有金蝶、用友,国外有Oracle、SAP、Hyperion(海波龙)、IBM Cognos Analytisc早期等。
主要问题:按需要开发,定制化交付,对代码编写要求比较高,编写复杂而且由于代码固定修改代价比较高,对开发设计人员的要求比较高,响应周期长、交互体验差、适应性比较差。
自助分析式BI
定义:通过“拖、拉、拽”等方式拼接生成SQL语句,再针对拼接后SQL语句调测验证后,调度查询数据形成前台可视化数据或报表呈现。
典型使用对象:业务数据分析师、数据开发者。
数据刷新频率:每天、每小时。
主要交互方式:拖拉拽控件形成可视化图表。
技术发展背景:数字化。
典型工具:国内有帆软BI、永洪BI,国外有商业软件PowerBI、Tableau、QlikView、ThoughtSpot,开源软件Apache Superset、Metabase等。
主要问题:操作繁琐复杂、需要明确各种数据表之间的关系,自助化交付、还需要一定的SQL编写和验证能力,导致操作效率比较低,操作门槛高的问题。
关于商业智能 (BI)的观点
Traditional BI Can’t Keep Up.Static dashboards, request backlogs, stale data—this outdated model slows decisions and stalls innovation.In a real-time world, insights should flow live into workflows so every team can act with confidence, not lag behind.(传统商业智能 (BI) 已经跟不上时代了。静态的仪表板、积压的数据请求、过时的数据——这种落后的模式拖慢了决策速度,阻碍了创新。在实时的世界里,洞察应该实时地融入工作流程中,让每个团队都能充满信心地采取行动,而不是落后于人) ——ThoughtSpot
智能BI(智能问数与智能数据分析)
定义:借助Text2SQL(NL2SQL, Natural Language to SQL)等技术,代替使用结构化查询语言SQL的图形化界面(GUI)交流数据,实现用自然语言的交互方式获取、理解并分析数据,降低技术要求、提升取数效率和节约成本、改善用户体验,进一步深度挖掘数据潜在价值。
典型使用对象:所有人(市场、销售、业务和技术人员)。
数据刷新频率:分钟级、秒级。
主要交互方式:自然语言交流。
技术发展背景:智能化。
意义:借助不断迭代升级自适应各种场景的LLM,用自然语言和数据进行多轮并且上下文关联式的交流,将会成为以后普遍的数据访问形式、数据挖掘方式和数据库管理方式,也将作为产品设计中不可或缺的关键功能设计。
核心技术
核心技术:大语言模型学习和微调 + 语义标注和解析 + SQL转换(数据库技术)
语义标注和解析(自然语言处理,NLP) :通过用户业务数据标注,利用向量数据库和知识图谱,实现Prompt优化。
大语言模型学习和微调(大语言模型):当语料标注数据无法满足要求时,利用构建的Text2SQL(NL2SQL)问答对标注集,对大模型进行微调。
系统架构设计
最简架构设计
用户自然语言请求->大模型处理转换SQL->数据库执行SQL->获取数据库相关数据->大模型依赖数据和用户问题解答用户。
大模型处理转换SQL技术难点:SQL可用性问题, 大模型需要知道需要查询哪些表和字段,知道解决用户问题需要什么样的查询语句,理解用户意图并能转换为数据库信息。
最简使用过程
创建模型->对话转SQL->数据查询执行->数据分析可视化
复杂架构设计
复杂架构设计:
硬件组件:专用算力组件(英伟达GPU/华为NPU等计算设备)、通用算力组件(x86/Arm等设备),用途是构建系统承载软件执行的硬件设备。结合使用要求,这个组件也可以是云化组件,即可以使用一种云平台上的不同硬件设备,也可以是对接多种云计算平台。
数据组件:也可以看成是知识库的一部分。技术上由数据库软件和数据适配器组成,逻辑上对外以数据集和逻辑模型呈现。数据库软件可以是任何结构化或者非结构化的数据库软件,典型如PostgreSql/Oracle/Mysql等。数据适配器的南向接口可以连接并适配多种数据库系统,并实现数据库内部跨schema、跨异构同构数据库数据内容连接功能,其北向接口作为唯一的数据对外接口,屏蔽异构数据库的对外影响,统一一致获取数据。数据库数据结合数据源、账号、schema模式、表视图名等信息,实现相同业务数据的数据集管理。结合数据适配器,完成数据集内部和数据集之间的逻辑模型建立和关联(既可以用传统的数据模型关联策略,也可以使用图数据库建立表关系和多表关联路径),数据内容在字段级或数据标准级实现语义解释(中文汉字解释或者英文解释注释)、枚举值和别名标记、指标数据建立(定义指标内容、使用的字段和指标计算公式)。
大模型组件:大模型组件由大模型和大模型适配器组成,其和数据库组件类似,大模型可以是任何开源或者闭源的大模型软件,典型如deepseek/OpenAI/Qwen等,大模型适配器的南向接口可以连接并适配多种大模型,其北向接口作为唯一的大模型对外接口,屏蔽内部异构大模型的对外影响。从长远来看,这个组件可以有更丰富的内容,可以向其中添加成熟固定的模型算法包(实现数据统计、趋势分析、异常检测等功能)、反应快速灵活以解决特定问题的小模型(语义分词、意图识别、实体关联和SQL生成)或多模态模型(prompt、grounding、语义推理),以实现对数据更丰富的处理。
通用管理组件:该组件由软件系统的最基本内容构成,以实现用户、角色和租户管理、权限控制(查询SQL显示字段检查用户是否有查看权限,权限控制粒度到字段级)、登录认证、隐私保护(加解密)、运维管理、资源管理、负载均衡、接口管理、数据集场景管理(不同数据集构成不同业务场景)、全生命周期管理等软件通用管理功能。
前台组件:用户交互组件,是用户直接使用、感知最强的IT组件,最少由输入器和输出器组成。输入器和输入器最低支持文字输入和呈现。结合通用管理组件的接口管理功能,可以灵活适配和使用已有系统的前台页面和新添加的对话式交互工具,根据用户需要实现数据SQL呈现、SQL修改、SQL二次执行、可视化呈现等功能。在对话式交互中实现多轮连续会话分析。未来这里可以实现数据导出、看板报告等内容生成和分享。
语义组件:根据尼尔森《十大可用性原则》贴近场景原则,构建提示词、常用词、近义词、同义词、通用词、专业术语、专有名词(方言)映射关系和数据库,构建语义词库,可结合业务需要个性化配置,实现日期、时间等通配符转换,适配不同格式情况,提升反馈准确性。记录高频会话中的常用信息,或对典型语句做收藏保存,实现语义信息的高效调用。这里可以使用模式关系抽取技术(schema linking),实现对schema智能筛选、自动获取查询相关的表结构和字段信息。或者使用分词技术,将一句话分解为多个词组,结合语义词库,实现对词组和逻辑模型信息的匹配,实现用户输入内容的完整意图识别。
质量安全控制组件:结合通用管理组件,完成对用户输入信息意图理解校验(从简单的讲可以是看用户输入是否符合Prompt模板,或者是其内容是否超过token数量限制)、生成SQL的语法校验(确保SQL内容符合数据库使用的高效语法)、生成SQL一致性校验(在产生多条SQL时确保生产SQL的一致性)、数据结果权限校验(判断用户是否有查询该数据的权限)、数据库安全校验等功能,还可以校验处理LLM的“幻觉”问题。
Text2SQL组件:也可以是Text2SQL引擎,实现从前台组件获取用户自然语言需求内容,调用大模型组件、数据库组件、语义组件转换为查询SQL,调用查询SQL返回SQL和数据给前台组件。其由语言解析器和SQL执行器组成:语言解析器:对文本进行解析后转换为SQL语句,包括根据问题和数据库的映射找到问题需要使用的表和对应的字段列,将识别结果和包含信息后,生成满足对应语法要求的SQL语句。SQL执行器:执行SQL语句内容。
针对Text2SQL组件,当前主要使用监督微调技术(SFT-Based)和提示词工程方案(Prompt-Engineer)。监督微调技术(SFT-Based)就是以通用大模型为基础,利用微调技术,有针对性地训练大模型在某一方面的专有能力。针对提示词工程方案(Prompt-Engineer),实际业务场景中,通过搜集历史数据,用户90%的常用场景可以收集完整,同一类场景SQL查询基本相似,进而可以构造出公共模板。可以先通过对问题信息提取做出场景归类,再根据场景选择对应的查询提示词模板,在利用RAG和外挂知识库,动态增强NL2SQL能力。
关键技术
提示词工程方案(Prompt-Engineer):设计问题和指令,获取大模型最佳输出的过程。为了清晰地传达内容和信息,将问题结构化,利用具体和多样化的示例来帮助大模型生成准确结果,并用约束来限制大模型输出的内容范围,避免偏离和越权问题。其会涉及的提升类型有直接提示(zero-shot)、带示例提示(one-shot/few-shot/multi-shot)、思维链提示(CoT)、指定所需输出格式等。
提示词测试方案(Prompt-Test):通过迭代测试的方式,编写出合适的Prompt模板。
Prompt模板构建方法:
1. 构造测试集;根据问题和答案,挑选一定数量的典型样例,构造数据集,以方便每次修改Prompt后都可以跑通测试,确定Prompt哪里表现有问题。
2. 分析并编写问题从接收到解决全过程的关键要点:包括自身角色(任务是什么,实现什么功能)、功能介绍(任务操作哪些表和字段,目标是什么,就像教育新人要干什么,用什么,结果是什么)、使用数据集、问题描述、问题定义、样例、输出格式、字段必要信息、必要指令等,利用LLM优化构造完整的Prompt格式模板内容。
3. 测试迭代优化:利用测试集,测试Prompt模板,根据结果修改Prompt模板内容。
Prompt模板注意点:
4. 不同大模型对Prompt的理解不一样,Prompt模板需要手动不断调整。
5. 构建模块过程中可以了解大模型的知识特点和Prompt技巧,加快Prompt模板生成。
6. 在Prompt模板中可以通过添加关键字设置,加快高频使用场景下的反应速度。
Prompt构造模板内容:使用五元组<Role, Instructions, Database, Examples, Output Format>构成,Role定位Prompt的身份功能任务角色,Instructions进一步解释功能,并添加限制性因素和要求,方便后期对大模型结果进行提取, Database包含数据库名称、数据表名、字段名、字段类型、主外键等数据元信息,指出查询的业务信息对应的使用哪些数据库。 Examples由问题(query)和回复参数(response)组成:问题是常用的自然语言查询问题,回复参数(response)是对应自然语言问题对应数据表、数据字段和取值信息等。Output Format定义模型返回的数据格式, 和Examples中的回复参数(response)保持一致。
Prompt典型论文:Large Language Models Are Human-Level Prompt Engineers:2023年Yongchao Zhou等人提出,Automatic Prompt Engineer (APE)来指导大语言模型提示词的生成和选择。GitHub地址:https://github.com/keirp/automatic_prompt_engineer
产品设计要点
- 整体思路:分析清楚业务问题是什么,归总人工工作流程,针对流程环节情况,确定哪些地方可以做大模型替代。可以先选择难度低的问题,把流程跑通后,再向高难度迭代,核心不是技术的高级与否,核心在解决用户的问题。
- 系统中如果希望实现模型训练或者微调,如果不是已经现成的模型,最好是不添加这些功能。理由:大模型的训练和微调目前来看仍然是难度比较高的活动,模型训练一般耗时比较长、微调的方式不同呈现的效果也不一样,对用户的能力要求比较高,从用户体验角度看,这个功能不一定能给用户带来特别大的使用体验的提升,可能还有点费力不讨好的风险。个性化定制化的设计一定要慎重谨慎。
- 优先聚集在高频、通用作业数据使用场景,建立样板点或样板间,提升大模型在用户侧的体验感知。可以建立典型问题集,通过和用户沟通,获取典型高频的问题,构建用户问题+后台SQL操作映射表,根据对映射表的分析,初步理解用户的使用特点、难点所在。
- 数据质量是大模型性能和结果可靠性的前置条件。分析用户使用数据过程,根据用户问题和常用数据,确定所使用的数据结构形式和内容,理解数据库表和字段及其背后的业务语言和逻辑,理解业务问题、使用表和字段信息、真实回复、查询SQL内容、SQL检索方式。
- 通用管理组件中的运维管理功能,要实现对系统的持续监控。监控结果、用户反馈和用户需求一起考虑,促进系统的迭代优化和高效执行。
设计实施过程
从实现的功能进化角度,可以先实现快速找数,快速掌握数据全貌,其次通过技术实现数据的复杂组合分析,最后探索根据提供的分析组合叠加数据的关联关系,进一步辅助分析决策。
优秀实践产品
| 产品 | 介绍 |
|---|---|
| 阿里瓴羊Quick BI | 中国唯一且连续6年入选 Gartner 的 ABI 产品。大模型时代的全场景数据分析 AI+BI 产品。是阿里云推出的大模型驱动数据分析产品,深度融合 BI 与 AI Agent 能力,帮助企业快速构建数据分析系统。用户可通过自然语言与分析 Agent “智能小Q” 交互,实现自动数据洞察、报表生成和多轮深度分析,并支持拖拽式制作仪表板、电子表格与数据大屏。同时,产品支持多数据源连接、一键报告生成和多端共享,推动企业从“被动看数”迈向“主动用数”,赋能业务智能决策与高效协同。无缝对接企业系统,灵活嵌入,安全增强数据协作。自然语言开启多维问数,多步取数,挖掘深层洞见。自动生成真实深度报告,优化策略,支持二次编辑。海量数据毫秒响应,实时计算,高效支撑业务决策。 |
| 阿里析言GBI产品 | 基于阿里云通义大语言模型在数据分析领域专门增强的原生数据助理,通过自然语言交互实现NL2SQL、数据问答、分析、洞察等多维度的大模型智能分析应用,实现数据查询、分析与报告生成,适用于业务变化较快、数据分析时效性强的一线业务场景。 |
| 智能分析助手(SwiftAgent) | 数势科技开发的、基于大模型和AI Agent的企业数据分析与决策产品,可实现基于自然语言的业务数据洞察、报告总结和决策建议。功能上支持文本、语音、Excel等数据类型输入,方便客户在移动端和PC端快速完成数据查询。支持用户通过对业务数据进行维度归因、因子归因、时间序列归因与相关性分析等多种洞察方法,完成数据波动归因。支持对结果数据集进行如同环比、占比、排序和高级聚合等多种高级统计分析方式。可贴合用户问题,自动匹配生成多种分析图表。基于数据分析结果及行业微调大模型,生成贴合业务场景的行业报告。 |
| 百分点商业智能系统(Clever BI) | 一款AI驱动的数据分析产品,依托自然语言处理和深度学习技术,用户可通过自然语言与系统进行可视化交互,轻松实现多源数据关联、挖掘分析,支持数据整合、分析、可视化的全流程自助式操作,大大降低数据分析的门槛,为数据应用和决策研判提供有力支撑。 |
| 百度GBI | 一款生成式商业智能产品,具有强大的创新驱动功能。它集成了数据集成、智能分析等功能于一身,帮助企业快速发现新的商业机会和创新点。百度GBI具有支持自然语言交互、跨数据库分析和专业知识学习三方面能力。 |
产品实践案例
| 产品 | 介绍 |
|---|---|
| 喜马拉雅基于大模型ChatBl实践探索 | 喜马拉雅基于大模型 ChatBI 的实践探索,文中将重点介绍关于准确性和大模型幻觉等问题的解决方案。 |
| Bilibili Data AI 探索和实践 | 介绍从数据整合到决策提效:B 站数据知识库与增强分析协同的端到端实践。 |
| ChatBI:基于文心一言的生成式数据分析技术探索 | 本文将深入剖析商业智能(BI)与生成式模型结合带来的业务价值和技术实践经验。重点从三个视角和大家进行了交流分享。第一,从技术趋势和业务需求视角,论证了生成式智能BI必然技术趋势和带来的巨大业务价值;第二,从系统设计视角,介绍了百度数据中台ChatBI设计思路和关键点。第三,从新技术实践实践视角,介绍了ChatBI在百度落地过程中遇到的问题和解决思路。 |
| 腾讯基于LLM的智能数据分析平台OlaChat的落地实践 | 在当今快速发展的数据分析领域,智能分析平台正经历从传统 BI 到敏捷分析,再到智能分析的转变。随着移动互联网的兴起和大语言模型的出现,数据分析变得愈加普及,用户可以通过自然语言与系统进行互动,获取所需数据。然而,即使在敏捷分析阶段,仍然存在一定的学习成本。大语言模型的引入为数据分析带来了新的机遇,它不仅提升了语言理解和生成能力,还使得逻辑推理与工具使用变得更加高效。通过对用户自然语言指令的理解和转化,智能分析平台能够实现更直观的数据查询和分析过程,为用户提供更为便捷的服务。本文将分享腾讯基于 LLM 的智能数据分析平台 OlaChat 的落地实践. |
| 腾讯在 ABI 工程领域的探索与实践 | 本次分享将深入探讨腾讯在智能化 BI 系统中的技术实践,详细阐述如何通过工程架构、微调模型、引导补全、前端指令层设计等手段,提升数据分析的智能化水平,以实现更高效、更智能的商业智能分析。 |
| 腾讯云ChatBI:基于大模型的效果调优方案探索 | 本文主要探讨了腾讯云 ChatBI 如何利用大模型技术进行效果调优,以提供更高效、便捷的数据分析体验。 |
技术挑战
- 数据质量和语法差异:数据集和逻辑模型的建立,依赖企业内部的数据管理和信息架构。对于交易型数据系统内数据的主外键缺失、字段注释解释缺失等数据质量问题,导致查询效率比较低,影响数据查询结果的准确性。分析型数据系统内为加快查询而不使用主外键设置,使用“粒度”作为查询和关联字段信息的媒介,也会影响逻辑模型间的数据关联,进而影响数据结果的正确反馈。不同的数据库使用不同的数据库语法,导致写出的SQL执行情况有差异。
- 自然语言理解的准确性:大模型本身的“幻觉”问题、自然语言的多样性、歧义性可能造成查询错误,导致数据准确性和系统可靠性下降,影响用户使用信心。
- 领域差异:隔行如隔山,每个领域都有自己的专业术语、黑话方言等语言特点,造成需求差异比较大,理解困难,如何结合这些语言特点去适配不同领域的查询诉求,是比较大的挑战。
- 实时性:业务数据仓库内的数据表和数据量都比较大,大模型上下文token也有成本和数量限制,组件之间的网络通讯IO等交互有局限,Text2SQL转换的SQL查询性能不一定是性能最优化的查询SQL,这些因素导致数据搜索只能在有限的数据范围(例如一定范围内的公开数据)和一定的时间(分钟或小时级)内反馈搜索数据结果,制约用户对在多轮会话下数据查询使用体验。
- 数据安全:调用外部大模型时,确保其本地或者核心数据不外泄,用户权限控制时能正确看到自己可以看到的数据,会影响数据和隐私安全的合规要求。
- 数据评判标准:现有的评判数据集例如Spider和Bird等,还不能完全适应真实的生产环境。多语言下的NL2SQL的性能下降明显,需要改进优化。
- shema linking技术挑战:需要根据用户问题从数据库中找都需要使用的表和列,但是数据库中的表复杂而且专业性强,这给搜索带来了挑战。
长远设想
- 用户助手:结合业务自身数据和使用特点,通过对大模型的微调,构建用户个性化大模型,对接或替换大模型组件,实现业务个性化支持。
- 个性化记录、反馈和自适应学习:通过点赞、投币、收藏、保存等用户反馈和操作行为,结合推荐系统和日常积累,加强反馈给用户的数据准确性,主动推荐推送用户可能关心的数据和指标内容,优化查询和理解能力。记录系统在生成SQL语句过程中的推理步骤和依据, 利用可视化工具展示给用户看。
- 通用自然语言支持:对多国语言、多种方言、跨领域的自然语言支持,实现系统对广泛人群的使用和覆盖。
- 跨平台和技术组件的支持和集成:用户本地数据库、私有公有云化数据库、Office办公软件、NoSQL数据库、Hadoop大数据组件、ERP系统、本地存量软件系统等系统平台的对接和支持。
- LLM反问和追问来提升用户体验:根据尼尔森《十大可用性原则》容错原则,在前台和用户交流部分,通过设置反问和追问功能,逐步精细化用户诉求,提升用户自然语言对问题适配模型和数据的精细化描述,进而提升用户体验。
- 引入Agent智能体:利用Agent智能体的规划设计和反思等技能,实现更复杂的任务拆分和组合、工具调用、归因总结等。
- 隐私保护,对schema、表字段等结构化数据库元信息进行匿名化处理,确保实现隐私保护。
- 系统性能扩展:考虑到Text2SQL(NL2SQL)技术需要前后处理等多个重要步骤,可以通过使用分布式架构和模型块化设计搭建整个解决方案,进一步增强系统的处理能力。
- shema linking技术处理:可以使用embedding模型将表名和列名进行向量化,然后对于每个查询检索出最为相似的表名和列名,可以调用语义组件,实现表名和列表标准替换,结合Prompt+LLM,转换为查询SQL。
- 连接智算硬件:结合当前智算硬件设备(例如智算一体机等),直接连接企业现成本地数据库系统,让企业用户通过智算硬件设备,直接就完成智能业务数据分析和处理。
个人思考
个人思考:
Text2SQL(NL2SQL)只是一个开始,NL2DSL可以适配任何DSL专用领域的使用需求。用AI的通用能力在算力和特定领域数据的支持下,去消灭领域内的“土围子”。智能BI看起来好像只是一个问数和数据分析系统,但其实如果往深了想,这种对数据的查询和分析是否可以成为日后通用统一查询流量入口或者搜索查询入口,完全可以淘汰传统的企业内部简单的查询分析系统。如果在此基础上进一步配合MCP协议、Agent智能体,成长为企业内部的数据咨询专家,也是可以进一步期待的。从产品设计的角度考虑,这个系统产品未来是很有潜力的。
参考文献
[1] A. Popescu, A. Armanasu, O. Etzioni, D. Ko, and A. Yates. Modern natural language interfaces to databases: Composing statistical parsing with semantic tractability. In COLING, 2004.
[2] F. Li and H. V. Jagadish. Constructing an interactive natural language interface for relational databases. PVLDB, 8(1):73–84, 2014.
[3] D. Saha, A. Floratou, K. Sankaranarayanan, U. F. Minhas, A. R. Mittal, and F. O¨ zcan. ATHENA: an ontology-driven system for natural language querying over relational data stores. PVLDB, 9(12):1209–1220, 2016.
[4] N. Yaghmazadeh, Y. Wang, I. Dillig, and T. Dillig. Sqlizer: query synthesis from natural language. PACMPL, 1(OOPSLA):63:1–63:26, 2017.
[5] P. Pasupat and P. Liang. Compositional semantic parsing on semi-structured tables. In ACL, pages 1470–1480, 2015.
[6] C. Baik, H. V. Jagadish, and Y. Li. Bridging the semantic gap with SQL query logs in natural language interfaces to databases. In ICDE, pages 374–385, 2019.
[7] S. Iyer, I. Konstas, A. Cheung, J. Krishnamurthy, and L. Zettlemoyer. Learning a neural semantic parser from user feedback. In ACL, pages 963–973, 2017.
[8] F. Basik, B. H¨attasch, A. Ilkhechi, A. Usta, S. Ramaswamy, P. Utama, N. Weir, C. Binnig, and U. C¸ etintemel. Dbpal: A learned nl-interface for databases. In SIGMOD, pages 1765–1768, 2018.
[9] V. Zhong, C. Xiong, and R. Socher. Seq2sql: Generating structured queries from natural language using reinforcement learning. CoRR, abs/1709.00103, 2017.
[10] X. Xu, C. Liu, and D. Song. Sqlnet: Generating structured queries from natural language without reinforcement learning. CoRR, abs/1711.04436, 2017.
[11] M. Lapata and L. Dong. Coarse-to-fine decoding for neural semantic parsing. In ACL, pages 731–742, 2018.
[12] S. Yavuz, I. Gur, Y. Su, and X. Yan. Dialsql: Dialogue based structured query generation. In ACL, pages 1339–1349, 2018.
[13] P. Huang, C. Wang, R. Singh, W. Yih, and X. He. Natural language to structured query generation via meta-learning. In NAACL-HLT, pages 732–738, 2018.
[14] M. Zhou, G. Cao, T. Liu, N. Duan, D. Tang, B. Qin, X. Feng, J. Ji, and Y. Sun. Semantic parsing with syntax- and table-aware SQL generation. In ACL, pages 361–372, 2018.
[15] T. Yu, Z. Li, Z. Zhang, R. Zhang, and D. R. Radev. Typesql: Knowledge-based type-aware neural text-to-sql generation. In NAACL-HLT, pages 588–594, 2018.
[16] C. Finn, P. Abbeel, and S. Levine. Model-agnostic meta-learning for fast adaptation of deep networks. In ICML, pages 1126–1135, 2017.
[17] T. Yu, R. Zhang, K. Yang, M. Yasunaga, D. Wang, Z. Li, J. Ma, I. Li, Q. Yao, S. Roman, Z. Zhang, and D. R. Radev. Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task. In EMNLP, pages 3911–3921, 2018.
[18] T. Yu, M. Yasunaga, K. Yang, R. Zhang, D. Wang, Z. Li, and D. R. Radev. Syntaxsqlnet: Syntax tree networks for complex and cross-domain text-to-sql task. In EMNLP, pages 1653–1663, 2018.
[19] B. Bogin, J. Berant, and M. Gardner. Representing schema structure with graph neural networks for text-to-sql parsing. In ACL, pages 4560–4565, 2019.
[20] J. Guo, Z. Zhan, Y. Gao, Y. Xiao, J. Lou, T. Liu, and D. Zhang. Towards complex text-to-sql in cross-domain database with intermediate representation. In ACL, pages 4524–4535, 2019.
[21] Pasupat P, Liang P. Compositional semantic parsing on semi-structured tables[J]. arXiv preprint arXiv:1508.00305, 2015.
[22] Hemphill C T, Godfrey J J, Doddington G R. The ATIS spoken language systems pilot corpus[C]//Speech and Natural Language: Proceedings of a Workshop Held at Hidden Valley, Pennsylvania, June 24-27, 1990. 1990.
[23] Sun N, Yang X, Liu Y. Tableqa: a large-scale chinese text-to-sql dataset for table-aware sql generation[J]. arXiv preprint arXiv:2006.06434, 2020.
[24] Min Q, Shi Y, Zhang Y. A pilot study for chinese sql semantic parsing[J]. arXiv preprint arXiv:1909.13293, 2019.
[25] Wang L, Zhang A, Wu K, et al. ChiTeSQL: A Large-Scale and Pragmatic Chinese Text-to-SQL Dataset[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020: 6923-6935.
[26] Bogin B, Gardner M, Berant J. Global reasoning over database structures for text-to-sql parsing[J]. arXiv preprint arXiv:1908.11214, 2019.
[27] 刘译璟, 徐林杰, 代其锋. 基于自然语言处理和深度学习的 NL2SQL 技术及其在 BI 增强分析中的应用[J]. 中国信息化, 2019, 11.
[28] 25年不可错过的大模型应用方向-Text2SQL: 企业提效50%以上
[29] 语义解析 (Text-to-SQL) 技术研究及应用 下篇
[30] 基于自然语言处理和深度学习的NL2SQL技术及其在BI增强分析中的应用
[31] Is a Semantic Layer Necessary for Enterprise-Grade AI Agents?
[32] A PREVIEW OF XIYAN-SQL: A MULTI-GENERATOR ENSEMBLE FRAMEWORK FOR TEXT-TO-SQL
[33] CHASE-SQL: Multi-Path Reasoning and Preference Optimized Candidate Selection in Text-to-SQL
[34] 智源社区
[35] ChatBI
[36] NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析[Text2SQL、Text2DSL]
[37] Awesome Text2SQL
[38] Text2SQL 语义解析数据集、解决方案、paper资源整合项目
[39] 语义解析 (Text-to-SQL) 技术研究及应用
[40] 沙丘智库《2025年“大模型+数据分析”最佳实践报告》正式发布