5 月 11 日,记者获悉,在加拿大蒙特利尔举行的第 42 届 IEEE 国际数据工程大会(ICDE 2026)公布了本届录用论文,中国技术团队表现亮眼,其中腾讯共有 6 篇论文入选,攻破了数据库多项核心技术的性能瓶颈。
据了解,ICDE 与 SIGMOD、VLDB 并列数据库领域三大顶级学术会议,被中国计算机学会评为 A 类会议,近年论文录用率约为 20%,代表了全球数据库技术的风向标。
本届入选论文的选题来自生产环境中的实际难题,由腾讯与多所顶尖高校联合完成。工程团队从业务运行中提炼出明确的技术瓶颈,高校研究者提供算法层面的突破思路,双方通过产学研协作推进解决方案。
例如,传统数据库在按关键字查找数据时效率很高,但一旦用户需要按属性做范围筛选——比如查询 " 价格在 100 到 500 之间的商品 " ——响应速度就会大幅下降。腾讯与中国人民大学合作完成的《Doux: Decoupling Values from Keys for Real-Time Analytics》,为此设计了一种双路并行的存储方案,实测将范围筛选速度提升了 5 倍,同时数据写入速度提升近 3 倍。
查询效率优化是另一个长期难题。数据库执行查询前会将语句改写为更高效的等价形式,但改写能力受限于系统预置的规则数量。腾讯与深圳大学合作的《Efficient Query Rewrite Rule Discovery via Standardized Enumeration and Learning-to-Rank》,提出用算法自动挖掘这类规则,累计超 100 万条,这也是目前公开验证的最大规模规则库。
当数据库需要同时处理交易和分析两类任务时,还面临一个调度难题:哪些数据应该提前加载到高速缓存中?判断失误会浪费资源或拖慢查询。腾讯与中国人民大学合作的论文《Telescope: A Learned What-If Call for Column Store Selection in HTAP Databases》,通过机器学习模型预判加载收益,不必真正加载就能做出决策,预测误差比此前方法降低了 68%。
此外,在 Data+AI 前沿领域,腾讯云与复旦大学合作的《CYANSQL: Unlock the Power of NL2SQL via Clustering-based Test-Time Scaling》,聚焦 " 用自然语言查数据 " 的准确性。用户用自然语言描述需求、系统自动生成查询语句的能力已较成熟,但遇到多表关联等复杂场景时错误率仍偏高——根本原因在于提示中的示例难以覆盖所有复杂 SQL 逻辑组合。CYANSQL 将历史查询按逻辑结构归类,在推理阶段从不同结构簇中并行生成多条候选方案,并以执行结果验证筛选,让模型在推理时 " 看到 " 更全面的逻辑结构。在标准评测集 BIRD 上,CYANSQL 召回率较行业最佳水平提升近 5 个百分点。
产学研协作已成为关键基础设施创新的重要路径。目前,腾讯云数据库 TDSQL 已服务超 100 家金融机构核心系统,稳定支撑四大国有银行;CYANSQL 相关技术也已落地腾讯云数据智能产品的自然语言查询功能。
雷峰网