news 2026/6/23 21:35:22

会议论文A RAG Approach for Generating Competency Questions in Ontology Engineering

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
会议论文A RAG Approach for Generating Competency Questions in Ontology Engineering


此文章发表在MTSR2024会议,主题和能力问题有关,另外结合了RAG。

作者信息

荷兰的机构,文章12页。

要点1

我在2024年想到所谓需求驱动,也是结合能力问题的。当时觉得能力问题像是上个世纪的产物,一种古老的验证手段,但我的文章经过24年6月投稿,25年6月一审被拒,现在改投一审结果未出。这段时间,已经看到不少篇结合LLM做问题能力相关工作的文章了。
这篇文章说的是能力问题的生成,我当时想的是结合能力问题库做自动化验证。其实我把问题想简单了,自动化验证不是查询不报错就行的,而且还要查询结果符合预期。

要点2

有关其中的BigCQ参考文献,该作者也提到了BigCQ,表示是最大的CQ模板库。

但这里的CNL有疑问,我当时选取BigCQ中的一些句子举例,但审稿人表示这不是受控自然语言。或许BigCQ中存在一些常识性错误?

要点3

文中提及一种验证方法,针对有既定本体的知识图谱,从本体中提取能力问题,这种能力问题是形式化的,可以转为SPARQL进行查询验证。但这种验证,其实是不合适的,类似于拿自己写的答案作为标准,然后来评估自己。

要点4

方法流程,文章显示了简单的三步走:数据索引、数据获取、生成。从图中看不出有什么特殊设计,那就看文字。

文字表示,首先选择合适的paper作为知识库很重要,然后他设置了三个原则。相当于把这些文章作为RAG的外挂向量库,算是比较直接的想法。
作者还把文章数量作为一个超参数,另外还有大模型的温度和所选取的大模型作为参数。
随后就是提示词工程了,这也没啥好深入说的,还是提示词模板那一套东西(话说大家的想法都差不多啊,应用层面的东西就是这样,太容易撞车了)。

要点5

如何说明它生成的能力问题是好的?
这就是实验验证部分了,看之前先想一想,怎样算是好的能力问题?

  1. 专家审核一下,数量不多的话,可以人工判断哪些能力问题是有实际意义的;
  2. 文中有提到他们生成的是非正式能力问题,那就不是很容易直接转换成SPARQL查询的那种,但要实际验证,必须要想办法把它们转换成SPARQL查询,验证得到预期的结果;
  3. 验证能力问题同样也是验证本体,这里给人的感觉是能力问题是由本体衍生的,而不像我之前做的(能力问题可以用于验证,但它更是需求分析的步骤)。
    那这个文章是怎么做的,他做了两个实验。
  4. 针对需求工程,KG-EmpiRE,通过三个领域专家根据一篇关于研究人员如何开展RE实证研究的现状和发展,手工推导出77个CQ进行评估;
  5. 构建人机交互中的核心参考问题HCIO,针对15个CQ进行评估。
    这里还是看不出评估方法。
要点6

使用precision来评估CQ质量,把生成的CQ质量和专家设计的CQ进行对比。这种感觉还是gold standard,那种把本体和reference本体对比的方法。
在计算所谓precision之前,先用余弦相似度计算了一波。

这让人有些困惑,首先觉得生成的CQ的数量就不一定和专家写的CQ对得上,其次,怎么知道哪两个CQ之间来计算相似度呢?一开始就设定了成对的CQ?
再然后,怎么从相似度到precision的呢?作者给了公式。

这里说明了,TP和FP的含义。比较简单粗暴,意思是有效的生成CQ和无效的生成CQ。
随后,作者还弄了一个consistency的验证,这个验证是来判断CQ生成的稳定性的。大致意思是,我换一些参数,生成的CQ是不是差不多(感觉这个算是对所谓提示词模板的考验吧)?

要点7

说到对比实验了,和谁比?
作者和所谓的Zero-shot比,可以理解为让LLM自由发挥,这个比较好理解,就是体现RAG对CQ生成效果的提升(大概率是有效的,有约束就是比自由发挥厉害一些)。
另外就是N_paper超参数变化的比较,这也是个线性思维,一般来说,外挂库越大,效果就应该越好,事实上基本呈现的就是这个趋势。
最后还有一个绿色的柱子,他表示这个visionary paper给出了最好的precision。

要点8

第二个对比实验,即consistency的实验。作者使用了余弦相似度的标准差来看稳定性。
这里讨论了参数对CQ生成的影响,例如温度参数对任务表现的影响不大。

要点9

从实验部分来看,比较数据来自zero-shot,不同的数据集,不同的参数,但是没有和其他人的方法的比较。我觉得可能是不好比,这种工作不是热点工作,但这样的比较就不太容易被所谓审稿人认可。
但我觉得这样的工作仍然是有意义的,算是个应用测试,能想到去测参数对consistency的影响就很不错了。

要点10

虽然文章涉及了对参数的讨论,但是这类工作的出发点都是找一个老问题,拿大模型来试试,看看效果如何?我之前也是这么想的,所以这类问题容易被人抢先做。看今年的ISWC上的文章,有不少都是借用LLM,老树开新花的。

要点11

回头看,我之前写的文章似乎更没啥意义了。以后再有写文章的需求,得先多了解一些前沿技术,拓宽视野,然后再去考虑可做的点。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 17:38:09

2025年软件测试技术发展趋势与从业者应对策略

随着数字化转型进程加速和软件开发范式的演进,软件测试领域正经历着前所未有的技术变革。测试从业者面临着从工具使用到思维模式的全方位升级需求,理解这些趋势将直接影响职业发展路径和技术选型决策。 一、智能测试自动化:AI与ML的深度融入…

作者头像 李华
网站建设 2026/6/23 17:36:18

电驱动(电机+电控)开发验证方法与技巧的高清视频教程,深入讲解精细技术,掌握实用技巧

电驱动(电机电控)开发验证方法与技巧讲授 精讲 细讲 教程,高清视频课程「电机控制算法写出来容易,调出来才是真功夫」——这是我在调试永磁同步电机时最大的感受。去年帮某新能源车企调试电驱系统,某个参数小数点后第三…

作者头像 李华
网站建设 2026/6/23 17:31:48

每天24小时的电价(元/kWh)

新能源汽车 电力系统 优化 基于粒子群算法的电动汽车群有序充电优化 设计简介:解决与电动汽车充电站的电力分配相关的问题。 通过使用粒子群优化(PSO)算法,为电动汽车充电站找到最优的充电策略,以最小化电网的总费用和…

作者头像 李华
网站建设 2026/6/23 8:15:58

C#编程下的自定义控件与OpenCVSharp结合应用:卡尺测距功能实现

C# 自定义控件 opencvsharp 卡尺测距最近在工业检测项目里折腾卡尺测距功能,用C#搞了个带图像分析的控件。这玩意儿核心就三件事:自定义控件画界面、OpenCvSharp处理图像、像素转实际尺寸。咱们直接上干货。先撸个控件框架,继承UserContro…

作者头像 李华
网站建设 2026/6/23 8:46:39

Langchain-Chatchat Kubernetes集群部署策略

Langchain-Chatchat Kubernetes集群部署策略 在企业对数据隐私和AI合规性要求日益严格的今天,如何构建一个既安全又高效的本地知识库问答系统,成为许多组织面临的核心挑战。公有云上的通用大模型虽然功能强大,但难以满足敏感信息不出内网的需…

作者头像 李华