会议论文A RAG Approach for Generating Competency Questions in Ontology Engineering-育师

此文章发表在MTSR2024会议，主题和能力问题有关，另外结合了RAG。

作者信息

荷兰的机构，文章12页。

要点1

我在2024年想到所谓需求驱动，也是结合能力问题的。当时觉得能力问题像是上个世纪的产物，一种古老的验证手段，但我的文章经过24年6月投稿，25年6月一审被拒，现在改投一审结果未出。这段时间，已经看到不少篇结合LLM做问题能力相关工作的文章了。
这篇文章说的是能力问题的生成，我当时想的是结合能力问题库做自动化验证。其实我把问题想简单了，自动化验证不是查询不报错就行的，而且还要查询结果符合预期。

要点2

有关其中的BigCQ参考文献，该作者也提到了BigCQ，表示是最大的CQ模板库。

但这里的CNL有疑问，我当时选取BigCQ中的一些句子举例，但审稿人表示这不是受控自然语言。或许BigCQ中存在一些常识性错误？

要点3

文中提及一种验证方法，针对有既定本体的知识图谱，从本体中提取能力问题，这种能力问题是形式化的，可以转为SPARQL进行查询验证。但这种验证，其实是不合适的，类似于拿自己写的答案作为标准，然后来评估自己。

要点4

方法流程，文章显示了简单的三步走：数据索引、数据获取、生成。从图中看不出有什么特殊设计，那就看文字。

文字表示，首先选择合适的paper作为知识库很重要，然后他设置了三个原则。相当于把这些文章作为RAG的外挂向量库，算是比较直接的想法。
作者还把文章数量作为一个超参数，另外还有大模型的温度和所选取的大模型作为参数。
随后就是提示词工程了，这也没啥好深入说的，还是提示词模板那一套东西（话说大家的想法都差不多啊，应用层面的东西就是这样，太容易撞车了）。

要点5

如何说明它生成的能力问题是好的？
这就是实验验证部分了，看之前先想一想，怎样算是好的能力问题？

专家审核一下，数量不多的话，可以人工判断哪些能力问题是有实际意义的；
文中有提到他们生成的是非正式能力问题，那就不是很容易直接转换成SPARQL查询的那种，但要实际验证，必须要想办法把它们转换成SPARQL查询，验证得到预期的结果；
验证能力问题同样也是验证本体，这里给人的感觉是能力问题是由本体衍生的，而不像我之前做的（能力问题可以用于验证，但它更是需求分析的步骤）。
那这个文章是怎么做的，他做了两个实验。
针对需求工程，KG-EmpiRE，通过三个领域专家根据一篇关于研究人员如何开展RE实证研究的现状和发展，手工推导出77个CQ进行评估；
构建人机交互中的核心参考问题HCIO，针对15个CQ进行评估。
这里还是看不出评估方法。

要点6

使用precision来评估CQ质量，把生成的CQ质量和专家设计的CQ进行对比。这种感觉还是gold standard，那种把本体和reference本体对比的方法。
在计算所谓precision之前，先用余弦相似度计算了一波。

这让人有些困惑，首先觉得生成的CQ的数量就不一定和专家写的CQ对得上，其次，怎么知道哪两个CQ之间来计算相似度呢？一开始就设定了成对的CQ？
再然后，怎么从相似度到precision的呢？作者给了公式。

这里说明了，TP和FP的含义。比较简单粗暴，意思是有效的生成CQ和无效的生成CQ。
随后，作者还弄了一个consistency的验证，这个验证是来判断CQ生成的稳定性的。大致意思是，我换一些参数，生成的CQ是不是差不多（感觉这个算是对所谓提示词模板的考验吧）？

要点7

说到对比实验了，和谁比？
作者和所谓的Zero-shot比，可以理解为让LLM自由发挥，这个比较好理解，就是体现RAG对CQ生成效果的提升（大概率是有效的，有约束就是比自由发挥厉害一些）。
另外就是N_paper超参数变化的比较，这也是个线性思维，一般来说，外挂库越大，效果就应该越好，事实上基本呈现的就是这个趋势。
最后还有一个绿色的柱子，他表示这个visionary paper给出了最好的precision。