Chainlit集成LlamaIndex实现知识库高级检索（子问题查询引擎）

检索原理

llama_index 的 SubQuestionQueryEngine 是一个用于处理复杂查询的机制，它的主要目的是将复杂的查询问题分解成多个较小的、更容易管理和处理的子问题。这种技术有助于提高查询效率和准确性，尤其是在处理大量文档或者需要多步骤推理的情况下。

以下是 SubQuestionQueryEngine 的工作原理概览：

1. 查询分析

当用户提交一个查询请求时，SubQuestionQueryEngine 首先会对这个查询进行分析，以确定如何最佳地将其拆分为一系列更简单的子问题。这个过程涉及到理解查询的语义，识别查询的关键部分，以及确定哪些信息是相关的。

2. 子问题创建

根据查询分析的结果，SubQuestionQueryEngine 会创建一系列子问题。每个子问题都是对原始查询的一个方面或部分的关注。这些子问题的设计是为了让它们可以独立解决，同时又能够组合起来形成对原始查询的全面回答。

3. 子问题处理

对于每个创建的子问题，SubQuestionQueryEngine 会使用合适的查询引擎来寻找答案。这里使用的查询引擎可以是任何 llama_index 支持的类型，例如基于向量存储的查询引擎、树结构查询引擎等。查询引擎会选择最相关的文档片段来回答子问题。

4. 结果整合

一旦所有的子问题都被解决，SubQuestionQueryEngine 将整合这些子问题的答案，形成对原始查询的最终响应。这个整合过程可能涉及到合并相似的答案、去除重复信息、排序答案的重要性等步骤。

5. 返回最终结果

最终，SubQuestionQueryEngine 会返回一个综合的答案，这个答案应该能够全面地覆盖原始查询的所有方面。此外，它还可能包括关于答案来源的信息，帮助用户验证答案的可信度。

技术细节

动态规划：在某些情况下，SubQuestionQueryEngine 可能会采用动态规划的方法来优化子问题的分割，确保找到最优的分割方案。
递归处理：对于特别复杂的查询，子问题本身可能也需要进一步分解，这时就会使用递归的方式处理。
并行处理：为了提高处理速度，不同的子问题可以在不同的线程或进程中并行处理。

总的来说，SubQuestionQueryEngine 的设计旨在通过将复杂任务分解为更小的任务来简化查询处理流程，同时利用现有的查询引擎技术来高效地检索相关信息。这使得 llama_index 在面对复杂查询时依然能够提供快速、准确的响应。

SubQuestionQueryEngine 查询引擎的优缺点

“LLamaIndex SubQuestionQueryEngine” 是一种用于处理复杂查询的技术，它通过将大问题分解为子问题来优化查询过程。下面概述了 SubQuestionQueryEngine 的一些优点和缺点：

优点

复杂查询处理：SubQuestionQueryEngine 能够处理复杂的查询请求，通过将其拆分成更小、更易于管理的子问题，从而提高了查询效率和准确性。
资源优化：通过只关注于解决特定子问题所需的信息，可以减少处理整个查询所需的计算资源和时间。
可扩展性：这种方法允许系统随着数据量的增长而扩展，因为每个子问题可以独立处理，且可以根据需要并行化处理。
灵活性：子问题可以根据上下文和可用信息进行动态调整，使得系统能够适应不同类型的查询请求。
增强理解：通过将大问题分解成多个小问题，可以帮助更好地理解用户意图，并提供更精确的答案。

缺点

子问题依赖性：如果子问题之间存在强依赖关系，则错误或不完整的答案可能会传播到其他部分，导致最终结果不准确。
分割逻辑复杂性：确定如何有效地分割原始查询可能是一个挑战，特别是当查询包含多个维度或复杂条件时。
性能开销：虽然从理论上讲，将问题分解可以提高效率，但在实际应用中，分割和重组子问题的过程可能会引入额外的延迟或计算成本。
一致性保证：在处理分布式或多阶段查询时，保持数据的一致性和完整性可能变得更加困难。
实现难度：设计一个能够智能地将查询分解成有效子问题的算法可能需要大量的工程努力和专业知识。

总体来说，SubQuestionQueryEngine 是一种有潜力的技术，特别是在处理大规模、复杂的查询场景下，但它也伴随着一系列挑战，特别是在确保分割逻辑正确性和系统整体性能方面。

LlamaIndex官方地址 https://docs.llamaindex.ai/en/stable/

快速上手

创建一个文件，例如“chainlit_chat”

mkdir chainlit_chat

进入 chainlit_chat文件夹下，执行命令创建python 虚拟环境空间(需要提前安装好python sdk。 Chainlit 需要python>=3.8。,具体操作，由于文章长度问题就不在叙述，自行百度)，命令如下：

python -m venv .venv

这一步是避免python第三方库冲突，省事版可以跳过
.venv是创建的虚拟空间文件夹可以自定义

接下来激活你创建虚拟空间，命令如下：

#linux or mac
source .venv/bin/activate
#windows
.venv\Scripts\activate

在项目根目录下创建`requirements.txt`，内容如下：

chainlit
llama-index-core
llama-index-llms-dashscope
llama-index-embeddings-dashscope
llama-index-retrievers-bm25~=0.3.0

执行以下命令安装依赖：

pip install -r .\requirements.txt

安装后，项目根目录下会多出.chainlit 和.files文件夹和chainlit.md文件

代码创建

只使用通义千问的DashScope模型服务灵积的接口

在项目根目录下创建`.env`环境变量，配置如下：

DASHSCOPE_API_KEY="sk-api_key"

DASHSCOPE_API_KEY 是阿里dashscope的服务的APIkey，代码中使用DashScope的sdk实现，所以不需要配置base_url。默认就是阿里的base_url。
阿里模型接口地址 https://dashscope.console.aliyun.com/model

在项目根目录下创建app.py文件，代码如下：

import os
import time

import chainlit as cl
from llama_index.core import (
    Settings,
    VectorStoreIndex,
    SimpleDirectoryReader, load_index_from_storage, StorageContext,
)
from llama_index.core.node_parser import SentenceSplitter
from llama_index.core.query_engine import SubQuestionQueryEngine
from llama_index.core.question_gen import LLMQuestionGenerator
from llama_index.core.tools import ToolMetadata, QueryEngineTool
from llama_index.embeddings.dashscope import DashScopeEmbedding, DashScopeTextEmbeddingModels, \
    DashScopeTextEmbeddingType
from llama_index.llms.dashscope import DashScope, DashScopeGenerationModels

Settings.llm = DashScope(
    model_name=DashScopeGenerationModels.QWEN_MAX, api_key=os.environ["DASHSCOPE_API_KEY"], max_tokens=512
)
Settings.embed_model = DashScopeEmbedding(
    model_name=DashScopeTextEmbeddingModels.TEXT_EMBEDDING_V2,
    text_type=DashScopeTextEmbeddingType.TEXT_TYPE_DOCUMENT,
)
Settings.node_parser = SentenceSplitter(chunk_size=512, chunk_overlap=20)
Settings.num_output = 512
Settings.context_window = 6000


@cl.cache
def get_vector_store_index():
    storage_dir = "./storage_sub_question"
    if os.path.exists(storage_dir):
        storage_context = StorageContext.from_defaults(persist_dir=storage_dir)
        index = load_index_from_storage(storage_context)
    else:
        documents = SimpleDirectoryReader("./data_file").load_data(show_progress=True)
        index = VectorStoreIndex.from_documents(documents)
        index.storage_context.persist(persist_dir=storage_dir)
    return index


vector_store_index = get_vector_store_index()


@cl.on_chat_start
async def start():
    await cl.Message(
        author="Assistant", content="你好! 我是泰山AI智能助手. 有什么可以帮助你的吗?"
    ).send()


@cl.on_message
async def main(message: cl.Message):
    start_time = time.time()
    vector_query_engine = vector_store_index.as_query_engine(streaming=True, similarity_top_k=5)
    # setup base query engine as tool
    query_engine_tools = [
        QueryEngineTool(
            query_engine=vector_query_engine,
            metadata=ToolMetadata(
                name="知识库",
                description="石家庄医专大学的相关介绍和问答",
            ),
        ),
    ]
    question_gen = LLMQuestionGenerator.from_defaults()
    query_engine = SubQuestionQueryEngine.from_defaults(
        query_engine_tools=query_engine_tools, question_gen=question_gen
    )
    msg = cl.Message(content="", author="Assistant")
    res = await query_engine.aquery(message.content)
    await msg.stream_token(res.response)
    print(f"代码执行时间: {time.time() - start_time} 秒")
    source_names = []
    for idx, node_with_score in enumerate(res.source_nodes):
        node = node_with_score.node
        source_name = f"source_{idx}"
        source_names.append(source_name)
        msg.elements.append(
            cl.Text(content=node.get_text(), name=source_name, display="side")
        )
    await msg.stream_token(f"\n\n **数据来源**: {', '.join(source_names)}")
    await msg.send()

代码中的persist_dir=storage_dir 不设置的默认是 ./storage.
代码中chunk_size是将长文档分割的文本块的大小，chunk_overlap 是和上下文本块的重合文本的大小。
SubQuestionQueryEngine 不支持流式输出。而且使用不同LLM，在问答的时候会解析报错,稳定性比较差，可能是针对open ai的模型，我使用qwen系列的模型，turbo模型相对稳定，但是不够智能，qwen-plus和qwen-max，运行查询有时候会报错，大概率是qwen模型不能严格按照提示词，生成固定格式的返回，导致解析报错。
使用 SubQuestionQueryEngine 回答问题