自动提示调优 ⚙️
GraphRAG提供了创建领域适配提示的能力,用于生成知识图谱。此步骤是可选的,但强烈建议运行,因为在执行索引运行时会产生更好的结果。
这些提示是通过加载输入、将其分割成块(文本单元)然后运行一系列LLM调用和模板替换来生成的。我们建议使用脚本提供的默认值,但在此页面上您会找到每个参数的详细信息,以防您想进一步探索和调整提示调优算法。
Figure 1: Auto Tuning Conceptual Diagram.
先决条件
在运行自动调优之前,请确保您已使用graphrag init
命令初始化工作区。这将创建必要的配置文件和默认提示。有关初始化过程的更多信息,请参阅初始化文档。
使用方法
您可以从命令行运行主脚本,并提供各种选项:
graphrag prompt-tune [--root ROOT] [--config CONFIG] [--domain DOMAIN] [--selection-method METHOD] [--limit LIMIT] [--language LANGUAGE] \
[--max-tokens MAX_TOKENS] [--chunk-size CHUNK_SIZE] [--n-subset-max N_SUBSET_MAX] [--k K] \
[--min-examples-required MIN_EXAMPLES_REQUIRED] [--discover-entity-types] [--output OUTPUT]
命令行选项
-
--config
(必填): 配置文件的路径。这是加载数据和模型设置所必需的。 -
--root
(可选): 数据项目根目录,包括配置文件(YML、JSON或.env)。默认为当前目录。 -
--domain
(可选): 与输入数据相关的领域,如"space science"、"microbiology"或"environmental news"。如果留空,将从输入数据中推断领域。 -
--selection-method
(可选): 选择文档的方法。选项有all、random、auto或top。默认为random。 -
--limit
(可选): 使用random或top选择时加载的文本单元限制。默认为15。 -
--language
(可选): 用于输入处理的语言。如果与输入语言不同,LLM将进行翻译。默认为"",表示将从输入中自动检测。 -
--max-tokens
(可选): 提示生成的最大token数。默认为2000。 -
--chunk-size
(可选): 用于从输入文档生成文本单元的token大小。默认为200。 -
--n-subset-max
(可选): 使用auto选择方法时要嵌入的文本块数量。默认为300。 -
--k
(可选): 使用auto选择方法时要选择的文档数量。默认为15。 -
--min-examples-required
(可选): 实体提取提示所需的最小示例数。默认为2。 -
--discover-entity-types
(可选): 允许LLM自动发现和提取实体。当您的数据涵盖大量主题或高度随机化时,我们建议使用此选项。 -
--output
(可选): 保存生成提示的文件夹。默认为"prompts"。
使用示例
python -m graphrag prompt-tune --root /path/to/project --config /path/to/settings.yaml --domain "environmental news" \
--selection-method random --limit 10 --language English --max-tokens 2048 --chunk-size 256 --min-examples-required 3 \
--no-entity-types --output /path/to/output
或者,使用最小配置(推荐):
python -m graphrag prompt-tune --root /path/to/project --config /path/to/settings.yaml --no-entity-types
文档选择方法
自动调优功能接收输入数据,然后根据块大小参数将其分割成文本单元。 之后,它使用以下选择方法之一来选取用于提示生成的样本:
random
: 随机选择文本单元。这是默认且推荐的选项。top
: 选择前n个文本单元。all
: 使用所有文本单元进行生成。仅适用于小型数据集;通常不推荐此选项。-
auto
: 将文本单元嵌入低维空间,并选择k个最接近质心的邻居。当您有大型数据集并希望选择代表性样本时,这很有用。 运行自动调优后,您应修改以下环境变量(或配置变量)以在索引运行时获取新提示。注意:请确保更新生成的提示的正确路径,在此示例中我们使用默认的"prompts"路径。 -
GRAPHRAG_ENTITY_EXTRACTION_PROMPT_FILE
= "prompts/entity_extraction.txt" -
GRAPHRAG_COMMUNITY_REPORT_PROMPT_FILE
= "prompts/community_report.txt" -
GRAPHRAG_SUMMARIZE_DESCRIPTIONS_PROMPT_FILE
= "prompts/summarize_descriptions.txt"
或在您的yaml配置文件中: