输出

默认pipeline生成一系列与概念知识模型对齐的输出表。本页描述详细的输出表结构。默认情况下我们将这些表以parquet文件格式写入磁盘。

共享字段

所有表都包含两个标识字段：

名称	类型	描述
id	str	生成的UUID，确保全局唯一性
human_readable_id	int	每次运行生成的递增短ID。例如我们使用这个短ID与生成的摘要一起打印引用，便于视觉交叉参考

这是Leiden生成的最终社区列表。社区严格按层次结构划分，随着聚类亲和度缩小而细分为子社区。

名称	类型	描述
community	int	Leiden生成的社区聚类ID。注意这些ID随深度递增，因此在社区层次结构的所有层级中都是唯一的。对于此表，human_readable_id是社区ID的副本而非普通递增
parent	int	父社区ID
children	int[]	子社区ID列表
level	int	社区在层次结构中的深度
title	str	社区的友好名称
entity_ids	str[]	社区成员实体列表
relationship_ids	str[]	完全位于社区内的关系列表(源和目标都在社区内)
text_unit_ids	str[]	社区内表示的文本单元列表
period	str	用于增量更新合并的提取日期。ISO8601格式
size	int	用于增量更新合并的社区大小(实体计数)
## 社区报告
这是每个社区的汇总报告列表。

名称	类型	描述
community	int	本报告适用的社区短ID
parent	int	父社区ID
children	int[]	子社区ID列表
level	int	本报告适用的社区层级
title	str	LM生成的报告标题
summary	str	LM生成的报告摘要
full_content	str	LM生成的完整报告
rank	float	基于成员实体显著性的LM衍生相关性排名
rating_explanation	str	LM衍生的排名解释
findings	dict	LM衍生的社区前5-10个洞察列表。包含`summary`和`explanation`值
full_content_json	json	LM返回的完整JSON输出。大多数字段已提取到列中，但此JSON用于查询摘要，因此保留以允许终端用户通过提示调整添加字段/内容
period	str	用于增量更新合并的提取日期。ISO8601格式
size	int	用于增量更新合并的社区大小(实体计数)

(可选)如果启用了声明提取，这是提取的协变量列表。请注意声明通常围绕识别欺诈等恶意行为，因此并非对所有数据集都有用。

名称	类型	描述
covariate_type	str	使用默认协变量时始终为"claim"
type	str	声明类型的性质
description	str	LM生成的行为描述
subject_id	str	源实体名称(执行声明行为的实体)
object_id	str	目标实体名称(声明行为施加的对象)
status	str	LM衍生的声明正确性评估。[TRUE, FALSE, SUSPECTED]之一
start_date	str	LM衍生的声明活动开始日期。ISO8601格式
end_date	str	LM衍生的声明活动结束日期。ISO8601格式
source_text	str	包含声明行为的简短文本
text_unit_id	str	提取声明文本的文本单元ID
## 文档
导入后的文档内容列表。

LM在数据中发现的所有实体列表。

名称	类型	描述
title	str	实体名称
type	str	实体类型。默认情况下除非配置不同或使用自动调谐，否则将为"organization"、"person"、"geo"或"event"
description	str	实体的文本描述。实体可能出现在许多文本单元中，因此这是所有描述的LM衍生摘要
text_unit_ids	str[]	包含实体的文本单元列表
frequency	int	实体出现的文本单元计数
degree	int	图中的节点度(连接性)
x	float	可视化布局的节点X位置。如果未启用图嵌入和UMAP，则为0
y	float	可视化布局的节点Y位置。如果未启用图嵌入和UMAP，则为0
## 关系
LM在数据中发现的所有实体间关系列表。这也是图的边列表。

名称	类型	描述
source	str	源实体名称
target	str	目标实体名称
description	str	LM衍生的关系描述。另见实体描述说明
weight	float	图中边的权重。这是从每个关系实例的LM衍生"强度"度量汇总而来
combined_degree	int	源和目标节点度之和
text_unit_ids	str[]	发现关系的文本单元列表

从输入文档解析的所有文本块列表。

名称	类型	描述
text	str	块的原始完整文本
n_tokens	int	块中的token数量。通常应与`chunk_size`配置参数匹配，最后一个块通常较短
document_ids	str[]	块来源的文档ID列表。由于默认分组，通常只有1个，但对于非常短的文本文档(如微博)，可以配置为文本单元跨越多个文档
entity_ids	str[]	文本单元中发现的实体列表
relationships_ids	str[]	文本单元中发现的关系列表
covariate_ids	str[]	文本单元中发现的协变量列表(可选)