Skip to content

输出

默认pipeline生成一系列与概念知识模型对齐的输出表。本页描述详细的输出表结构。默认情况下我们将这些表以parquet文件格式写入磁盘。

共享字段

所有表都包含两个标识字段:

名称 类型 描述
id str 生成的UUID,确保全局唯一性
human_readable_id int 每次运行生成的递增短ID。例如我们使用这个短ID与生成的摘要一起打印引用,便于视觉交叉参考

社区

这是Leiden生成的最终社区列表。社区严格按层次结构划分,随着聚类亲和度缩小而细分为子社区。

名称 类型 描述
community int Leiden生成的社区聚类ID。注意这些ID随深度递增,因此在社区层次结构的所有层级中都是唯一的。对于此表,human_readable_id是社区ID的副本而非普通递增
parent int 父社区ID
children int[] 子社区ID列表
level int 社区在层次结构中的深度
title str 社区的友好名称
entity_ids str[] 社区成员实体列表
relationship_ids str[] 完全位于社区内的关系列表(源和目标都在社区内)
text_unit_ids str[] 社区内表示的文本单元列表
period str 用于增量更新合并的提取日期。ISO8601格式
size int 用于增量更新合并的社区大小(实体计数)
## 社区报告
这是每个社区的汇总报告列表。
名称 类型 描述
community int 本报告适用的社区短ID
parent int 父社区ID
children int[] 子社区ID列表
level int 本报告适用的社区层级
title str LM生成的报告标题
summary str LM生成的报告摘要
full_content str LM生成的完整报告
rank float 基于成员实体显著性的LM衍生相关性排名
rating_explanation str LM衍生的排名解释
findings dict LM衍生的社区前5-10个洞察列表。包含summaryexplanation
full_content_json json LM返回的完整JSON输出。大多数字段已提取到列中,但此JSON用于查询摘要,因此保留以允许终端用户通过提示调整添加字段/内容
period str 用于增量更新合并的提取日期。ISO8601格式
size int 用于增量更新合并的社区大小(实体计数)

协变量

(可选)如果启用了声明提取,这是提取的协变量列表。请注意声明通常围绕识别欺诈等恶意行为,因此并非对所有数据集都有用。

名称 类型 描述
covariate_type str 使用默认协变量时始终为"claim"
type str 声明类型的性质
description str LM生成的行为描述
subject_id str 源实体名称(执行声明行为的实体)
object_id str 目标实体名称(声明行为施加的对象)
status str LM衍生的声明正确性评估。[TRUE, FALSE, SUSPECTED]之一
start_date str LM衍生的声明活动开始日期。ISO8601格式
end_date str LM衍生的声明活动结束日期。ISO8601格式
source_text str 包含声明行为的简短文本
text_unit_id str 提取声明文本的文本单元ID
## 文档
导入后的文档内容列表。
名称 类型 描述
title str 文件名,除非在CSV导入时另有配置
text str 文档的完整文本
text_unit_ids str[] 从文档解析出的文本单元(块)列表
metadata dict 如果在CSV导入时指定,这是文档的元数据字典

实体

LM在数据中发现的所有实体列表。

名称 类型 描述
title str 实体名称
type str 实体类型。默认情况下除非配置不同或使用自动调谐,否则将为"organization"、"person"、"geo"或"event"
description str 实体的文本描述。实体可能出现在许多文本单元中,因此这是所有描述的LM衍生摘要
text_unit_ids str[] 包含实体的文本单元列表
frequency int 实体出现的文本单元计数
degree int 图中的节点度(连接性)
x float 可视化布局的节点X位置。如果未启用图嵌入和UMAP,则为0
y float 可视化布局的节点Y位置。如果未启用图嵌入和UMAP,则为0
## 关系
LM在数据中发现的所有实体间关系列表。这也是图的边列表。
名称 类型 描述
source str 源实体名称
target str 目标实体名称
description str LM衍生的关系描述。另见实体描述说明
weight float 图中边的权重。这是从每个关系实例的LM衍生"强度"度量汇总而来
combined_degree int 源和目标节点度之和
text_unit_ids str[] 发现关系的文本单元列表

文本单元

从输入文档解析的所有文本块列表。

名称 类型 描述
text str 块的原始完整文本
n_tokens int 块中的token数量。通常应与chunk_size配置参数匹配,最后一个块通常较短
document_ids str[] 块来源的文档ID列表。由于默认分组,通常只有1个,但对于非常短的文本文档(如微博),可以配置为文本单元跨越多个文档
entity_ids str[] 文本单元中发现的实体列表
relationships_ids str[] 文本单元中发现的关系列表
covariate_ids str[] 文本单元中发现的协变量列表(可选)