输出
默认pipeline生成一系列与概念知识模型对齐的输出表。本页描述详细的输出表结构。默认情况下我们将这些表以parquet文件格式写入磁盘。
共享字段
所有表都包含两个标识字段:
名称 |
类型 |
描述 |
id |
str |
生成的UUID,确保全局唯一性 |
human_readable_id |
int |
每次运行生成的递增短ID。例如我们使用这个短ID与生成的摘要一起打印引用,便于视觉交叉参考 |
社区
这是Leiden生成的最终社区列表。社区严格按层次结构划分,随着聚类亲和度缩小而细分为子社区。
名称 |
类型 |
描述 |
community |
int |
Leiden生成的社区聚类ID。注意这些ID随深度递增,因此在社区层次结构的所有层级中都是唯一的。对于此表,human_readable_id是社区ID的副本而非普通递增 |
parent |
int |
父社区ID |
children |
int[] |
子社区ID列表 |
level |
int |
社区在层次结构中的深度 |
title |
str |
社区的友好名称 |
entity_ids |
str[] |
社区成员实体列表 |
relationship_ids |
str[] |
完全位于社区内的关系列表(源和目标都在社区内) |
text_unit_ids |
str[] |
社区内表示的文本单元列表 |
period |
str |
用于增量更新合并的提取日期。ISO8601格式 |
size |
int |
用于增量更新合并的社区大小(实体计数) |
## 社区报告 |
|
|
这是每个社区的汇总报告列表。 |
|
|
名称 |
类型 |
描述 |
community |
int |
本报告适用的社区短ID |
parent |
int |
父社区ID |
children |
int[] |
子社区ID列表 |
level |
int |
本报告适用的社区层级 |
title |
str |
LM生成的报告标题 |
summary |
str |
LM生成的报告摘要 |
full_content |
str |
LM生成的完整报告 |
rank |
float |
基于成员实体显著性的LM衍生相关性排名 |
rating_explanation |
str |
LM衍生的排名解释 |
findings |
dict |
LM衍生的社区前5-10个洞察列表。包含summary 和explanation 值 |
full_content_json |
json |
LM返回的完整JSON输出。大多数字段已提取到列中,但此JSON用于查询摘要,因此保留以允许终端用户通过提示调整添加字段/内容 |
period |
str |
用于增量更新合并的提取日期。ISO8601格式 |
size |
int |
用于增量更新合并的社区大小(实体计数) |
协变量
(可选)如果启用了声明提取,这是提取的协变量列表。请注意声明通常围绕识别欺诈等恶意行为,因此并非对所有数据集都有用。
名称 |
类型 |
描述 |
covariate_type |
str |
使用默认协变量时始终为"claim" |
type |
str |
声明类型的性质 |
description |
str |
LM生成的行为描述 |
subject_id |
str |
源实体名称(执行声明行为的实体) |
object_id |
str |
目标实体名称(声明行为施加的对象) |
status |
str |
LM衍生的声明正确性评估。[TRUE, FALSE, SUSPECTED]之一 |
start_date |
str |
LM衍生的声明活动开始日期。ISO8601格式 |
end_date |
str |
LM衍生的声明活动结束日期。ISO8601格式 |
source_text |
str |
包含声明行为的简短文本 |
text_unit_id |
str |
提取声明文本的文本单元ID |
## 文档 |
|
|
导入后的文档内容列表。 |
|
|
名称 |
类型 |
描述 |
title |
str |
文件名,除非在CSV导入时另有配置 |
text |
str |
文档的完整文本 |
text_unit_ids |
str[] |
从文档解析出的文本单元(块)列表 |
metadata |
dict |
如果在CSV导入时指定,这是文档的元数据字典 |
实体
LM在数据中发现的所有实体列表。
名称 |
类型 |
描述 |
title |
str |
实体名称 |
type |
str |
实体类型。默认情况下除非配置不同或使用自动调谐,否则将为"organization"、"person"、"geo"或"event" |
description |
str |
实体的文本描述。实体可能出现在许多文本单元中,因此这是所有描述的LM衍生摘要 |
text_unit_ids |
str[] |
包含实体的文本单元列表 |
frequency |
int |
实体出现的文本单元计数 |
degree |
int |
图中的节点度(连接性) |
x |
float |
可视化布局的节点X位置。如果未启用图嵌入和UMAP,则为0 |
y |
float |
可视化布局的节点Y位置。如果未启用图嵌入和UMAP,则为0 |
## 关系 |
|
|
LM在数据中发现的所有实体间关系列表。这也是图的边列表。 |
|
|
名称 |
类型 |
描述 |
source |
str |
源实体名称 |
target |
str |
目标实体名称 |
description |
str |
LM衍生的关系描述。另见实体描述说明 |
weight |
float |
图中边的权重。这是从每个关系实例的LM衍生"强度"度量汇总而来 |
combined_degree |
int |
源和目标节点度之和 |
text_unit_ids |
str[] |
发现关系的文本单元列表 |
文本单元
从输入文档解析的所有文本块列表。
名称 |
类型 |
描述 |
text |
str |
块的原始完整文本 |
n_tokens |
int |
块中的token数量。通常应与chunk_size 配置参数匹配,最后一个块通常较短 |
document_ids |
str[] |
块来源的文档ID列表。由于默认分组,通常只有1个,但对于非常短的文本文档(如微博),可以配置为文本单元跨越多个文档 |
entity_ids |
str[] |
文本单元中发现的实体列表 |
relationships_ids |
str[] |
文本单元中发现的关系列表 |
covariate_ids |
str[] |
文本单元中发现的协变量列表(可选) |