The Audit Trail

DQI 衡量的是什么（以及它不衡量什么）

DQI 是 Pedigree Matrix 定义的 5 个独立维度，不是置信度分数，不是字段填充率。每个维度的含义，以及 Cortex 如何呈现它们。

审核员打开导出文件。第 47 行——热轧钢卷，河北某钢厂。她问：「这条的 DQI 是多少？」

你迅速给出答案。「大概……70% 吧？还行。」

这个回答是错的——不是数字本身有问题，而是「还行」根本不是她在问的东西。她问的是 5 个有名字的独立分数，每一个衡量不同的事情。其中几个可能偏高，另外几个可能偏低，把它们混成一个置信度数字，正是她需要的信息就此消失的那一刻。

DQI 不是置信度分数。它是 Pedigree Matrix（数据质量矩阵）定义的 5 个独立评分维度。每个维度可以与其他维度相互矛盾。你的审核员知道这一点。你的报告也应当体现这一点。

Pedigree Matrix 的由来

这套框架出自 Weidema 和 Wesnaes（1996），后来在欧盟 Product Environmental Footprint（EF）方法学中被正式操作化。原始矩阵采用 1—5 分制，分越低质量越高。Cortex 将其标准化为 0—1，分越高越好——符合大多数从业者对「评分」的直觉——底层逻辑完全相同。

这套框架存在的原因，是排放因子的质量本身不是一个单一的事物。一个 1998 年在德国钢厂测量的数据集，被用于 2024 年中国某 EAF 工厂——时间老、地理错、工艺不符，三重偏差同时存在。把这些偏差平均成一个数字，正好掩盖了审核员写审查意见时最需要知道的那些信息。

5 个维度。有名字，有顺序。

五个维度

时间性

衡量内容： 数据集的基准年与目标研究窗口之间的对应程度。

数据集的 GWP 值反映的是其基准年的生产工艺和电网结构。当这些条件已经发生变化——电网变清洁、工艺路线更新、上游供应商切换——该排放因子的代表性随之下降。

示例： 你在为一座 2024 年投产的水泥厂做摇篮到大门的产品碳足迹（PCF）。数据库中最匹配的是一条基准年为 2012 年的水泥行业排放因子。这是 12 年的差距——期间经历了 EU ETS 碳价走势变化、多个欧盟市场的煤改气切换，以及多轮熟料效率提升。该候选数据集的时间性评分会偏低。这不意味着数据集有误；它意味着时间偏差已被记录在案，从业者必须决定是否接受这个代理值，或者继续搜索更新的来源。

地理性

衡量内容： 数据集与实际生产地点之间的区域对应程度。

电网结构、运输距离、原料来源、监管环境——均因地区而异。以欧盟平均条件建模的数据集，对于河北钢厂、巴西冶炼厂或南亚服装工厂，代表性远不如对德国工厂。

示例： 你的 BOM 包含一条来自河北某钢厂的热轧钢卷。Ecoinvent 中最匹配的是 steel, hot-rolled {RER}——欧洲区域平均值。地理性评分将反映这一差距：欧盟平均值内嵌的电网碳强度和废钢投入比，与华北电网及以 BF-BOF（高炉—转炉）路线为主的河北实际情况存在实质差异。审核员看到地理性 DQI < 0.5，会立即追问：有没有搜索中国特定的排放因子？

技术性

衡量内容： 数据集与实际工艺路线在生产技术上的对应程度。

这个维度在非正式使用中最常被并入地理性得分。它是一个独立问题。同一个地区可以并存多条工艺路线；同一条工艺路线可以横跨多个地区。BF-BOF 排放因子不应在未注明技术偏差的情况下直接用于 EAF（电弧炉）工厂，即便两者在同一个国家。

示例： 供应商问卷确认该钢材采用 EAF 生产——废钢路线，每吨内含碳远低于长流程 BF-BOF。数据库候选值是全球平均钢铁排放因子，权重偏向 BF-BOF。技术性评分会偏低。将此因子应用于 EAF 工厂，会高估产品碳足迹——对保守型审核员来说，高估方向的偏差比低估更难被接受。

技术性维度揭示的正是这一点：「钢铁」不是一条查询，而是一次消歧义。

完整性

衡量内容： 数据集对建模流量的覆盖范围——具体说，是上游摇篮到大门的过程是否包含在内。

这个维度不是指数据字段是否存在缺失值或空值。它关于的是范围：哪些上游输入被纳入了生命周期清单（LCI）建模，哪些被排除在外。如果数据集排除了资本品，或仅对最终组装步骤建模而未覆盖上游原材料投入，完整性得分将偏低——无论已建模的流量测量有多精确。

示例： 一条特种化学品数据集基于工厂现场实测数据建立。测量质量很高——可靠性评分会体现这一点。但原始研究将上游催化剂生产和包装材料排除在外，而这两项在该化学工艺中的 GWP 贡献不容忽视。完整性得分偏低。可靠性与完整性之间出现了分歧。这个分歧本身就是信息：该数据集测量精准，但覆盖范围不够。

可靠性

衡量内容： 数据来源的出处类型——排放因子背后依据的是哪类证据。

Pedigree Matrix 定义了一套层级结构：实测数据（直接来自工厂）> 模型计算数据 > 专家估算 > 文献值。每向下一级，引入的不确定性就增加一层，且无法仅从因子数值本身量化。两个数据集可以报告相同的 GWP100 数值——一个来自经过一次性实测的主要来源，另一个来自 2005 年某综述论文中的文献估算值。可靠性区分的正是这两者。

示例： 两个平板玻璃候选数据集的 GWP100 接近——分别为 1.35 和 1.42 kgCO₂e/kg。第一个来自玻璃制造商在 EU ETS 框架下提交的、经验证的工艺模拟数据；第二个是学术二次文献中引用的文献估算值。可靠性评分差异显著。如果你的审核员要判断该因子能否在 ISO 14067 框架下被说明和辩护，她会首先追问的，正是这个问题。

DQI 不是什么

不是置信度分数或概率

DQI 不输出「有 83% 的把握这个因子是正确的」。置信度分数暗示的是一种 Pedigree Matrix 从未被设计来表达的不确定性分布模型。DQI 描述的是数据集如何产生、覆盖了什么，而不是它有多大可能是准确的。一个可靠性高、完整性高但基准年为 1998 年（时间性低）的数据集，不是「50% 置信」——它在测量精度上是精确的，在时间对应上是陈旧的。这两件事相互正交。

不是字段填充率

DQI 中的完整性指的是建模流量的覆盖范围：哪些上游过程被纳入了 LCI 系统边界。它不是指「数据集中有多少元数据字段被填写了」。一个每个元数据字段都填写完整、单位换算干净利落的数据集，可能因为原始研究排除了资本品而完整性偏低。一个文档记录稀疏的数据集，如果它建模了完整的摇篮到大门边界，完整性反而可能偏高。这是两个不同的问题。

不是日常意义上的「可信度」

「DQI 偏低」不等于数据集有误、存在造假，或在日常语义下不可靠。时间性偏低意味着基准年较旧；地理性偏低意味着区域是代理值。只要从业者说明了偏差、陈述了误差方向、记录了决策过程，两者都完全合规。DQI 是描述你对一个排放因子的了解程度的词汇——而不是关于是否应该使用它的裁决。

Cortex 用这些得分做什么

5 个维度对核查员重要。但你不应该需要逐项解读它们。

你搜索一种材料时，Cortex 读取每条候选的得分，把答案以 LCA 从业者真正需要的形式给出来：

这条数据我能不能用在我的 BOM 里？
Cortex 返回的几条候选里，哪一条最贴合我的场景？
为什么是这条，不是那条？

举个例子。你搜「304 不锈钢卷，中国钢厂」，返回两条候选：Ecoinvent 的欧盟均值数据集，和 HiQLCD 华北 BF-BOF 条目。Ecoinvent 那条可靠性高——出处明确、文档完整——但在你的语境下地理性偏低；HiQLCD 那条地理对、工艺路线对，参考年份稍旧。

Cortex 告诉你：HiQLCD 那条更贴合中国钢厂 BOM。地理与工艺的精度比时间性的小差距更重要。这个选择经得起核查员追问——代理说明可以记下推理过程。

得分本身仍然摆在那里，核查员要看就看。但你不必逐项读完五个再自己推论。

当得分告诉你不能用这条

每条候选时间性都偏低，意味着这个数据库在你研究的时间窗内没有更新过。地理性偏低且没有更好候选，意味着代理是唯一选项——Cortex 在这条进入导出文件之前会明说出来，并标注偏差方向。

Cortex 不会静默地把低质量候选过滤掉。过滤会把那些虽不完美、却是某种特殊材料下唯一可用的合法候选也一并删除。它把候选连同得分都摆出来，由 Cortex 给出推荐——最终决定权留给从业者。

5 个维度。有名字，独立评分，每次导出都可见。

这才是你的审核员在问的那个答案。不是「大概 70% 吧」。

想知道 Cortex 输出与哪些标准对齐——ISO 14067、GHG Protocol、CBAM、PEF——参见标准对齐。如果想在真实候选数据集上查看 DQI 评分，打开 Cortex Chat。

— HiQ Cortex Team