HiQ Cortex
中文 Open Chat

The Audit Trail

DQI 衡量的是什么(以及它不衡量什么)

DQI 是 Pedigree Matrix 定义的 5 个独立维度,不是置信度分数,不是字段填充率。每个维度的含义,以及 Cortex 如何呈现它们。

核员打开导出文件。第 47 行——热轧钢卷,河北某钢厂。她问:「这条的 DQI 是多少?」

你迅速给出答案。「大概……70% 吧?还行。」

这个回答是错的——不是数字本身有问题,而是「还行」根本不是她在问的东西。她问的是 5 个有名字的独立分数,每一个衡量不同的事情。其中几个可能偏高,另外几个可能偏低,把它们混成一个置信度数字,正是她需要的信息就此消失的那一刻。

DQI 不是置信度分数。它是 Pedigree Matrix(数据质量矩阵)定义的 5 个独立评分维度。每个维度可以与其他维度相互矛盾。你的审核员知道这一点。你的报告也应当体现这一点。


Pedigree Matrix 的由来

这套框架出自 Weidema 和 Wesnaes(1996),后来在欧盟 Product Environmental Footprint(EF)方法学中被正式操作化。原始矩阵采用 1—5 分制,分越低质量越高。Cortex 将其标准化为 0—1,分越高越好——符合大多数从业者对「评分」的直觉——底层逻辑完全相同。

这套框架存在的原因,是排放因子的质量本身不是一个单一的事物。一个 1998 年在德国钢厂测量的数据集,被用于 2024 年中国某 EAF 工厂——时间老、地理错、工艺不符,三重偏差同时存在。把这些偏差平均成一个数字,正好掩盖了审核员写审查意见时最需要知道的那些信息。

5 个维度。有名字,有顺序。


五个维度

时间性

衡量内容: 数据集的基准年与目标研究窗口之间的对应程度。

数据集的 GWP 值反映的是其基准年的生产工艺和电网结构。当这些条件已经发生变化——电网变清洁、工艺路线更新、上游供应商切换——该排放因子的代表性随之下降。

示例: 你在为一座 2024 年投产的水泥厂做摇篮到大门的产品碳足迹(PCF)。数据库中最匹配的是一条基准年为 2012 年的水泥行业排放因子。这是 12 年的差距——期间经历了 EU ETS 碳价走势变化、多个欧盟市场的煤改气切换,以及多轮熟料效率提升。该候选数据集的时间性评分会偏低。这不意味着数据集有误;它意味着时间偏差已被记录在案,从业者必须决定是否接受这个代理值,或者继续搜索更新的来源。

地理性

衡量内容: 数据集与实际生产地点之间的区域对应程度。

电网结构、运输距离、原料来源、监管环境——均因地区而异。以欧盟平均条件建模的数据集,对于河北钢厂、巴西冶炼厂或南亚服装工厂,代表性远不如对德国工厂。

示例: 你的 BOM 包含一条来自河北某钢厂的热轧钢卷。Ecoinvent 中最匹配的是 steel, hot-rolled {RER}——欧洲区域平均值。地理性评分将反映这一差距:欧盟平均值内嵌的电网碳强度和废钢投入比,与华北电网及以 BF-BOF(高炉—转炉)路线为主的河北实际情况存在实质差异。审核员看到地理性 DQI < 0.5,会立即追问:有没有搜索中国特定的排放因子?

技术性

衡量内容: 数据集与实际工艺路线在生产技术上的对应程度。

这个维度在非正式使用中最常被并入地理性得分。它是一个独立问题。同一个地区可以并存多条工艺路线;同一条工艺路线可以横跨多个地区。BF-BOF 排放因子不应在未注明技术偏差的情况下直接用于 EAF(电弧炉)工厂,即便两者在同一个国家。

示例: 供应商问卷确认该钢材采用 EAF 生产——废钢路线,每吨内含碳远低于长流程 BF-BOF。数据库候选值是全球平均钢铁排放因子,权重偏向 BF-BOF。技术性评分会偏低。将此因子应用于 EAF 工厂,会高估产品碳足迹——对保守型审核员来说,高估方向的偏差比低估更难被接受。

技术性维度揭示的正是这一点:「钢铁」不是一条查询,而是一次消歧义。

完整性

衡量内容: 数据集对建模流量的覆盖范围——具体说,是上游摇篮到大门的过程是否包含在内。

这个维度不是指数据字段是否存在缺失值或空值。它关于的是范围:哪些上游输入被纳入了生命周期清单(LCI)建模,哪些被排除在外。如果数据集排除了资本品,或仅对最终组装步骤建模而未覆盖上游原材料投入,完整性得分将偏低——无论已建模的流量测量有多精确。

示例: 一条特种化学品数据集基于工厂现场实测数据建立。测量质量很高——可靠性评分会体现这一点。但原始研究将上游催化剂生产和包装材料排除在外,而这两项在该化学工艺中的 GWP 贡献不容忽视。完整性得分偏低。可靠性与完整性之间出现了分歧。这个分歧本身就是信息:该数据集测量精准,但覆盖范围不够。

可靠性

衡量内容: 数据来源的出处类型——排放因子背后依据的是哪类证据。

Pedigree Matrix 定义了一套层级结构:实测数据(直接来自工厂)> 模型计算数据 > 专家估算 > 文献值。每向下一级,引入的不确定性就增加一层,且无法仅从因子数值本身量化。两个数据集可以报告相同的 GWP100 数值——一个来自经过一次性实测的主要来源,另一个来自 2005 年某综述论文中的文献估算值。可靠性区分的正是这两者。

示例: 两个平板玻璃候选数据集的 GWP100 接近——分别为 1.35 和 1.42 kgCO₂e/kg。第一个来自玻璃制造商在 EU ETS 框架下提交的、经验证的工艺模拟数据;第二个是学术二次文献中引用的文献估算值。可靠性评分差异显著。如果你的审核员要判断该因子能否在 ISO 14067 框架下被说明和辩护,她会首先追问的,正是这个问题。


DQI 不是什么

不是置信度分数或概率

DQI 不输出「有 83% 的把握这个因子是正确的」。置信度分数暗示的是一种 Pedigree Matrix 从未被设计来表达的不确定性分布模型。DQI 描述的是数据集如何产生、覆盖了什么,而不是它有多大可能是准确的。一个可靠性高、完整性高但基准年为 1998 年(时间性低)的数据集,不是「50% 置信」——它在测量精度上是精确的,在时间对应上是陈旧的。这两件事相互正交。

不是字段填充率

DQI 中的完整性指的是建模流量的覆盖范围:哪些上游过程被纳入了 LCI 系统边界。它不是指「数据集中有多少元数据字段被填写了」。一个每个元数据字段都填写完整、单位换算干净利落的数据集,可能因为原始研究排除了资本品而完整性偏低。一个文档记录稀疏的数据集,如果它建模了完整的摇篮到大门边界,完整性反而可能偏高。这是两个不同的问题。

不是日常意义上的「可信度」

「DQI 偏低」不等于数据集有误、存在造假,或在日常语义下不可靠。时间性偏低意味着基准年较旧;地理性偏低意味着区域是代理值。只要从业者说明了偏差、陈述了误差方向、记录了决策过程,两者都完全合规。DQI 是描述你对一个排放因子的了解程度的词汇——而不是关于是否应该使用它的裁决。


Cortex 用这些得分做什么

5 个维度对核查员重要。但你不应该需要逐项解读它们。

你搜索一种材料时,Cortex 读取每条候选的得分,把答案以 LCA 从业者真正需要的形式给出来:

  • 这条数据我能不能用在我的 BOM 里?
  • Cortex 返回的几条候选里,哪一条最贴合我的场景?
  • 为什么是这条,不是那条?

举个例子。你搜「304 不锈钢卷,中国钢厂」,返回两条候选:Ecoinvent 的欧盟均值数据集,和 HiQLCD 华北 BF-BOF 条目。Ecoinvent 那条可靠性高——出处明确、文档完整——但在你的语境下地理性偏低;HiQLCD 那条地理对、工艺路线对,参考年份稍旧。

Cortex 告诉你:HiQLCD 那条更贴合中国钢厂 BOM。地理与工艺的精度比时间性的小差距更重要。这个选择经得起核查员追问——代理说明可以记下推理过程。

得分本身仍然摆在那里,核查员要看就看。但你不必逐项读完五个再自己推论。

当得分告诉你不能用这条

每条候选时间性都偏低,意味着这个数据库在你研究的时间窗内没有更新过。地理性偏低且没有更好候选,意味着代理是唯一选项——Cortex 在这条进入导出文件之前会明说出来,并标注偏差方向。

Cortex 不会静默地把低质量候选过滤掉。过滤会把那些虽不完美、却是某种特殊材料下唯一可用的合法候选也一并删除。它把候选连同得分都摆出来,由 Cortex 给出推荐——最终决定权留给从业者。


5 个维度。有名字,独立评分,每次导出都可见。

这才是你的审核员在问的那个答案。不是「大概 70% 吧」。

想知道 Cortex 输出与哪些标准对齐——ISO 14067、GHG Protocol、CBAM、PEF——参见标准对齐。如果想在真实候选数据集上查看 DQI 评分,打开 Cortex Chat

— HiQ Cortex Team