创新体外诊断试剂研发的体会与思考：从技术方法到产品策略 (上篇）

逻辑规律有所了解，才能避免在一些不切实际的幻想支配下做出不恰当的冲动决定。并且First in class 的创新产品很可能在人、财、物（特别是临床样本）、社会关系 …… 各方面存在着企业尚不具备的资源需求。只有对行业的内在逻辑规律有所了解，企业的最高负责人才能在纷繁复杂的资源投入需求面前做出正确有效的判断、决策。

体外诊断试剂企业的中层研发技术人员，即研发经理、研发主管们可从此文中讲述的技术策略、技术原则受益。

医生和学术科研工作者，如果有意愿将自己的科研成果向临床诊断产品转化。读读此文也会很有益处。只有对体外诊断产品的研发、建立、监管审批的逻辑过程有所了解，才能对自己的科研成果处于这个过程链中的什么位置做到心中有数。才能对自己的成果转化需要经历怎样的后续工作和现实困难有一个客观评估。基本上，本文合适的读者人群也就如此了。

老败并非体外诊断行业的专业研究者。本文内容是近几年来在几个创新诊断试剂研发工作中的观察与思考。个人视角所限，感悟难免偏颇，诸君以批判的态度去读就好。

体外诊断试剂产品研究、开发、注册

审批的逻辑过程

老败认为，普遍意义中的“产品研发”是一个广义概念。它实际包含了“研究”与“开发”两个含义。“研发”的英文，“Research And Development”，经常简称为“R&D“，更确切地表述了“研究”与“开发”的关系：“R”与“D”是用“&”相连接的，前后并列的两项工作。

产品研究与开发的区别

“研究”与“开发”工作需要相区分、并列，是因为它们关注的要点与思维方式有相当大的差异。

产品研究

产品研究阶段的主要工作是实验方法学原理可行性的实现与验证。它与学术科研有比较高的相似性。天马行空、脑洞大开的想象力和创造力，广博的知识面与好奇心、探索精神都是非常需要的。

产品开发

产品开发工作，是把一项原理可行的检测实验，转化为可以应用于临床诊断的，高度可靠的工业产品的工作过程。这个工作过程必须遵循一定之规，整个过程对法规符合性，科学合理性、逻辑严谨性的要求非常之高。并且产品技术人员要对监管评审的思维理念有充分的理解才能做到因势利导、投其所好、事半功倍。否者，以自己的独到见解，一己之力去挑战当前行业与审评员的固有观念是鸡蛋碰石头！

鉴于“研究”与“开发”两种工作性质对人的思维方式与基础能力要求有显著的倾向性差异，建议稍有规模的企业最好把这两样工作根据技术人员的专业素质特长布置给不同人员、小组去做。企业规模再大一点，可以分别到两个部门去做。这样可以更好地实现术业各有专攻，专业的人做专业的事，提高产品研发效率。

一个检测产品的建立，首先是产品研究阶段，进入这个阶段之前我们需要尽量搞清楚这样10项信息（后4项也可能在研发过程中修改、确定）：

1. 检测的靶标物质是什么？目标生物标志物是什么？

2. 检测的临床生物样本是什么？

3. 检测是否需要定量？定量精度需求是什么？

4. 靶标物质在样本中的丰度如何，即所需的最低检测限大约是什么？

5. 临床生物样本中主要的干扰物质是什么？

6. 样本的采集、储存、运输的条件、时限要求是什么？

7. 检测从开始到完成的时限要求是什么？

8. 检测产品的成本要求是什么?

9. 检测操作对使用者的技能，设备要求是否存在限制？

10. 知识产权要求、限制是什么？

有了这些信息输入，构成了所需产品在检测性能、技术性能、检测成本、应用场景各维度的限制边界，研发人员就可以基于自己对当前检测技术的了解和企业的技术特长，去选择、改进相关的技术方法，尝试实现这个检测。

这个尝试过程可以从理想条件下的模拟样本、最昂贵的仪器设备、最优质的原料、耗材开始，以试错实验一步步地向边界目标逼近。直至能够做到在少量（几十个）临床生物样本中，在上述10条所规定的边界条件下实现检测目标产品研究阶段即可宣告胜利结束，转入产品开发阶段。产品研究工作是整个体外诊断试剂产品实现过程中从思维方式到实施过程都与学术科研相似度最高的一个阶段。

从学术机构初出茅庐的年轻人，只要受过良好的科学思维训练，具备扎实的实验研究功底，具有好学肯干的工作态度，认真理解、仔细体会诊断试剂的产品需求与学术科研的差异（比如：高度的稳定、重复、抗干扰性能是前者最基本、最重要的要求，而后者可能更重视技术性能峰值），就可以很快上手。

而下一个阶段，产品开发，尽管其工作内容在形式上主要也是试错实验，但工作目标，思维方式都与学术科研有很大不同。很多学术科研中基本可以忽略的问题，在产品开发中都是事关成败的关键问题。别说学术科研机构，刚毕业的学生，即使大学教授，没有相当时间的熟悉与适应过程，也是无法独立胜任产品开发工作的。

产品开发的工作内容与目的

体外诊断试剂是在世界各国都受到政府严厉监管的商业产品，必须通过注册审批，产品方可上市。而体外诊断试剂产品注册审批所关注的内容有两块：临床前研究与临床研究。

其中的“临床前研究”，主要就是指产品开发阶段的工作内容。其内容主要包括：

主要原材料研究
生产工艺研究
阳性阈值的设定
阳性阈值的验证
干扰物研究（其实是验证）
质检方法与质检标准的研究
产品的生产转化与试生产
产品的全性能验证
产品稳定性研究（其实是验证）
最后，还要通过产品技术性能的终极考核：注册检验（简称“注册检”或“注检” ）

可能行外人士会感觉有点意外，监管者（药监局评审员）对产品研究的过程并不十分关注。诸如历经艰难困苦、百折不回，一步步改进配方，优化技术参数，提升检测性能之类的精彩故事他完全不在乎。你讲给他听，也不会对产品获批有任何帮助。

对产品研究工作，只需（且必须）在注册申报资料中向评审员提供概要、总结性的研究数据，以展现研究达成的产品技术性能可以满足该产品应用效能的需求就可以。监管者所真正关注的，是你如何把产品研究成果转化成为临床有效的产品，并确保稳定可靠地持续生产出来。

所以，他会依据质量管理体系（ GMP ）的要求，仔细审视产品开发过程中每一个步骤的逻辑合理性与研究数据的有效性，以确保产品开发的全过程是合理、严谨、有效的，并且良好生产是持续可控的。只有过程中的每一步都是合理、有效的，最终的优良结果才是真实可靠的，其监管逻辑非常明确合理。

注册检的意义与变化

体外诊断产品完成产品开发，生产转换，三批试生产，注册检之后，产品的临床前研究阶段即告完成，可以进入临床研究阶段。

这里有必要对产品开发阶段的最后一项工作，注册检多讲几句。在旧的法规要求里，注册检是产品临床试验、注册申报之前的强制性要求，是必须通过的技术性能测试。并且要由具有资质和技术能力的官方机构，即国家或省级的检验鉴定研究院所来实施。产品创新度太高，以致各地方检验鉴定研究所都不具备评估技术能力的产品，由国家级机构即中国检验检定研究院（简称中检院）实施。

注册检是对产品技术指标的考核。通过了这个考核，则确认企业按照质量体系生产出来的产品确实能够达到企业自己对该产品预设的技术指标。这个考核不涉及对产品临床效能的评估。

但是，对一个前所未有的创新产品，只有当中检院的专家确信企业为产品所设定的技术指标确实能够满足，甚至超出达成该产品预期临床效能所需要的技术水平时，他才会答应给你做注册检。显而易见，说服中检院的专家并不容易，他答应给你做注册检并最终考试通过，其实是对你产品技术指标设置合理性的一种认可与背书。所以，在生物医药行业里，产品通过注册检被认为是通向产品注册获批道路上的一个重大里程碑事件。

最近，几个月前，体外诊断试剂管理法规发生了重大调整。官方机构的注册检不再作为强制性要求，而成为一个由 “第三方” 实施的可选项。第三方注册检报告作为注册申报中的支持性参考资料而存在。所以，在新规下，理论上企业对试生产产品自己做了全性能评估检验就可以继续进行临床试验，然后向药监局进行产品注册申报。

对这一改变，业内人士的普遍看法是：法规条文的改变确实重大，但在现实操作层面，以前该怎么做，以后最好还是怎么做。因为，从药监局评审员的角度，中检院的作用是帮他把好技术关。有中检院注册检的背书，评审员的责任压力可以减轻不少。如果缺失了这个背书，压力全集中到评审员头上，他在巨大压力之下，就不得不对你的产品拿着放大镜横挑鼻子竖挑眼，甚至鸡蛋里面挑骨头。而评审员这一关，是整个产品注册申报过程中的最后一关。前期产品开发、临床试验以千万计的资金已经投进去了，一旦此时在产品技术层面发现重大缺陷，整个大厦瞬间垮塌，这个风险实在没必要去冒。

通过注册检是体外诊断试剂产品开发完成的标志。产品就此定型，产品技术要求，关键原材料，关键工艺不许再有更改。后续临床试验所使用的产品，必须按照这些既定的技术方法与技术条件，在GMP 规范下生产出来，才能有效支持产品的注册申报。这些一旦有所变更，则注册检作废，动辄百、八十万的成本投入与至少半年的时间作废。

在中国，体外诊断试剂划分为三类：

其中的一类产品（比如剪子、棉签之类）无需进行临床试验。
二、三类产品一般都须进行临床试验（少数成熟产品可以豁免）。

在医疗器械质量管理体系的术语中，临床试验被称为对产品的“确认” 。只有在临床试验中表现良好，才能确认产品是临床有效的，才能够获得注册审批。

产品注册临床试验

体外诊断试剂产品的注册临床试验，在研究设计上可以有“观察性”与“干预性”两类。

“观察性”研究

在 “观察性”研究中，并不按照待考评产品的检测结果对患者施加任何治疗措施。只用待考评产品和“金标准”方法对同一批临床样本进行检测，然后按样本配对考察两种方法的检测结果一致率来评判待考评试剂是否可以满足临床性能要求。

“干预性”临床试验

对尚不存在“金标准检测方法的创新型检测产品，则需要设计干预性临床试验，依据待考评产品的检测结果对患者进行治疗，并根据疗效判定待考评产品的临床效能。

干预性临床试验显然在伦理委员会这一关要难过许多。首先，你得拿出前期的临床科研证据，至少是单中心、中等样本量的干预性研究，表明你的创新产品有足够高的安全性，并且是大概率可以使患者获益的。并且，在注册临床试验的研究设计上还得保证对照组患者至少可以获得当前临床常规水平的治疗，不可以遭受额外的风险与损害。

需要注意的是，按照法规原则，即使当前尚不存在可以全面评价创新检测产品的“金标准”方法，因而设计了干预性临床试验来证明产品的临床有效性。同时，还是要找一个当前与之最近似的检测方法来做技术性能的对比观察。

注册临床试验，经常是体外诊断试剂产品开发过程中耗时最长，资金花费最大的一个阶段。经典、常规、样本来源容易的二类产品或许可以几个月搞定，创新型三类产品，如果需要追踪患者的临床结局，多中心临床试验做上两、三年是经常的。其中各种失误、事故、合规性风险、医患纠纷风险 …… 时常会出现一招不慎，满盘皆输，前功尽弃的危机，亚历山大！

产品的药监审批

完成了临床试验，各研究中心出好了研究报告。与临床前研究资料整理在一起，就可以向药监局递交注册申报资料了。

一类产品无需注册检和临床试验，把资料在（地级）市局备案就可以
二类产品由省局审批
三类产品由国家局审批

一年多前的新规，增加了预审流程。企业可能被告知需要对资料做些补充、完善才能通过预审，给予“立卷”。立卷后进入正式审查。新规是：临床前研究与临床研究由药监局评审中心两个部门（审评六部与临床二部）各出一个评审员小组分别审查。

不要幻想审查可以一次通过，这种情况历史上从没出现过，将来也不会出现。审查后会通知企业对申报资料进行解释和补充。这个步骤称作“发补”，“发回以补充资料”的意思。临床前研究与临床研究数据的有效性、充分性都可能被质疑，都可能被要求补充研究、补充数据。一年之内，企业必须将评审员所要求的资料补齐。他们再审，满意了给你批证。仍不满意，则驳回注册申请，产品开发失败。

从递交申请资料到产品获批发证的过程耗时，国家药监局每月都有统计。最近的统计（2022年3月）是365个工作日，大约相当于1.5个自然年。大家在做产品时间规划的时候对此需要有客观的预期。

上面就是体外诊断试剂产品从产品研究到注册获批的逻辑过程的概述。对三类产品，即使是个没啥创新性的me too产品，这个过程走上三年也不算多。创新强、临床试验难做的三类产品，这个过程搞上五年很正常。总计花费，最常规的三类产品也得几百万。创新、复杂的三类产品没几千万下不来。

体外诊断试剂的产品研究

这里的产品研究专指体外诊断试剂产品建立过程中的第一个工作阶段。首先重复一下体外诊断试剂产品的研究目标需要明确的10项限制条件：

检测的靶标物质是什么？目标生物标志物是什么？

检测的临床生物样本是什么？

检测是否需要定量？定量精度需求是什么？

靶标物质在样本中的丰度如何，即所需的最低检测限大约是什么？

临床生物样本中主要的干扰物质是什么？

样本的采集、储存、运输的条件、时限要求是什么？

检测从开始到完成的时限要求是什么？

检测产品的成本要求是什么?

检测操作对使用者的技能，设备要求是否存在限制？

知识产权要求、限制是什么？

这10条中的前6条可以说是科学性的要求，后4条是市场与应用要求。产品研究阶段的工作虽然以产品建立为目标，必须考虑很多学术科研中无需顾忌的市场与应用方面的各种需求。但在工作早期可以先把这些限制条件搁置一边，用最优资源条件去努力实现检测的科学性要求，即检测所需的核心性能，达成前述产品边界条件的第4和第5项，即满足最低检测限和抗干扰性能。

产品最低检测限的概念与设置

最低检测限的概念可以有两个层面。

技术最低检测限

它首先是个纯检测技术层面的概念，是某产品所使用的检测技术对靶标物质可以进行“良好检测”时，靶标物质在预期样本中的丰度摩尔分数低限（本文称之为“技术最低检测限”)。就是说，当靶标物质丰度少于这个低限时，该检测就会技术失效，无法可靠检出了。

产品最低检测限

第二个层面是由产品应用的具体技术参数与生物学客观现实共同界定的，即在检测的生物样本使用量下，靶标物质在绝大多数样本95%以上）中的最低丰度，也就是95%分位值，即是这个产品最低检测限的合理数值（本文称之为“产品最低检测限”）。

所以，从产品研发角度，研发的优化目标，就是使技术最低检测限低于，或至少等于产品最低检测限。只有达成这个目标，才能使95%以上的样本得到“良好检测”，满足产品的临床检测应用要求（法规规定检测失败率不许高于5%），才是一个合格的产品。

在此需要强调的是，产品最低检测限是受检测所使用的生物样本量限制的，在特定的生物样本使用量下有着特定的物理极限（见后面讨论），不应把技术最低检测限与产品最低检测限简单等同。

良好检测

这里的“良好检测”又该如何定义呢？“良好检测”的定义应该是：通过对检测数据的分析，可以对目标生物标志物获得定量或定性的有效测量。而这个测量结果所蕴含的生物学意义，可以帮助临床医生针对性地为患者选择干预措施。为达成这个目的，需要设置一个判断阈值去解释生物标志物的测量结果，也就是阳性阈值（后面在产品开发章节再具体讨论如何确定这个阈值）。这个阈值就用来指导、建议临床医生，高过它对患者采取什么治疗方案，低于它又该选择什么治疗方案，进而使患者受益。

所以，总结一下：

一个体外诊断产品的最低检测限，谈的是检测的靶标物质的摩尔分数。

产品最低检测限应该设定为在预期检测样本中靶标物质丰度的95%分位数，这才能保证在95%以上的预期样本中都能实现“良好检测”。

而“良好检测”，谈的是生物标志物，指的是通过检测靶标物质所获得的数据可以使目标生物标志物得到有效测量，且测量结果可以与一个预设的阳性阈值进行比较，高于或低于这个阈值，医生就可以对患者采取不同的干预手段。

当靶标物质的摩尔分数用作目标生物标志物时，对目标生物标志物的测量，就是对靶标物质摩尔分数的测量，二者之间是可以相互比较大小的数值。此时，一个合格的检测产品应该做到，技术最低检测限≤产品最低检测<检测阳性阈值。

微生物感染的体外诊断产品是靶标物质的摩尔分数用作目标生物标志物的典型代表。这类产品的最低检测限与阳性阈值所测量的都是目标病原体在生物样本中的载量。

背景阅读

病原体感染与致病的剂量效应

传统上，致病微生物有“专性病原体”（obligate pathogen）与“兼性病原体” （opportunistic pathogen）之分。对专性病原体，长久以来的认知是，它们就不该在人体内出现。一旦出现就说明人遭到了感染，就是患病。而兼性病原体，意思是它们在正常人体内是存在的，只有当某些特殊情况下，比如免疫力低下状态，才会使人致病。

现代病原生物学越来越多的研究数据表明，即使是所谓的专性病原体，对宿主的感染、致病也是剂量依赖性的（本文称作“侵入剂量”）。其中的道理在于，病原体侵入人体之后要经历一个增殖过程，在体内数量增大到一定程度（本文称之为“致病阈值”）才会对人体造成危害，出现症状。这个增殖过程就是所谓的潜伏期。

需要注意的是，病原体在人体内的增殖与被免疫系统杀灭是同时发生的。也就是说，在任意给定瞬间，都会有 N 个病原体繁殖出来，同时又另有 M 个病原体被杀死。只有 N 大于 M 时，病原体总量才会逐渐增多，直至达到致病阈值而出现症状、发病。如果 N 小于 M，则病原体会被逐渐清除。也就是说，还没有出现症状，人就康复了。

病原体在人体内的繁殖是以指数增长的，所以 N 这个数值与起始量，也就是侵入剂量，关系很大。侵入剂量增大一点，N 就以指数增大，大很多。而另一方面，在病原体侵入初期，免疫系统还没有被充分调动起来的情况下，人体杀灭病原体能力基本是恒定有限的，并不因侵入剂量的增大而增强。所以 M 值并不因侵入剂量的增大而增加很多。其综合效果就是，感染之后，人最终是否会发病，除了个体 “抵抗力”以外，侵入剂量是个重要因素。侵入剂量越大，N 大于 M 可能性就越大，最终发病的可能性就越大。侵入剂量越小， M 大于 N的可能性就越大，最终发病的可能性就越小。

对特定的病原体而言，其感染建立，导致人体发病，所需的最小侵入剂量（本文称之为“感染阈值”）是由其内在生物学特性决定的，可以用来作为表征病原体毒力强弱的指标之一。比如，痢疾杆菌是致病最强的细菌之一，吃下去 7 个即有可能致病。而炭疽菌感染所需的侵入剂量要大许多，至少要几万个细菌（孢子）才行。

病原体感染、致病的剂量效应决定了病原体侵入人体之后可能出现两种发展转归的简化模型。

第一种情况（本文称为“一类感染者”），如果人的抵抗力弱，侵入剂量大，超过了“感染阈值”，病原体在人体内的繁殖速度就会大于杀灭速度，在经历了一段潜伏期，病原体数目增加到一定量（致病阈值）时就会对人体显著造成损害而出现症状。

第二种情况（本文称为“二类感染者”），如果人的抵抗力强，侵入计量小，没有超过“感染阈值”，病原体的繁殖速度就小于杀灭速度，病原体在人体内的数目就会出现以侵入剂量为峰值，逐渐减少（可能会有波动），直至彻底清除的过程。

那么，现在问题来了，病原体感染检测产品的最低检测限与阳性阈值应该如何设置才最有临床价值？

从指导临床干预角度，检测指标应该能够准确反映上述感染转归过程中的几个关键数值才最有帮助。具体而言，检测的产品最低检测限应该设置为感染阈值。而检测的阳性阈值应该设置为与致病阈值相同，这样才是一种理想的体外诊断产品。遗憾的是，当前几乎还没有任何病原体体外诊断产品达成这个理想。

传统的微生物检测手段十分低效，比如涂片染色-显微镜观察，只有当病原体在生物样本中的载量远超致病阈值的情况下才能被观察到。也就是说，传统方法的技术最低检测限高于病原体的致病阈值。这种情况下，技术最低检测限、产品最低检测限只好与检测阳性阈值合为一体了。于是，定量也失去了意义，检测以定性的方式进行就可以，只要观察到目标病原体，就报告“阳性”。

局限于传统微生物检测技术手段的低效性、低灵敏度而形成了“专性病原体”这个概念。检测中一旦发现这些病原体的存在，就判断为“患病”，这在技术最低检测限高于病原体致病阈值的无奈情况下是没毛病的。但是，在检测技术高度发展的今天，PCR技术已经把微生物检测的灵敏度提升了很多个数量级，理论上已经可以检出单个微生物的存在。现在如果仍然不做具体问题具体分析，固守“专性病原体不该从健康人体内检出”的传统观念，对专性病原体一律把技术最低检测限当作阳性阈值来用，就难免出现刻舟求剑的尴尬了。

背景阅读

当前新冠核酸检测存在的尴尬

当前的新冠核酸检测就存在着阳性阈值设置不合理的问题。你如果去查看一下各厂家的产品说明书，或药监发布的注册审批报告就可以发现：当前新冠核酸检测的技术最低检测限基本都是在Ct 40之下，每毫升几百个病毒这一量级（以每毫升200个最为常见）。

熟悉qPCR检测的读者都知道，一个 qPCR反应的总体积，也就是诊断试剂与样本体积之和，一般在10到50微升之间。其中可以留给样本的体积一般在10微升以下，最多20微升。以每毫升200个的病毒载量，即使以样本体积 20 微升计算，每反应的平均病毒数目只有 4 个。这是一个非常、非常敏感的检测！

新冠病毒是个新发、致命病原体，显然立刻就被当作专性病原体对待了。核酸检测的技术最低检测限就被当作了阳性阈值来应用，初期还问题不大，但随着病毒演化，传播力更强、毒力更弱的变异毒株成为了主流，再加上大范围接种了疫苗，就出现了“无症状阳性”大幅增加的现象。

近期上海查出的几十万核酸检测阳性案例中 95%以上都是无症状感染者。而这些“无症状阳性”中绝大多数人会保持无症状直到转阴。这提示着，当前的疫苗虽然无法阻止病毒的侵入，但增加了感染初期人体对病毒的杀灭能力，与病毒毒力的减弱形成叠加效应，使得感染阈值升高。其后果是，更多的人在暴露于病毒时，所遭受的侵入剂量低于感染阈值，于是，最终病毒清除而没有发病，成为了前述病原体在人体内发展转归简化模型中的“二类感染者”。

以PCR的高灵敏度，新冠核酸检测的技术最低检测限显然已经低于了感染阈值，当把这个最低检测限用作阳性阈值时。大量的“二类感染者”就会被“阳性”检出。这些 “二类感染者”无需任何治疗。对他们而言，这样“阳”上一次，不仅无害，反而有益。因为这就相当于接受了一次减毒活疫苗的加强免疫，是喜不是忧。所以，检出“无症状阳性“对临床治疗并无实际意义。按照对待专性病原体的传统观念，把新冠核酸检测产品技术最低检测限直接当作阳性阈值的做法已经失去了合理性。

显然，临床医生们已经察觉到了这个不合理。所以新版诊疗指南里（第九版）把阳性阈值从Ct 40改成了Ct 35。按照 qPCR定量原理，Ct值减少5个，理论上相当于病毒量上升至32倍（2的5次方）。现在把阳性阈值上调为高于技术最低检测限是合理的。但这个上调幅度是否充分合理，仍然缺乏数据支持。新冠病毒感染、转归过程中的几个关键数值，即，感染阈值和致病阈值都需要以临床研究去确定，老败还没见到过相关研究数据。

在各种临床检测中，目标生物标志物不一定是靶标物质的摩尔分数，而可以是靶标物质所承载的其它属性。比如，在很多分子检测中，靶标物质是核酸（DNA或RNA），但目标生物标志物却不是核酸的摩尔分数，而可能是某个染色体、染色体片段或基因的拷贝数，也可能是某种基因型，还可能是mRNA表达谱。

在这类检测产品的研发中也要为产品设置最低检测限。如前所述，此时的产品最低检测限应该设置为核酸（DNA或RNA）在预期检测样本中摩尔分数的95%分位值。产品必须要对最低检测限样本实现良好检测才算是个合格产品。所以，此时的最低检测限只具有检测技术层面的意义，不具有任何临床意义。

而此时目标生物标志物的测量结果并非核酸的摩尔分数，而是其它的生物信息数据。我们需要为这些生物信息数据的测量结果设置阳性阈值以指导临床干预。此时，阳性阈值需要从另外研究中获得，其数值也与产品最低检测限没有直接关联，不能直接比较。

前面讲过，产品研究的工作目标，首先就是优化检测反应，使检测的技术最低检测限低于，至少等于产品最低检测限。这个工作先要用模拟样本来进行。首先获得检测靶标物质的纯品，做梯度稀释，以选定技术方法进行检测，观察在产品最低检测限下是否可以对目标生物标志物实现良好测量。如果不能，则改进方法再试，直至达成目标。

检测干扰物的研究

实现预期的产品最低检测限后，即可向模拟样本中梯度添加干扰物质，重复前面的试错优化工作，直到在预期干扰水平下仍可重复、稳定地达成最低检测限要求。

干扰物质的种类和所需的抗干扰能力的强弱需要从生物样本采集、样本预处理方法、检测方法学特性等方面综合考虑。比如：

检测靶标物质是DNA时，RNA经常不是很需要担心的干扰物质。但反过来，检测靶标物质是RNA时，DNA的干扰经常必须重视。
微生物宏基因组检测时，人DNA是干扰物质。反过来，微生物DNA也可能成为人DNA检测的干扰物质。
对血清中某一种抗体进行检测，血清中的其它抗体都会成为干扰物质。
血红蛋白可能是一切以血液为生物样本的检测都需要考虑的干扰物质（除了血红蛋白检测本身）。

而对一个PCR检测来说，是使用从血液提取的DNA作为检测样本，还是直接用全血为作检测样本，对血红蛋白的抗干扰能力需求完全不是一个数量级的。

当前，临床检测的一个重要发展方向是POCT（Point of Care Testing）化。检测仪器设备的自动化，操作过程的“傻瓜化”，是实现POCT的关键。而提高检测试剂的抗干扰能力，以简化样本预处理过程，进而更加易于自动化操作的实现，降低检测成本，缩短检测时间，则是POCT检测系统研发的重要技术途径。

用模拟样本达成满意的最低检测限与抗干扰性能后，要用少量（几个到十几个）新鲜临床样本进行验证，如果成功，就要开始考虑市场与应用方面的研发目标了，即，在保证检测核心性能的条件下实现边界条件 6-10。

需要额外说明的是，“干扰物研究”是产品注册申报中，临床前研究资料的重要内容之一。只不过，申报提交的数据需要以三批试生产产品做出来才有效。所以，从性质上说，那是在产品开发阶段对产品抗干扰能力的验证。

检测应用层面的相关研究

前述第10条，知识产权要求，规避别人的专利，通常是硬性要求。要认真研究目标专利的权力要求。其权力要求中只要有一条在咱们的技术方法中没有采用，咱们就不构成侵权。研究清楚以后就可以相应调整技术方法，绕开他的专利。

前述第7-9条，对检测的时限、人员、设备、成本要求都是检测的应用与商业要求。可能要求很严，也可能不那么严格。须知各项指标都做高标准、严要求是高难度的挑战！甚至经常是不可能完成的任务。有舍才能有得才是这个世界的一般规律。这种要求一般来自于市场与产品部门，所以，在研发优化过程中要与他们保持密切沟通，了解各项指标之间相互妥协、退让、相互迁就的可行性，采取相应对策。很有可能，它们中的某项要求是必须达成硬指标，其它性能可以妥协。研发人员要是理解错了，干得再好都是无用功。

接下来需要通过研究工作确定限制条件6，即，“样本的采集、储存、运输的条件、时限要求” 。除非研发目标本身就是对这些内容的改进，多数时候市场、产品部门对这些技术指标没有硬性要求，研发部门通过实测把边界条件摸清就好。

研发实验策略的几个注意点

在研发工作中，在实验策略方面有几点值得说一下。一个是，在梯度设置中，比如干扰物浓度梯度，储存运输的温度梯度、时间梯度等等，一定要把范围扩大到“做不出来” 为止。搞清各技术参数的极限边界，一旦各种技术需求相冲突时，才好综合平衡，有的放矢地做出调整、妥协。另外，在将来现实应用中，发生错误、事故在所难免，对检测的失效边界做到心里有数，对将来挽救事故样本极有帮助。

再一个是，在做Me too或Me better产品研发时，友商的竞品试剂经常可以起到帮助作用。尤其是在做性能追赶时，把竞品试剂与自家产品做单组份交互替换实验，经常立刻可以找到问题的关键所在。

当产品最低检测限的要求非常高，也就是靶标物质的摩尔分数非常低时，必须要考虑检测的物理极限问题。新的技术手段, 特别是核酸扩增技术，二代测序，ddPCR技术越来越广泛的应用，检测灵敏度越来越高。对目标生物标志物良好测量的瓶颈经常从检测方法学的限制转变为靶标物质在生物样本中丰度的限制。如果这个丰度非常低，即使检测的技术最低检测限可以做到这么低，但把产品最低检测限做到这么低却受着物理极限的限制。前面提到的新冠病毒检测就存在这个问题。

当前新冠核酸检测多数的产品最低检测限为每毫升200个病毒，如果每反应只加入5微升样本，平均每反应的病毒数目只有1个。这样，从概率上讲，会有 1/3检测反应中1个病毒都没有，1/3检测反应中有1个以上病毒，只有 1/3检测反应中刚好1个病毒。即使qRT-PCR的灵敏度可以达到单模板水平，仍然不可避免地会出现 1/3的检测的假阴性。所以该产品要想达到每毫升200个病毒的产品最低检测限，检测样本使用量就绝不能是 5微升，而至少是15-20微升才能满足这个最低检测限要求。

再比如，cfDNA检测以千分之一，甚至万分之一的肿瘤稀有体细胞突变为目标生物标志物，那么，每个检测反应靶标物质的投入量，受物理极限的限制就必须不能低。假设每拷贝人类基因组5皮克，以千分之一稀有体细胞突变为检测目标，cfDNA 的使用量的物理极限就是5纳克。而根据概率分布原理，即使使用5纳克，也会有1/3的概率出现取样错误而发生漏检。所以，一般至少要把cfDNA的使用量提升到20纳克才对千分之一水平的稀有突变达成比较可靠的检测。同理，对那些声称可以检出万分之一的肿瘤稀有体细胞突技术，cfDNA的使用量就不得不提升到200纳克！那可能需要从上百毫升的血浆中才能获得。如果不前置在体（in vivo）富集手段，这样的检测临床实用性很低。

体外诊断试剂的产品开发

体外诊断产品的开发的工作内容，从形式上主要还是实验数据的产生与分析，但从工作的目的、性质上来看，解决的都是学术科研中基本不必操心，而对检测产品有效性至关重要的问题。

产品开发工作，对药监局评审中心已经发布过“审评指导原则”的成熟产品，逐条照着“指导原则”去做就是，无需在此讨论。

对创新度高，前所未有的产品，则只能按照监管法规、质量体系里面的原则性要求去实施产品开发工作。但那些条文写得高度概括，而且经常很感性，不时出现“适当的”、“足够的”这类高深莫测的形容词，如何把这些感性原则落地为自己产品的开发流程、研究证据、验证数据，是艰难的挑战。关键难点在于，产品的开发过程、数据是否确实达成了这些感性原则的要求，最终评判者不是你自己，而是药监局评审员。是否“适当”、是否“足够”，的判定，取决于各种“一定之规”、“约定俗成”、与评审员的个人自由裁量权。所以产品开发人员必须对行业惯例与评审员的思维心理很熟悉，才能不給自己挖坑，避免到了产品注册申报的最后阶段曝出无可挽回的过程缺陷，导致产品重大失败。

说到这里，可能会让读者感觉评审员吹毛求疵，很可怕。事实上，他们的评审逻辑确实是吹毛求疵，很可怕。简而言之，一切技术法规、指南、共识里没有做“死规定”，而是规定了一个范围的，你都按最高标准要求自己就平安无事。

而一切都达到最高标准，显然各种资源耗费，人力、物力、时间都是最大化的，经常是难以承受的。你不是不可以节省点，降低点标准要求，但任何标准降低，评审员都会要求你拿出充分的研究证据和数据来证明，在这个较低的标准之下，你的产品仍然可以保证技术要求的良好实现、产品稳定生产、临床效能达成。而这个证明过程又必须是在最严格的论证逻辑之下，以最严谨的研究设计，最充分的样本数据量去实现的。所以，这些额外的验证、证明工作的难度之高，工作量之大，很可能让你在心里掂量、掂量：“算了咱就按业内惯常最高标准去做还省事点”。如果，客观现实使你确实无法按业内惯常最高标准去做，那你就别无选择，必须以严格的论证逻辑，严谨的研究设计，充分的样本数据量向评审员证明，在这个较低的标准之下，你的产品仍然可以保证技术要求的良好实现、产品稳定生产、临床效能达成。

以监管审批倒逼企业做最高质量的工作，逻辑就在这里。这是对产品开发总监的巨大挑战，也是企业最高负责人在筹划、审批产品开发的资源的投入时需要理解的行业背景。

产品的主要原材料研究与原材料困境

原材料研究是体外诊断试剂产品开发中至关重要的一个环节。历史经验表明，产品品质出现波动、不稳定，八成跟原材料品质的不稳定有关。

产品的主要原材料研究要放在产品开发的第一步来进行，是因为它是一件牵一发而动全身的事情。产品的一切技术、性能参数都是基于某种，或某几种特定的主要原材料而言的。从逻辑上说，后期在主要原材料上发生的任何变更，都导致前期的研究、验证数据失效。如果坚持变更，就要把前期已经做过的工作重来一遍。这个逻辑原则评审员会严格要求，所以咱们也必须遵守。

如果不想浪费时间与各种资源颠来倒去地做罗圈事情，最好在产品开发的第一步就把主要原材料的研究做好，找到性能合格，供应持续可靠的产品原材料，把主要原材料的供应商、关键技术参数定下来，后续的一切工作都以确定原料所配制的研发批产品进行。

体外诊断试剂的关键原材料多种多样。老败在此以自己比较熟悉的酶和抗体为例来说说其中的纠结。

这两样作为体外诊断试剂原料，目前都不能令人满意，主要表现在：持续生产、供应中的批次稳定性差，基本还停留在初级工业品、甚至科研实验室的水平，远达不到现代工业的高标准。而体外诊断试剂，事关人群健康，对产品品质稳定有着非常高的要求。如何用不那么稳定的原料去生产非常稳定的产品，这是体外诊断试剂行业在技术工艺方面面临的艰巨挑战。

酶

酶，是少数几种用“活性单位”，而不用重量（质量）来定量的单质之一。不要以为这种特立独行是一种“高大上”，这是个“没有办法的办法”而已。

单质的纯度通常用百分比来表示。比如，金子的纯度轻松可以做到小数点后面若干个“9”。酶是一种蛋白质单质，蛋白质的纯化，纯度能达到 95%经常就算优秀水平了，90%有时也不得不接受。

体外诊断试剂所用的酶原料通常是以微生物发酵的方式生产出来的，发酵结束后把微生物收集、破碎，用复杂的工艺，把所需要的酶纯化出来。而当前的纯化水平，在合理、可接受的成本限制之下，达到 95%就算不错了。并且，这95%里有多少是三级结构正确，有生物活性的酶还很难说，那5%的杂质是些什么东西？不知道！其中是否会存在着某些成份可能会对酶活产生抑制或干扰？不知道！不知道这些，很难确切控制产品酶的活性。

所以，不同批次之间的酶，从蛋白定量看纯度虽然都是 95%，但活性却经常有显著差异。以至于用重量去表征不同批次的酶已经失去了实际意义，只好直接用活性来定义酶有多少。

这样做，有一个麻烦在于，一种酶经常是有不同生物活性的，比如一个完全体的DNA聚合酶，除了DNA聚合酶活性外，还可以有 3-5外切酶活性、5-3外切酶活性、链置换活性，其processivity决定了链延伸可以跑多长，也就是扩增产物可以有多长。而DNA聚合酶的出厂质检，通常只以DNA聚合酶活性当作唯一的质检标准。但是，很可能，除了 DNA聚合酶活性以外，上述其它某种生物活性在一个诊断产品中也发挥着关键作用。

如果这个原料酶厂家“改进”了生产工艺，从他自身的角度看，确保了DNA聚合酶活性，产品通过出厂质检完全没毛病。但这个“改进”很可能同时悄悄改变了酶的其它生物学活性，用于这个诊断产品时就产生不了预期的效能，引发大麻烦！

针对这类风险，质量管理体系做出了预防要求。那就是，体外诊断试剂的合格供应商必须也具备良好的质量管理体系，确保生产工艺不会在不知不觉之下被擅自改变。同时，在质量体系控制下的工艺改变必须提前知会客户，以确保在新工艺下生产的产品仍然可以良好满足客户需求。这样，体外诊断试剂的产品开发工作，就延伸到了供应商管理的层面。在做关键原材料研究时，还需要考察供应商的质量体系是否可以满足要求，这通常是与采购、质量部门联合实施的。

保证酶原料的品质稳定，理想方式是采用“定制化”的方法去做。就是说服供应商同意，按照咱们用户的质检方法、质检标准收货。甚至，咱们可以把质检方法、质检标准提供給供应商，作为向咱们供货的专用出厂质检标准。这样做的唯一困难在于可行性问题，只有当咱们的订货量足够大，咱们才处于强势的市场地位，供应商才会答应咱们的这类要求。

抗体

作为体外诊断试剂关键原料，抗体也有其独特难点。你如果做过抗体的研发、制备工作就会知道，那是一门艺术，并且有着太多的运气成分。

如果是多抗，在相同的免疫原和免疫方案下，并没有技术可以保证每只兔子产出的抗体都能满足特定的产品性能需求。你不知道能有几只兔子，哪几只兔子血浆中出来的抗体对你的产品可以有满意效果。极端情况下或许只有一只！那这只兔子就成了这种产品的“金兔子”，必须好生伺候着，持续收它的血清，以维持这个产品的生产。在这只兔子老死前，赶紧去免疫更多的兔子，寻找下一只“金兔子”，如果找不到，产品断档死掉，这种事情不是没有发生过。

单抗不用兔子，用免疫小鼠后获得的B淋巴细胞与瘤细胞融合，而形成既可以产生抗体，又无限繁殖的永生化杂交瘤细胞。筛选出单细胞克隆保留下来，即可生产具有极高特异性的单克隆抗体。但有时候，单克隆抗体的生产也会有类似“绝种金兔子”的尴尬。

用特定抗原（即使是只有一个预测表位的多肽）免疫小鼠，从小鼠体内筛选出的几个单抗细胞克隆，都能产生针对该抗原的单抗。但这些单抗（即使来源于同一只小鼠）做出的产品，对该抗原的检测性能可能会很不一样。所以你看各家单抗产品那名字，多是一串意义不明，看上去相当随机的字母与数字组合，那是在单克隆筛选工作中产生的流水号唯一码。其意义在于每一个单抗细胞株都有一个唯一代码，避免互相混淆。

对某个产品而言性能最好的单抗，可能仅来自于某个特定的细胞克隆，其它的都不理想，这时候，这个细胞克隆的维持培养就成了关键问题。杂交瘤细胞理论上是永生化的，可以无限传代繁殖、培养下去。但肿瘤细胞内在本质的不稳定性可能会造成麻烦。一个珍贵的杂交瘤细胞，越养越弱，最终养绝种了，或者养着、养着，产出的抗体性能变差了，这种事情经常发生。如果真出了这种事情，合格的替代抗体原料又还没找到，那可真是欲哭无泪！

第一个被美国 FDA批准上市的循环肿瘤细胞捕获产品，强生公司的CellSearch，几乎是谁用谁抱怨它不准，谣传就是因为最初的单抗细胞株养死了，再也找不到那么好的单抗了。

应对这类风险，质量管理体系也有建议，那就是，在产品开发过程中，要为关键原材料找到至少两家合格供应商，可万事都是知易行难，谈何容易！

试剂管

酶和抗体作为体外诊断试剂的关键原材料很容易理解，但有些在学术科研中毫不起眼的小东西，在产品实现中也可能存在陷阱，需要在产品开发中识别并解决，比如，装试剂的管子。

管子是否堪用，能否满足产品的清洁度要求具有一票否决权。不同产品所需关注的污染物质种类、程度各不相同，备选管子原料是否合格需要设计相应的实验来鉴定、验证。

必须注意的是，这时候所面对的污染很可能是1%量级的低概率事件。也就是100个管子中才有一个存在不能接受的特定污染。而体外诊断产品需要把产品的可靠性提到99.9%甚至更高。所以，少量抽样检查几个、十几个样本是无法满足要求的，只有几十、上百个地做上多批、多次才能获得比较可靠的评估结果。

清洁度要求以外，体外诊断试剂所用的管子，经常要面临低温（液氮、干冰）、高温（水浴、PCR仪、烤箱），有机溶剂（乙醇、甲醇），各种酸、碱、紫外线、放射线，反复捏挤的虐待。要求在这些挑战之下不裂、不破、不变形、不变色，没有物质溶出，持久不老化，还需要考虑：

塑料添加剂、注塑脱模剂的渗出是否会干扰产品性能？
管子材质对核酸、蛋白或其它物质的吸附是否会干扰产品性能？

管子对标签纸、记号笔需要有良好的亲和性，还需要考察：

盖子的密封性是否良好？
螺旋盖是否容易反松？压盖是否会自己弹开？
盖子的开、关手感是否舒适？

糟糕的管子，开关几次就可以把人手磨出水泡来！盖子紧得让小姑娘恨不得用牙啃才打得开！产品用了这样的管子绝对会遭骂的！

如此众多的评估维度，打起擂台来，各厂家、各型号的管子难得有哪个可以面面俱到，做到完美。即使有完美的管子，那价格也必然十分感人！最终的选择只能是多维度的相互妥协，寻找满足产品需求的最高性价比。这个过程又是必须与市场、产品人员密切协同才能做好的，他们可能会有研发人员想不到的看法。

所以，对体外诊断试剂而言，哪怕是管子耗材这类小东西的选择，验证，在产品开发阶段都有很多工作要做。后期如果想要变更、替换，也需要付出很大的研发代价。从产品原料中替换一只管子，如果只便宜几分钱，这个管子的需求量得高到多大程度才能平衡研发变更所付出的人力、物力、时间代价？这需要算一下才能决定这个事情是否值得去做，做这个计算时还要考虑到资源被挤占，没有去做其它产品项目的机会成本。

检测参考区间与阳性阈值的建立-样本属性、研究方法

产品研究阶段实现了检测的原理可行性，确定了最低检测限，并用少量临床样本初步验证了技术方法对临床样本的适用性。在产品开发阶段，需要建立、确定检测的参考区间、阳性阈值，检测技术才能实现其应用价值，转化为可以指导临床干预的检测产品。

在前面关于产品研究的章节中，讨论过产品最低检测限与阳性阈值的关系。所以阳性阈值实际上是在产品研究阶段就需要关注的一项关键技术指标。但从体外诊断试剂研发，特别是产品注册申报所要求的严格过程逻辑而言，这项关键指标必须在主要原材料研究完成之后，原材料不再发生变动的情况下进行研究、验证，确定下来才有意义。否则，主要原材料一变，前期研究获得的阳性阈值就会作废，所有工作白废。因此，这项工作放在产品开发的第二个阶段来进行比较合理。

建立产品的参考区间、阳性阈值，其工作内容是以检测产品对已知的阳性和阴性样本进行检测后，观察、寻找目标生物标志物的测量结果在阴、阳性样本之间的分界阈值。那么，我们首先就需要获得确实是“阳性”和“阴性”的样本，才能实施这个观察研究。

产品研究是从模拟样本开始的，并且整个产品研究阶段的工作主要都以模拟样本来进行。模拟样本中的检测靶标物质是人工定量掺入的，其“阴”与“阳”的定义是人为控制的。而产品开发中参考区间、阳性阈值的建立与验证，必须要使用足够多的临床样本才会得到审评员的认可。而临床样本中的检测靶标物质是生理/病理性存在的，其“阴”或“阳”不由人为决定。此时，在收集这些临床样本时，就必须想出一个可以搞清这些临床样本“阴”、“阳”性的办法。

“阴性”样本

首先，“阴性”样本可以从“正常人”中收集。此时，“正常”的定义需要根据检测的应用目的而定。比如，检测以肿瘤诊断为目的，那么全体没有肿瘤的人就可以算作“正常”，高血压、糖尿病等等普遍健康意义上的 “异常”在此可以忽略。

而且，需要强调的是，此时还应该有意识地纳入特定的，需要与检测的应用目的作鉴别诊断的患者样本作为 “正常”的“阴性”样本。比如，对膀胱癌诊断检测而言，膀胱炎、肾盂肾炎、尿路结石、等等泌尿系统非肿瘤疾病都是需要进行鉴别诊断的，所以，这些患者的样本也应该作为“正常人”的样本纳入检测参考区间的研究之中。

“阳性”样本

用于阳性阈值研究的“阳性”临床样本的获取，一个比较简单的办法，是用当前的 “金标准”方法先对这些样本做一遍检测，以确定他们的“阴”、“阳”属性。

这里的所谓 “金标准”方法，与在研产品所检测的生物样本、靶标物质、目标生物标志物可以相同，也可以不同。它应该是当前公认具有较高的检测性能，而且其检测结果必须与在研产品的目标生物标志物存在着严格的关联关系（不一定是因果关系）。从而，在研产品对目标生物标志物的测量结果可以与“金标准”方法的结果进行符合性比对。

需要注意的是，这样的研究方法所开发出的检测产品，其检测性能注定不会高于所选定的“金标准”方法。这样研发出的检测方法可能在检测成本、检测速度、检测操作便利性、检测样本易获性、检测无创性等方面超过“金标准”方法，但在检测正确性方面则无法超过，最多等同。如果检测产品的患者获益单纯取决于检测正确性，则患者从新产品中的获益不能高于这个“金标准”方法。

道理很简单，以第一把尺子为标准造出来的第二把尺子，其精度不会超过第一把尺子。产品要想获得超过“金标准”方法的检测性能，就不能依赖“金标准”方法，必须另辟蹊径。

体外诊断试剂产品的创新，可以以降低检测成本、提高检测速度、提升检测操作便利性、提升检测样本易获性、实现检测无创性……为目的，都有很好的现实意义，但提升检测性能，经常是更根本性的要求。

一个创新产品，如果想要超越当前所有同类产品，甚至从生物标志物到临床应用概念都是崭新的，又应该如何去获得已知“阴”、“阳”性的临床样本，以建立产品的阳性阈值呢？这时候可以从检测产品指导临床干预的获益终点方面去想办法。

产品设置阳性阈值的目的是为了指导临床医生对患者实施医疗干预，医疗干预的目的是获得好的临床转归。只要目标生物标志物与临床转归的好坏存在确实的关联关系，患者的临床转归结局就可以作为目标生物标志物是“阴”还是“阳”的“金标准”。

这样建立的阳性阈值所实现的检测，其限性能制就只取决于检测技术方法学本身，及目标生物标志物的生物学有效性，而不会受已有其它技术方法的性能限制。

具体操作方法可以是

从产品的预期应用人群中，在患者接受某项医疗干预前（干预的决策依据按当前临床常规执行，不存在伦理风险）收取他们的生物样本，用在研产品进行检测。数据保存好，暂不分析，然后观察这些患者的临床转归结局，其中达成良好效果与未达成良好效果的两类患者，就代表着应该接受干预，与不该接受干预的两组人群。

如果检测的目标生物表标志物与干预效果的好与坏存在着内在关联，这两组人群的样本就可以当作“阴”与“阳”样本的代表，其检测数据就可以用作参考区间、阳性阈值的研究、确定。

应用这个方法时需要非常小心，只有当目标生物标志物的测量结果是临床干预效果的充分而又必要条件时，这样做才是逻辑严谨的。

如果仅是充分而不必要条件，因其它（非目标生物标志物相关）原因而导致临床转归结局的那部分患者数据就会成为干扰，需要把这些样本数据剔除出去，或采取适当、有效的矫正措施才能得到好的结果。
如果仅是必要而不充分条件，就需要知道其它的必要条件是什么，只有能够确认已经发生了其它必要条件的样本数据才可以纳入研究。

所以，对“临床转归结局”的观察应该尽可能是多种监测手段，多种观察指标的综合，才便于良好辨析目标生物表标志物与临床转归的关系，为产品参考区间、阳性阈值的建立获得有效的阴、阳性样本。

有了有效、足够的已知“阴性”临床样本，用在研产品检测后，就可以用统计分布计算的方法确定检测“正常值”的参考区间范围。2021年9月份，国家药监局发布了《参考区间确定注册审查指导原则（征求意见稿）》。虽然正式稿还没发布，但从既往经验看应该大差不差，具体工作中按这个“指导原则”去做就可以。

有了有效、足够的已知“阳性”临床样本，同样按照就可以“指导原则”，用统计分布计算的方法确定检测“阳性”的参考区间范围。

“阴”、“阳”性样本的参考区间范围可以截然分开，那是美好的理想。在现实中，即使按“指导原则”中的方法剔除了离群值，对多数检测而言，两个参考区间还是会多少有些重叠。并且，我们从统计分布计算中得到的是一个“阳性区间范围”。如何确定一个最优的阳性阈值，使检测达到最优效能呢？

ROC曲线

ROC曲线可以是解决这个问题的办法。因为样本的“阴”、“阳”属性是已知的。在用统计分布方法计算出阳性参考区间后，就可以把把阳性参考区间内所有取值所对应的灵敏度与特异性计算出来。画出ROC曲线，从ROC曲线上就可以选取最适合于该产品预期用途的阳性阈值。

此时需要注意：

前面在产品研究阶段中讨论的产品的最低检测限也是一个“灵敏度” 的概念，那谈的是靶标物质丰度很低时，检测能否良好实施的意思。
此时在产品开发阶段讨论的“灵敏度”是指检测可以准确识别多少阳性样本，也就是“假阴性率”有多少的意思。

两个“灵敏度”概念完全不同，不可混淆。

另一个需要注意的是，ROC曲线是一种统计学方法，其有效性是存在局限性的。当阳性样本与阴性样本的占比各为 50%时其有效性最高。“阴”、“阳”构成比越偏离 50%，其效度越低。

预期检测样本中阳性样本的占比，用统计学术语来说，是检测阳性的“先验概率”，是一个在检测产品开发中需要重视的命题。在产品的阳性阈值研究中，在计算灵敏度、特异性时，所采用的阴、阳性样本数目不应盲目设定为一比一，而应该按照检测的“先验概率”来确定样本数目。这样所得出的灵敏度、特异性才符合临床实际的情况，在实际应用中不致发生大的偏差。

这里有必要提示一下筛查产品与诊断产品的区别：

诊断产品的应用目人群是临床医生已经产生高度怀疑的患者，其检测阳性的先验概率较高，达到50%也不罕见，上述产品建立的逻辑方法基本是适用的。
但筛查产品需要应用于更广泛的人群，其检测阳性的先验概率非常低，远远低于 50%，甚至可以低到千分之一（比如遗传病与肿瘤的人群筛查）。

这时候，ROC曲线或许就不再是建立产品阳性阈值的最佳方法，检测产品对敏感度与特异性的要求就会有更多因素需要考虑。总的来说，筛查产品需要尽力提高特异性，而在敏感度方面可以有所让步。这可能与多数人的直觉认识相反。认真计较起来，需要以贝叶斯公式做很多试算才能清晰展示这个问题，对此，老败已有另文专门讨论，在此不多赘言。

即使诊断产品，对阳性阈值的选择也不一定都是ROC曲线的拐点，也就是 ROC曲线上对灵敏度与特异性“综合性能”最好的那一点。而是要具体分析检测阳性与阴性对后续临床干预的影响，检测假阴性与假阳性各自的危害方式与危害程度，综合取舍，选择产品的阳性阈值，使得临床应用效益最大化。

对于疗效监测，复发监测产品，比如器官移植排异的随访监测、肿瘤的复发监测，检测阳性的先验概率是动态变化的。比如复发监测产品，临床治疗完成短期内患者复发的概率是比较小的，但随着时间的推延，复发概率会逐渐上升，也就是说检测阳性的先验概率会逐渐上升。一个理想的复发监测产品，在设置时产品阳性阈值时这方面应该有所考虑。

以ROC曲线确定了最优的阳性阈值可以使检测获得相对最优效能。但仍然解决不了前述阴、阳性参考区间之间存在一定重叠的问题。这个重叠的区间，是检测对样本的“阴”、 “阳”属性做出任何判断都会存在显著错误风险的区间。此时合理的做法，是应该把这个区间设定为“ 灰区”，以提示检测的局限性。

检测参考区间与阳性阈值的建立-样本数量

前面讨论了确定参考区间、阳性阈值所需要的样本与研究方法，下面再谈谈所需样本数量。

临床样本存在着显著的异质性，检测技术方法存在着波动性，这些都使得一两个样本的研究远无法得到最优的普适性结果，必须以大量样本，统计学方法，来获得相对最优的产品技术参数设定。既然是统计学方法，当然样本数据量越大越好。不幸的是，大量高质量临床样本的来源，正是多数产品研发中的瓶颈问题。那么最少需要多少临床样本，参考区间的建立才算合理可靠呢？

《参考区间确定注册审查指导原则（征求意见稿）》中明确规定了各种情况下确定参考区间时所需的最低样本量，从120-198个不等。但需要注意的是，这个样本数量是根据既往的统计学研究成果得到的概率性数值。具体到你所研发的产品，研究所需的最小样本数量是因检测结果的波动性大小而定的，即，因检测技术特性和样本特性而定的。因此，进行参考区间研究时不应以使用了“指导原则”中规定的最低样本数目而盲目满足。参考区间建立所用样本量是否足够、充分，需要拿出验算数据才能放心。

对创新性很强，目标生物标志物首次出现的产品，评审员更是肯定会追问样本使用量充分有效的证据。

拿出这个证据并不困难。把“阴”、“阳”性样本检测值的变异系数（CV）随样本数量的增加而降低的变化趋势分别作图。当曲线趋于水平时即意味着，用增加样本数量的办法以减少检测值的波动变异，增加统计值可靠性的获益已经趋于饱和。再增加更多样本数量的意义已经不大。以这个样本数量建立检测的参考区间、阳性阈值即是充分、合理的。

参考区间、阳性阈值研究确定之后，还要用一批已知阴、阳属性的样本对这些产品关键参数的合理有效性进行验证。即，用在研产品对这批样本检测后，以前期研究确定的参考区间、阳性阈值对检测结果进行判断，所获得的检测灵敏度与特异性需符合预期。

质检方法与质检标准的设置

产品开发工作还有一项重要的工作是质检方法与质检标准的设置。对产成品而言，出厂质检标准是用企业参考品做性能检验，这个很容易理解。而成品质检以外，还要为原材料，半成品设置质检方法与质检标准才能做到产品生产全过程的可控。

原材料与半成品的质检，最容易想到的办法是取小样，一直做到成品，看能不能达成预期检测性能。应该说不是不可以这么做，但这是比较笨的办法，工作量、时间、试剂消耗大，成本高。比如，基于二代测序的分子检测产品，从酶、引物原料开始，从配制，到建库、测序、数据分析要几天时间，这样做原料检成本高昂。

比较聪明的办法，是根据各种原材料与半成品的物理、化学、生物学活性设计简单有效的技术验证实验。实验所观测的技术指标只要有助于实现对生产过程各步骤的良好控制就可以，力求简便、快速、便宜，与检测的最终目的可以相关，也可以无关。比如，pH值、离子强度、特定的 PCR反应等等都可以成为生产过程各阶段的质检方法与质检标准。

分子检测产品，特别是当前基于二代测序的分子检测产品，产品原料种类多，生产步骤多，产品使用步骤也多，质检成本、质检周期占了整个产品生产成本、生产周期显著的一块，如果在产品开发过程中充分发挥聪明才智，把质检方法设置得简单、快捷、便宜，对降低成本非常有利。

国家参考品和企业参考品

产品开发过程中三批试生产产品的全性能验证，注册检，产品持续生产的出厂质检都需要用到国家参考品或企业参考品。

国家参考品是由中检院发布的，具有法定权威性的，用于对特定体外诊断试剂技术性能进行考评的，标准化的生物样本。每套国家参考品的样本数目少则一、两个，多的可以有八、九十个。国家参考品不白送，得向中检院购买，价钱便宜的几千一套，贵的可达八、九万。

建立、制备各种国家参考品的是中检院科研人员的工作职责。他们持续追踪着临床检验各种技术、产品的发展趋势。基本上，每当有三、四家企业在进行同类的，创新性的技术产品研发时，中检院就会适时地推出相应的国家参考品。

一个体外诊断产品，如果已经有了可以完善评估其产品性能的国家参考品，则产品的注册检必须用国家参考品进行。如果产品的创新度太高，还不存在适用的国家参考品，则可以使用企业参考品进行注册检。

产品持续生产的出厂质检使用国家参考品或企业参考品都可以。一般而言，如果国家参考品足够便宜，则企业没必要去费事建立企业标准品，每次产品出厂检就用国家参考品算了，如果感觉国家参考品太贵，用不起，或国家参考品还不存在，则需要建立企业参考品。

如果已经有国家标准品，则企业参考的技术性能指标不可以低于国家参考品。在国家参考品还不存在时，企业参考品设置的原则是：

1. 全面完善覆盖产品的各项预期检测性能。

2. 应尽量与预期生物样本同质。

3. 具备高度特异性和稳定性，以满足长期存储后仍能够满足检测的需要。

4. 满足生物安全性要求。

产品生产的工艺放大与转产

在产品研究阶段和开发阶段的前期，各种研究、验证实验所使用的试剂可以由研发人员在实验室里配制。

在产品开发阶段的后期，产品开发人员要进行至少一批的“研发批试生产”，由产品开发人员与生产人员共同在GMP生产车间里做试生产，并与生产部门共同编制生产SOP。然后，由生产人员在GMP体系下按 SOP独立进行三批试生产，产品用于全性能验证、注册检、各种稳定性验证等产品开发的后期工作。

体外诊断试剂的生产过程应该说比较简单，基本只有配制、分装、组装三个大的步骤。生产工艺放大一般而言难度不高。即使如此，从人、机、料、法、环，各方面严格遵守质量体系的各种要求实属必须。质量管理体系是人类工业化三百多年摸索出来的经验、教训的珍贵结晶。

几年来，老败的深切体会就是，无论因为知识、技术水平不够，思想认识不到位，还是嫌麻烦偷懒，任何环节没有良好执行质量管理体系的要求，那是一定“要还的”。所有的经验、教训，分析下来，都会归结为质量管理体系的实施偏差。所以，老败在此感觉没啥可说的，诸君认真接受质量管理体系培训，认真实施就好。

产品的各种稳定性（储存、运输、冻融、开瓶）

前面在产品研究中讲到过检测样本的存储、运输条件要求与稳定性的研究。产品开发阶段需要搞清产品的储存、运输、冻融、开瓶稳定性。

这里需要注意的是，对注册体外诊断试剂而言，这些稳定性研究都要以GMP体系内生产出的产品去做，作为注册申报数据才有说服力。对GMP生产过程有效性的考察是产品注册评审重要关注点之一，所以研发过程中实验室里配出来的试剂所得出的产品稳定性数据对注册申报是不足为据的。

以GMP体系内生产出的产品去做各种产品稳定性实验，就意味着这项工作无法在产品研究、开发阶段的早期开展。最早也要等到产品转产后，拿到头三批试生产产品后才能进行。而储存稳定性的验证研究至少是要与产品有效期等长的，且现在的注册审评已经不接受“加速实验”的说法。所以，产品开发、生产、临床试验的时间周期必须要有个良好的统筹安排才能获得最快速的产品注册申报时间进度。

特别需要强调的是，用于注册申报的各种稳定性实验数据需要用三批试生产产品做出来，这个工作性质是产品性能的验证。如果此时验证的结果表明没有达到预期的要求可就麻烦大了！因为产品已经无可更改了！所以，验证虽然只能在最后进行，可前期充分的研究工作可万万不能少。稳定性问题从产品开发工作的第一步，主要原材研究时就需要时时考虑，反复研究、测试、验证。

前面在产品研究阶段提到过的，检测的抗干扰能力，也需要在这个阶段验证。

产品注册临床试验中的一些现实考虑

产品的注册临床试验是注册体外诊断产品的终极大考，通常是整个产品开发过程中耗时最多，耗费资金最多的环节。与产品的临床前研究存在着同样的风险是，注册临床试验的有效性需要在事后由药监局审评员评判，但其研究设计，在一般情况下却没有一个机制获得事前的官方认可、确认。

对比较成熟的Me too 产品，药监局可能已经发布了针对性的“审评指导原则”，给出了明确的要求，这个矛盾并不严重。但对创新性比较强的 First in class产品，这个问题就令人焦虑了。仅仅按照自身对《体外诊断试剂临床试验技术指导原则》的理解设计临床试验，一旦与未来审评员，或审评专家组中任何成员的认知相左，麻烦可就大了。在事前与监管机构的咨询、沟通，在官方层面与私下层面都可以有，但咨询结论的性质属于咨询专家的个人见解，无法保证与将来评审员或审评专家组的观点、态度一致，这是个潜在重大危机。

上面说“一般情况下……”。确实，一个创新度很高的产品属于不一般情况。现在有《创新医疗器械特别审查程序》这条路可以走。产品获得创新资质有三个条件：

1.申请人需在中国依法拥有产品核心技术发明专利权，或者依法通过受让取得在中国发明专利权或其使用权；或者核心技术发明专利的申请已由国务院专利行政部门公开。

2.产品主要工作原理或作用机理为国内首创，技术上处于国际领先水平且性能或者安全性与同类产品比较有根本性改进，并且具有显著的临床应用价值。

3. 申请人应该已完成产品的前期研究并具有基本定型产品，研究过程真实和受控，研究数据完整和可溯源。

产品获得了创新资质之后，药监局会组织专家委员会来为产品讨论、确定出一个具有官方效力的注册临床试验方案，最终的产品审批就以这个方案的执行情况为准。

产品的注册临床试验，那是专门的一项学问、一个专业，是各种法规要求、约定俗成一大堆的事情，必须由专门部门的专业选手来操作。这里仅仅浅谈老败个人感触较深，需要尽早筹划，小心应对的几点。

伦理问题

随着社会的文明进步，临床研究的伦理要求越来越高。参与临床试验的患者，不论试验组还是对照组，在临床疗效方面最少要达到当前临床常规水平，不可承受没有临床收益的风险或损害，这是硬性的伦理要求。

在经济利益方面，则所有参与患者必须比临床常规获益，这些倒是不难理解与实施。需要注意的是，医院伦理审查的流程当前各不相同。

临床试验方案多数都需要过“大伦理”，由医院级别，成员构成广泛（律师，附近居民代表）的伦理委员会上会审查。这个审批会一般最多每个月开一回，两个月才开一回的也不是没有。所以，一旦资料准备不及时，错过会期，或被驳回修改，时间耽误都会以月计，很是令人捉急。

患者与样本易获性

患者与样本易获性与产品的预期应用人群相关，在产品筹划的初期就需要考虑。三类体外诊断试剂临床试验常规需要的患者数目是至少1000，一般而言，其中阴、阳性样本应该各占 500。

但如果目标人群中阳性患者的先验概率很低，阳性样本到底要收到多少才算合格？这是个影响临床试验资金投入多少、产品获批时间拖延多久的关键问题。这个问题必须与监管方沟通、得到监管的认可才能决定。

如果阳性样本比较罕见、收取非常困难。审评员可能会降低要求，给你规定一个较小的数字，达标即可。也可能给你附带条件审批，也就是达成一个较小的数字就可以给你批证，但同时留下“作业”，在注册证的重审周期（5年）之内，在产品的临床应用中补充收集足够的样本数量，再去审查。

体外诊断试剂的注册临床试验，可以是观察性研究，即，待评估产品的检测结果并不影响临床干预，而只是将结果与金标准对比试剂的检测结果作比较。

也可以是干预性研究，即按照待评估产品的检测结果对患者施加治疗干预，以疗效评估检测产品的临床效能。

不过，按照《体外诊断试剂临床试验技术指导原则》中的规定，即使是创新产品，当前没有完全对应的成熟检测可以与之作“头对头”的对比，注册临床试验以干预性研究展示新产品的临床有效性以外，还是要找一个从原理、机制到临床应用与新产品相对最近似的一个当前成熟产品进行对比。所以，在体外诊断试剂的注册临床试验中，对比试剂的采购、检测花费是少不了的。

注册临床试验过程中还会有大量的，与产品、技术相关或无关的利益分配、利益冲突问题会影响工作进度。整个研究过程涉及的科室越多，利益分配问题就越复杂，其中只要有一个科室对利益分配不满意，工作进度就会受到不良影响。这是企业的注册临床部门不得不去努力协调解决的问题。

News

CONTACT US

时间：2023-06-07- 来源：LDT Bioscience

News

CONTACT US

创新体外诊断试剂研发的体会与思考： 从技术方法到产品策略 (上篇）

时间：2023-06-07- 来源：LDT Bioscience

创新体外诊断试剂研发的体会与思考：从技术方法到产品策略 (上篇）