獨立性能評估的5個原則！SaMD 開發必修課

blog

Dec 1

Written By Ellen .

不論你手上準備的是CADx或者CADe，幾乎所有 AI/ML 醫療器材都會被問到同一個問題：

獨立性能評估(Standalone Performance Assessment)是否完成？做到什麼程度？能不能支持宣稱的效能？

這篇文章帶給開發商兩個重點：

一、先釐清，什麼是「獨立性能評估」？

根據<人工智慧/機器學習技術之電腦輔助偵測(CADe)及電腦輔助診斷(CADx) 醫療器材查驗登記技術指引>指出：

“獨立性能評估是指在測試資料未再新增醫事人員介入判讀(如人工圈選、標註)的情況下，僅用既有之資料，評估AI/ML醫療器材的性能。”

以CADe為例，獨立性能評估旨在評估CADe在未再新增醫事人員介入判讀的情況下，可正確偵測及標註病灶的能力。例如，使用一批已標記的影像，在不透過醫學人員協助的狀況下，再次透過軟體將病灶偵測，標記起來。

這個過程就是「獨立性能評估」。

和「臨床評估」哪裡不一樣？

在大部分的情況下，你既需要獨立性能評估，也需要臨床評估，依據產品風險、是否有類似品等因素而有所不同。

二、獨立性能評估的規則

規則 1：測試資料vs訓練資料

在執行獨立性能評估時，測試資料集(Test dataset)必須與模型訓練(training)與調優(tuning)所使用的資料嚴格區隔，不得存在任何重疊或衍生關係。避免因資料洩漏(data leakage)而造成性能高估的問題。

並且，如果重複使用訓練資料進行評估，除了不能反映模型對未知資料的實際表現，也無法有效驗證演算法在真實臨床情境中的泛化能力與可靠性。

要注意，在開發階段至少要用到訓練資料集(Training dataset)以及測試資料集(Test dataset)。其餘則可以試需求，另外新增調優資料集(Tuning dataset)與調優評估資料集(Tuning evaluation dataset)等其他資料集。

規則 2：資料要能代表真實預期使用族群

那麼，可否使用公開資料庫來做獨立性能評估呢？答案是可以的。

使用資料時，必須審慎評估族群代表性，包括年齡、性別、疾病嚴重程度以及種族分布，與實際預期臨床使用族群一致。

此外，資料應涵蓋多個臨床子群組(subgroups)，以具備多來源特性，例如：

多來源更能真實反映SaMD醫療器材於多變臨床環境下，泛化能力與穩定表現。

規則 3：測試資料原則上不再「重標註」

在獨立性能評估中，使用到「既有資料」就是指資料於取得時，即已具備可用之標註或診斷結果，不需再由醫事人員重新圈選或重新判讀。

後續若有資料處理需求，例如刪除品質不佳之影像、排除標註錯誤或不一致資料，屬於合理必要之處理範圍；但不得針對整批資料重新標註或進行再判讀，以免引入事後修正所造成之偏差。

要特別留意，測試資料希望能呈現產品於真實世界資料上的實際表現，而非建立在經人工重塑後之理想化資料環境中。

規則 4：測試項目要涵蓋範圍

「人工智慧/機器學習技術之電腦輔助偵測(CADe)及電腦輔助診斷(CADx)醫療器材查驗登記技術指引」文件，點出六大類測試項目：

規則 5：事先決定統計指標

在執行獨立性能評估前，應明確定義將使用之性能評估指標，以避免事後選取數據而造成偏差。常見且能反映臨床診斷價值的指標包括：

IMDRF 的 SaMD 臨床評估原則也強調，性能測試必須與臨床使用需求連結，能反映出 AI 在臨床判斷情境中的實際價值。因此，在評估 AI 時，應以能支持臨床決策的指標為核心。

本篇盤點的五項獨立性能評估規則，幫助SaMD開發商從資料收集、指標設定、泛化能力測試到性能呈現有進一步瞭解。

協醫智科（www.synermedtw.com）專注於 SaMD 的法規策略、人因設計與風險控管，協助軟體開發團隊從技術導向走向臨床落地。若您正在開發醫療軟體，歡迎與我們聯繫。

參考資料：

資安風險下手前，請先理解「可利用性(Exploitability)」