獨立性能評估的5個原則!SaMD 開發必修課

不論你手上準備的是CADx或者CADe,幾乎所有 AI/ML 醫療器材都會被問到同一個問題:

獨立性能評估(Standalone Performance Assessment)是否完成?做到什麼程度?能不能支持宣稱的效能?

這篇文章帶給開發商兩個重點:

  1. 什麼是獨立性能評估,與臨床評估之差異

  2. 執行獨立性能評估的規則

一、先釐清,什麼是「獨立性能評估」?

根據<人工智慧/機器學習技術之電腦輔助偵測(CADe)及電腦輔助診斷(CADx) 醫療器材查驗登記技術指引>指出:

“獨立性能評估是指在測試資料未再新增醫事人員介入判讀(如人工圈選、標註)的情況下,僅用既有之資料,評估AI/ML醫療器材的性能。”

以CADe為例,獨立性能評估旨在評估CADe在未再新增醫事人員介入判讀的情況下,可正確偵測及標註病灶的能力。例如,使用一批已標記的影像,在不透過醫學人員協助的狀況下,再次透過軟體將病灶偵測,標記起來。

這個過程就是「獨立性能評估」。

和「臨床評估」哪裡不一樣?

  • 獨立性能評估:只看SaMD在既有資料上的表現,不再新增醫師判讀。

    • 重點在「產品本身的演算法性能」

  • 臨床評估(Clinical Evaluation):要建立SaMD的輸出與臨床症狀、預後之間的關聯,通常需要醫師進一步判讀與決策。

    • 重點在SaMD在真實臨床情境中具有的臨床價值。

在大部分的情況下,你既需要獨立性能評估,也需要臨床評估,依據產品風險、是否有類似品等因素而有所不同。

二、獨立性能評估的規則

規則 1:測試資料vs訓練資料

在執行獨立性能評估時,測試資料集(Test dataset)必須與模型訓練(training)與調優(tuning)所使用的資料嚴格區隔,不得存在任何重疊或衍生關係。避免因資料洩漏(data leakage)而造成性能高估的問題。

並且,如果重複使用訓練資料進行評估,除了不能反映模型對未知資料的實際表現,也無法有效驗證演算法在真實臨床情境中的泛化能力與可靠性。

要注意,在開發階段至少要用到訓練資料集(Training dataset)以及測試資料集(Test dataset)。其餘則可以試需求,另外新增調優資料集(Tuning dataset)與調優評估資料集(Tuning evaluation dataset)等其他資料集。

規則 2:資料要能代表真實預期使用族群

那麼,可否使用公開資料庫來做獨立性能評估呢?答案是可以的。

使用資料時,必須審慎評估族群代表性,包括年齡、性別、疾病嚴重程度以及種族分布,與實際預期臨床使用族群一致。

此外,資料應涵蓋多個臨床子群組(subgroups),以具備多來源特性,例如:

  • 來自不同醫療機構(如醫院 A、醫院 B,甚至包含跨國資料來源)

  • 不同設備廠牌或型號之影像與訊號資料。

多來源更能真實反映SaMD醫療器材於多變臨床環境下,泛化能力與穩定表現。

規則 3:測試資料原則上不再「重標註」

在獨立性能評估中,使用到「既有資料」就是指資料於取得時,即已具備可用之標註或診斷結果,不需再由醫事人員重新圈選或重新判讀。

後續若有資料處理需求,例如刪除品質不佳之影像、排除標註錯誤或不一致資料,屬於合理必要之處理範圍;但不得針對整批資料重新標註或進行再判讀,以免引入事後修正所造成之偏差。

要特別留意,測試資料希望能呈現產品於真實世界資料上的實際表現,而非建立在經人工重塑後之理想化資料環境中。

規則 4:測試項目要涵蓋範圍

「人工智慧/機器學習技術之電腦輔助偵測(CADe)及電腦輔助診斷(CADx)醫療器材查驗登記技術指引」文件,點出六大類測試項目:

  1. 偵測準確性(Detection accuracy) – 適用CADe

  2. 定位準確性(Localization accuracy) – CADe在影像中標記的準確程度

  3. 診斷準確性(Diagnostic accuracy) – 適用CADx,分辨不同疾病型態

  4. 泛化性測試(Generalizability) –產品在不同條件,例如相同規格不同品牌設備下的性能穩定性

  5. 壓力測試(Stress testing) – 罕見或困難案例,觀察極端情境表現

  6. 重複性與再現性 – 同一病人、不同設備/不同時間再次檢查,輸出是否一致

規則 5:事先決定統計指標

在執行獨立性能評估前,應明確定義將使用之性能評估指標,以避免事後選取數據而造成偏差。常見且能反映臨床診斷價值的指標包括:

  1. 靈敏度(Sensitivity)、特異度(Specificity)

  2. 偽陽性率、偽陰性率(FPR / FNR)

  3. 陽性預測值(PPV)、陰性預測值(NPV)

  4. AUC-ROC曲線

IMDRF 的 SaMD 臨床評估原則也強調,性能測試必須與臨床使用需求連結,能反映出 AI 在臨床判斷情境中的實際價值。因此,在評估 AI 時,應以能支持臨床決策的指標為核心。

本篇盤點的五項獨立性能評估規則,幫助SaMD開發商從資料收集、指標設定、泛化能力測試到性能呈現有進一步瞭解。

協醫智科(www.synermedtw.com)專注於 SaMD 的法規策略、人因設計與風險控管,協助軟體開發團隊從技術導向走向臨床落地。若您正在開發醫療軟體,歡迎與我們聯繫。

參考資料:

  • 人工智慧/機器學習技術之醫療器材獨立性能評估常見問答集

  • 人工智慧/機器學習技術之電腦輔助偵測(CADe)及電腦輔助診斷(CADx)醫療器材查驗登記技術指引

Next
Next

SaMD的人因工程挑戰