獨立性能評估的5個原則!SaMD 開發必修課
不論你手上準備的是CADx或者CADe,幾乎所有 AI/ML 醫療器材都會被問到同一個問題:
獨立性能評估(Standalone Performance Assessment)是否完成?做到什麼程度?能不能支持宣稱的效能?
這篇文章帶給開發商兩個重點:
什麼是獨立性能評估,與臨床評估之差異
執行獨立性能評估的規則
一、先釐清,什麼是「獨立性能評估」?
根據<人工智慧/機器學習技術之電腦輔助偵測(CADe)及電腦輔助診斷(CADx) 醫療器材查驗登記技術指引>指出:
“獨立性能評估是指在測試資料未再新增醫事人員介入判讀(如人工圈選、標註)的情況下,僅用既有之資料,評估AI/ML醫療器材的性能。”
以CADe為例,獨立性能評估旨在評估CADe在未再新增醫事人員介入判讀的情況下,可正確偵測及標註病灶的能力。例如,使用一批已標記的影像,在不透過醫學人員協助的狀況下,再次透過軟體將病灶偵測,標記起來。
這個過程就是「獨立性能評估」。
和「臨床評估」哪裡不一樣?
獨立性能評估:只看SaMD在既有資料上的表現,不再新增醫師判讀。
重點在「產品本身的演算法性能」
臨床評估(Clinical Evaluation):要建立SaMD的輸出與臨床症狀、預後之間的關聯,通常需要醫師進一步判讀與決策。
重點在SaMD在真實臨床情境中具有的臨床價值。
在大部分的情況下,你既需要獨立性能評估,也需要臨床評估,依據產品風險、是否有類似品等因素而有所不同。
二、獨立性能評估的規則
規則 1:測試資料vs訓練資料
在執行獨立性能評估時,測試資料集(Test dataset)必須與模型訓練(training)與調優(tuning)所使用的資料嚴格區隔,不得存在任何重疊或衍生關係。避免因資料洩漏(data leakage)而造成性能高估的問題。
並且,如果重複使用訓練資料進行評估,除了不能反映模型對未知資料的實際表現,也無法有效驗證演算法在真實臨床情境中的泛化能力與可靠性。
要注意,在開發階段至少要用到訓練資料集(Training dataset)以及測試資料集(Test dataset)。其餘則可以試需求,另外新增調優資料集(Tuning dataset)與調優評估資料集(Tuning evaluation dataset)等其他資料集。
規則 2:資料要能代表真實預期使用族群
那麼,可否使用公開資料庫來做獨立性能評估呢?答案是可以的。
使用資料時,必須審慎評估族群代表性,包括年齡、性別、疾病嚴重程度以及種族分布,與實際預期臨床使用族群一致。
此外,資料應涵蓋多個臨床子群組(subgroups),以具備多來源特性,例如:
來自不同醫療機構(如醫院 A、醫院 B,甚至包含跨國資料來源)
不同設備廠牌或型號之影像與訊號資料。
多來源更能真實反映SaMD醫療器材於多變臨床環境下,泛化能力與穩定表現。
規則 3:測試資料原則上不再「重標註」
在獨立性能評估中,使用到「既有資料」就是指資料於取得時,即已具備可用之標註或診斷結果,不需再由醫事人員重新圈選或重新判讀。
後續若有資料處理需求,例如刪除品質不佳之影像、排除標註錯誤或不一致資料,屬於合理必要之處理範圍;但不得針對整批資料重新標註或進行再判讀,以免引入事後修正所造成之偏差。
要特別留意,測試資料希望能呈現產品於真實世界資料上的實際表現,而非建立在經人工重塑後之理想化資料環境中。
規則 4:測試項目要涵蓋範圍
「人工智慧/機器學習技術之電腦輔助偵測(CADe)及電腦輔助診斷(CADx)醫療器材查驗登記技術指引」文件,點出六大類測試項目:
偵測準確性(Detection accuracy) – 適用CADe
定位準確性(Localization accuracy) – CADe在影像中標記的準確程度
診斷準確性(Diagnostic accuracy) – 適用CADx,分辨不同疾病型態
泛化性測試(Generalizability) –產品在不同條件,例如相同規格不同品牌設備下的性能穩定性
壓力測試(Stress testing) – 罕見或困難案例,觀察極端情境表現
重複性與再現性 – 同一病人、不同設備/不同時間再次檢查,輸出是否一致
規則 5:事先決定統計指標
在執行獨立性能評估前,應明確定義將使用之性能評估指標,以避免事後選取數據而造成偏差。常見且能反映臨床診斷價值的指標包括:
靈敏度(Sensitivity)、特異度(Specificity)
偽陽性率、偽陰性率(FPR / FNR)
陽性預測值(PPV)、陰性預測值(NPV)
AUC-ROC曲線
IMDRF 的 SaMD 臨床評估原則也強調,性能測試必須與臨床使用需求連結,能反映出 AI 在臨床判斷情境中的實際價值。因此,在評估 AI 時,應以能支持臨床決策的指標為核心。
本篇盤點的五項獨立性能評估規則,幫助SaMD開發商從資料收集、指標設定、泛化能力測試到性能呈現有進一步瞭解。
協醫智科(www.synermedtw.com)專注於 SaMD 的法規策略、人因設計與風險控管,協助軟體開發團隊從技術導向走向臨床落地。若您正在開發醫療軟體,歡迎與我們聯繫。
參考資料:
人工智慧/機器學習技術之醫療器材獨立性能評估常見問答集
人工智慧/機器學習技術之電腦輔助偵測(CADe)及電腦輔助診斷(CADx)醫療器材查驗登記技術指引