□ 각 의료데이터의 종류 및 특징에 따른 적합한 심층생성모델(Deep Generative Model) 개발 ○ 결측된 임상정보 학습을 통한 결측 데이터 합성 - 의료데이터의 다차원적 특성을 고려한 의료데이터의 유형 및 특징에 따른 적합한 모델 사용(GAN, RNN 등 Machine/Deep Learning 기반 모델, 또는 Statistics 기반 모델) - 생성 규모 : 원 의료데이터와 동일(5만건 이상) ○ VAE(Variational Autoencoder) 기반 모델을 통한 추가 합성 데이터 생성 - 생성 규모 : 원 의료데이터의 3배 규모(15만건 이상) - 특정 타겟 정보만을 반영할 수 있는 VAE 기반 모델의 특성을 활용해 희귀질환 데이터 선택적으로 추가 생성 (생성 규모 : 희귀질환 비율에 따른 적합한 규모로서 3만건 이상)□ 원시 자료(original raw data)와의 유사도 평가를 통한 합성 의료데이터 생성기술 검증 ○ 정량적 합성 의료데이터 생성기술 검증 - Distance 기반 유사성 평가 지표(Mean Squared Error, Mean Absolute Error, Mean Relative Error)를 통한 합성 데이터 생성기술 검증 - Distribution 기반 유사성 평가 지표(Kullback-Leibler Divergence, Jensen-Shannon Divergence)를 통한 합성 데이터 확률분포 검증 - 원시 자료(original raw data) 및 합성 의료데이터에 존재하는 이상치(outlier) 검토를 통해 유사도 평가 지표 보정. 이로 인해 이상치(outlier)에 더욱 강건(robust)하고 다양성을 가지도록 합성 의료데이터 생성기술 보완 ○ 정성적 합성 의료데이터 생성기술 검증 - Expert Knowledge 기반 실제 의료데이터와 합성 의료데이터 간의 유사도 제시 - 해당 분야 숙련된 전문가들을 통해 생성된 합성 의료데이터의 정성적 유사도 평가 시행. 해당 평가의 신뢰도 확보를 위해 평가자들 간의 일치율 측정 지표 (Kappa Coefficient) 활용□ 임상 시나리오 목표 달성을 위한 실제 의료 AI 모델 적용 및 동등성, 우월성 검증 ○ 각 임상 시나리오 목표 달성을 위해 적합한 실제 의료 AI 모델 검토 및 개발 - 예후 예측 모델 (분류/회귀), 타겟 검출 모델, 등 ○ 합성 의료데이터를 활용한 실제 의료 AI 모델 성능 동등성 및 우월성 검증 - 원시 의료데이터(original raw data) 및 합성 의료데이터의 조합을 통해 실제 의료 AI 모델 적용 시 성능 비교. 해당 성능 비교를 통해 합성 의료데이터의 유효성 및 활용성 검증