□ 연구개요
현대 사회는 방대한 데이터를 신속히 생성하고 처리하는 빅데이터 시대이다. 특히 생물의학과 같은 분야에서는 고차원성을 가진 복잡한 자료가 빠르게 증가하고 있어 기존의 통계적 방법론으로는 효과적인 분석이 어렵다. 본 연구는 표본 수보다 설명변수와 반응변수의 수가 훨씬 큰 초고차원 다중 반응 자료(high-dimensional multiple response data)를 효율적으로 분석할 수 있는 새로운 통계적 방법론 및 계산 알고리즘을 개발하는 것을 목표로 한다. 특히 다중 반응 변수 간의 상관 관계와 공변량 간 잠재적 효과를 고려한 유연한 통계모형을 제안하고, 성김(sparsity) 및 낮은 랭크(low rank)와 같은 구조적 가정을 활용하여 신뢰성 있는 추정 및 추론 방법론을 제시한다. 본 연구는 이론적 정립뿐 아니라 실제 응용 자료 분석에서의 활용성을 검증하여 다양한 분야의 연구자에게 효과적인 데이터 분석 도구를 제공할 것으로 기대된다.
□ 연구 목표대비 연구결과
첫째, 고차원 다중 이진 반응변수 모형에서 SCAD 벌점 기반의 추정 방법론 개발 목표와 관련하여, 본 연구는 해당 추정법을 성공적으로 개발하였으며, 추정량의 consistency 및 oracle property 등 핵심 이론적 성질을 엄밀히 증명하였다. 또한 효율적인 계산 알고리즘을 제안함으로써, 고차원 데이터 환경에서의 실질적인 적용 가능성을 높이는 성과를 달성하였다.
둘째, Ising 모형을 적용한 새로운 다중 이진 반응변수 회귀 모형의 방법론 및 이론 개발 목표에 대해서는, 강한 상관관계를 반영할 수 있는 Ising 모형 기반의 새로운 회귀분석 방법을 성공적으로 제안하였다. 또한 제안된 방법론의 통계적 성질을 엄밀히 이론적으로 규명하고, 계산 효율성을 극대화하기 위한 최적화 알고리즘 개발에 성공하여 목표를 충실히 달성하였다.
셋째, 고차원 다중 반응변수 분위수 회귀 모형의 방법론 및 이론 개발 목표에 있어서는, 낮은 랭크 및 성김 행렬 분해 구조를 적용한 새로운 추정 방법을 개발하고, 제안된 방법의 이론적 타당성을 엄격히 입증하였다. 더불어 효율적인 계산 알고리즘을 제안하였으며, 다양한 모의실험과 실제 데이터 분석을 통해 제안된 방법의 우수성을 실증적으로 검증하였다. 이를 통해 연구 목표를 충분히 달성하였다.
□ 연구개발성과의 활용 계획 및 기대효과(연구개발결과의 중요성)
본 연구에서 수행한 연구 결과들은 대학원 과정에서의 ‘최신통계적방법’, ‘최신이론통계학’, ‘고급통계계산’,‘최신응용통계학’ 등의 강의 자료로도 활용함으로써 대학원생 및 연구자들이 본 연구 과제의 성과를 공유할 수 있게 할 것이다. 본 연구과제를 수행하면서 개발한 효율적인 알고리즘을 누구나 손쉽게 접할 수 있는 R프로그램 패키지로도 모두에게 공유할 계획이므로 실질적으로 고차원 데이터 분석을 수행하고 있는 기업이나 연구자들에게 또한 많은 도움이 될 것이라고 기대하고 있다. 최근 우리가 접하는 실제 데이터 분석 문제에서 고차원성은 빈번하게 관측되며, 다양한 형태의 복잡성을 가지고 있다. 특히, 이 연구과제에서 다루고 있는 고차원 다중 반응변수 자료는 생물 통계 분야에서 흔히 관측되고 응용 연구자들의 관심있는 연구 주제지만, 이런 자료를 분석할 수 있는 통계기법은 매우 제한적인 실정이다. 본 후속연구과제에서는 복잡한 고차원 데이터 자료를 분석하기 위한 새로운 통계적 자료 분석방법의 모태가 될 것이라고 기대하고 있다. 특히 다중 반응 변수 간의 상관관계를 고려하면서 공변량간의 잠재적인 효과를 고려할 수 있는 고차원 다중 반응 모형은 많은 응용연구에서 필요로 되고 있지만, 이에 대한 통계 이론적인 연구는 아주 최근에 이루어 졌으며 이조차도 매우 제한적이다. 로지스틱 다중 회귀모형, 분위수 다중 회귀 모형을 포함하는 다양한 상황에서 적합한 통계 추정 및 추론 방법론을 개발하는 것은 매우 필요한 과제이기 때문에 학술적인 파급력을 충분히 가질 것이라고 기대된다.
(출처 : 연구결과 요약문 2p)
NTIS에서 제공하는 본 정보는 국가연구개발사업 수행을 통해 발생한 연구보고서를 과제관리(전문)기관을 통해 연구성과 전담기관(KISTI)에 등록된 정보를
제공하고 있으며, 연구보고서 정보 공개/비공개 여부, 연구보고서 원문 활용 여부 등은 해당 과제관리(전문)기관에 문의하시기 바랍니다.
NEW
관련 정보
과제
초고차원, 복잡 자료 분석을 위한 비모수 및 분위수 방법론의 개발
2023/성균관대학교 /90.04 백만원
논문
A Comparative Study of Covariance Matrix Estimators in High-dimensional Data (고차원 데이터에서 공분산행렬의 추정에 대한 비교연구)