최근 광주과학기술원(GIST) 이현주 교수 연구팀과 서울대병원 박성혜 교수 연구팀은 암세포의 전장 유전체 정보를 활용하여 3차원 암 게놈을 예측하는 AI 모델 'InfoHiC'를 개발했다. 이 기술은 암 환자 개인별 유전자 발현 조절 이상을 확인할 수 있는 혁신적인 방법으로, 저비용으로 높은 정확도를 자랑한다.
암 발병 기전 이해를 위한 3차원 게놈 분석
암의 발병 기전을 이해하기 위해서는 암세포의 유전체(게놈)에서 발생하는 돌연변이를 규명하는 것이 중요하다. 최근에는 점 돌연변이(point mutation)뿐만 아니라 유전자 발현 조절 기전의 변화도 주목받고 있다. 특히, 암세포에서 3차원 게놈 구조의 변화가 유전자 발현형의 조절에 중요한 역할을 한다.
3차원 게놈 구조를 분석하기 위해서는 Hi-C 데이터를 사용하는데, 이는 두 염색질 사이의 공간적 거리를 측정하여 DNA의 입체적 구조를 분석하는 데이터다. 그러나 Hi-C 데이터는 분석이 까다롭고 비용이 많이 들기 때문에 활용에 한계가 있었다.
InfoHiC: 전장 유전체 데이터를 활용한 혁신적 AI 모델
연구팀이 개발한 InfoHiC는 기존의 방법론과 달리, 사전에 정의된 인간 참조 유전체(reference genome) 서열이 아닌 암세포의 전장 유전체 데이터를 사용하여 Hi-C 서열 데이터를 예측한다. 이를 통해 삽입(insertion), 삭제(deletion), 중복(duplication), 역위(inversion), 전좌(translocation) 등의 복잡한 구조 변이(complex structural variation)를 높은 정확도로 예측할 수 있다.
인핸서 납치 현상 예측 및 유전자 발현 조절 이상 확인
InfoHiC는 비암호화 DNA(non-coding DNA) 영역에서 발생하는 구조적 변이에 의한 neo-TAD 생성을 예측할 수 있다. neo-TAD는 기존 TAD의 변형으로 인해 유전자와 조절자 사이의 상호작용이 변경되며, 이에 따라 유전자 발현 패턴이 새롭게 변한다. 이를 통해 비암호화 DNA 영역의 구조 변이가 암의 발생과 진행에 미치는 영향을 저비용으로 정확히 밝혀낼 수 있다.
연구팀은 소아의 소뇌 부위에 주로 발생하는 악성 뇌종양인 수모세포종(medulloblastoma) 환자의 전장 유전체 데이터에 InfoHiC를 적용하여 비정상적인 유전자 발현을 유발하는 인핸서 납치 현상을 예측하였다. 또한, 종양 유전자의 암호화 DNA(coding DNA) 영역에서 돌연변이가 발견되지 않아 치료 타깃 유전자 선정이 힘든 환자를 대상으로 InfoHiC를 활용하여 3D 게놈 변이에 따른 유전자 발현 이상을 확인하였다.
하플로타입 콘티그와 InfoGenomeR 활용
연구팀은 암세포의 복잡한 구조 변이가 다양한 하플로타입(haplotype) 콘티그(contig)를 생성하고, neo-TAD가 이러한 하플로타입에 따라 특이하게 형성된다는 사실에 주목했다. 이를 AI 모델에 반영하여 3차원 게놈을 예측하였다. 또한, 이전 연구에서 개발한 유전 변이 발굴 및 유전체 복원 알고리즘인 인포지노머(InfoGenomeR)를 활용하여 암 유전체의 하플로타입 콘티그를 구성하였다.
예측 성능 향상 및 유방암 환자 데이터 적용
기존의 인간 참조 유전체에 기반한 모델과 비교하여 InfoHiC는 구조 변이가 있는 암세포의 3D 게놈 예측 성능이 크게 향상되었다. 유방암 세포주를 활용하여 검증한 결과, 기존 알고리즘의 Pearson’s R값이 0.642였던 반면, InfoHiC는 0.715로 11% 향상되었다. 또한, 유방암 환자 90명의 전장 유전체 데이터에 InfoHiC를 적용하여 neo-TAD를 예측한 결과, 여러 환자에게서 반복적으로 나타나는 neo-TAD 관련 유전자를 발견하였으며, 이들 유전자의 과발현이 암 환자의 생존율과 연관이 높다는 점도 밝혀졌다.
결론 및 기대효과
이현주 교수는 “최근 시퀀싱 데이터 비용의 감소로 암 환자의 전장 유전체 데이터는 많이 생산되고 있으나, Hi-C 데이터는 고비용 탓에 확보가 쉽지 않다”라며 “이번 연구는 Hi-C 데이터 예측을 통해 비암호화 DNA 영역에서의 구조 변이를 가진 암 환자의 개인 맞춤형 치료에 기여할 수 있을 것”이라고 말했다.
이번 연구 결과는 생화학 및 분자생물학 분야 상위 10% 국제학술지인 '몰레큘러 시스템즈 바이올로지(Molecular Systems Biology)'에 표지논문으로 게재되었으며, 앞으로 환자 맞춤형 치료 추천에 중요한 역할을 할 것으로 기대된다.
이처럼 InfoHiC는 암 연구와 치료에 있어 새로운 패러다임을 제시하며, 암 환자들에게 더 나은 치료 옵션을 제공할 수 있는 중요한 기술로 주목받고 있다.
최근 광주과학기술원(GIST) 이현주 교수 연구팀과 서울대병원 박성혜 교수 연구팀은 암세포의 전장 유전체 정보를 활용하여 3차원 암 게놈을 예측하는 AI 모델 'InfoHiC'를 개발했다. 이 기술은 암 환자 개인별 유전자 발현 조절 이상을 확인할 수 있는 혁신적인 방법으로, 저비용으로 높은 정확도를 자랑한다.
암 발병 기전 이해를 위한 3차원 게놈 분석
암의 발병 기전을 이해하기 위해서는 암세포의 유전체(게놈)에서 발생하는 돌연변이를 규명하는 것이 중요하다. 최근에는 점 돌연변이(point mutation)뿐만 아니라 유전자 발현 조절 기전의 변화도 주목받고 있다. 특히, 암세포에서 3차원 게놈 구조의 변화가 유전자 발현형의 조절에 중요한 역할을 한다.
3차원 게놈 구조를 분석하기 위해서는 Hi-C 데이터를 사용하는데, 이는 두 염색질 사이의 공간적 거리를 측정하여 DNA의 입체적 구조를 분석하는 데이터다. 그러나 Hi-C 데이터는 분석이 까다롭고 비용이 많이 들기 때문에 활용에 한계가 있었다.
InfoHiC: 전장 유전체 데이터를 활용한 혁신적 AI 모델
연구팀이 개발한 InfoHiC는 기존의 방법론과 달리, 사전에 정의된 인간 참조 유전체(reference genome) 서열이 아닌 암세포의 전장 유전체 데이터를 사용하여 Hi-C 서열 데이터를 예측한다. 이를 통해 삽입(insertion), 삭제(deletion), 중복(duplication), 역위(inversion), 전좌(translocation) 등의 복잡한 구조 변이(complex structural variation)를 높은 정확도로 예측할 수 있다.
인핸서 납치 현상 예측 및 유전자 발현 조절 이상 확인
InfoHiC는 비암호화 DNA(non-coding DNA) 영역에서 발생하는 구조적 변이에 의한 neo-TAD 생성을 예측할 수 있다. neo-TAD는 기존 TAD의 변형으로 인해 유전자와 조절자 사이의 상호작용이 변경되며, 이에 따라 유전자 발현 패턴이 새롭게 변한다. 이를 통해 비암호화 DNA 영역의 구조 변이가 암의 발생과 진행에 미치는 영향을 저비용으로 정확히 밝혀낼 수 있다.
연구팀은 소아의 소뇌 부위에 주로 발생하는 악성 뇌종양인 수모세포종(medulloblastoma) 환자의 전장 유전체 데이터에 InfoHiC를 적용하여 비정상적인 유전자 발현을 유발하는 인핸서 납치 현상을 예측하였다. 또한, 종양 유전자의 암호화 DNA(coding DNA) 영역에서 돌연변이가 발견되지 않아 치료 타깃 유전자 선정이 힘든 환자를 대상으로 InfoHiC를 활용하여 3D 게놈 변이에 따른 유전자 발현 이상을 확인하였다.
하플로타입 콘티그와 InfoGenomeR 활용
연구팀은 암세포의 복잡한 구조 변이가 다양한 하플로타입(haplotype) 콘티그(contig)를 생성하고, neo-TAD가 이러한 하플로타입에 따라 특이하게 형성된다는 사실에 주목했다. 이를 AI 모델에 반영하여 3차원 게놈을 예측하였다. 또한, 이전 연구에서 개발한 유전 변이 발굴 및 유전체 복원 알고리즘인 인포지노머(InfoGenomeR)를 활용하여 암 유전체의 하플로타입 콘티그를 구성하였다.
예측 성능 향상 및 유방암 환자 데이터 적용
기존의 인간 참조 유전체에 기반한 모델과 비교하여 InfoHiC는 구조 변이가 있는 암세포의 3D 게놈 예측 성능이 크게 향상되었다. 유방암 세포주를 활용하여 검증한 결과, 기존 알고리즘의 Pearson’s R값이 0.642였던 반면, InfoHiC는 0.715로 11% 향상되었다. 또한, 유방암 환자 90명의 전장 유전체 데이터에 InfoHiC를 적용하여 neo-TAD를 예측한 결과, 여러 환자에게서 반복적으로 나타나는 neo-TAD 관련 유전자를 발견하였으며, 이들 유전자의 과발현이 암 환자의 생존율과 연관이 높다는 점도 밝혀졌다.
결론 및 기대효과
이현주 교수는 “최근 시퀀싱 데이터 비용의 감소로 암 환자의 전장 유전체 데이터는 많이 생산되고 있으나, Hi-C 데이터는 고비용 탓에 확보가 쉽지 않다”라며 “이번 연구는 Hi-C 데이터 예측을 통해 비암호화 DNA 영역에서의 구조 변이를 가진 암 환자의 개인 맞춤형 치료에 기여할 수 있을 것”이라고 말했다.
이번 연구 결과는 생화학 및 분자생물학 분야 상위 10% 국제학술지인 '몰레큘러 시스템즈 바이올로지(Molecular Systems Biology)'에 표지논문으로 게재되었으며, 앞으로 환자 맞춤형 치료 추천에 중요한 역할을 할 것으로 기대된다.
이처럼 InfoHiC는 암 연구와 치료에 있어 새로운 패러다임을 제시하며, 암 환자들에게 더 나은 치료 옵션을 제공할 수 있는 중요한 기술로 주목받고 있다.