1 minute read

Connectivity Map (CMAP)은 4종 human cancer cell line에 1,300종의 약물(drugs and other small molecules)을 처리(6h)한 후, ~7,000여 microarray 기반 전사체 분석을 수행한 최초의 대규모 화학유전체 데이터 이다. 이후에 LINCS 프로젝트를 통해 24,000 종이상의 화합물의 전사체 정보로 확장되어 제공하고 있다. (이 때 사용한 cost-effective genome-wide transcriptomics assay based on Luminex bead technology 를 L1000이라 함). 이 정보를 통해서 기존에 단백질 구조기반으로 유사한 기능을 하는 drug를 찾는 것뿐만 아니라 L1000을 이용해서 전사체 발현패턴 기반으로 유사한 기능을 하는 drug를 찾을 수 있게 된 것이다.

LINCS-L1000

CMAP의 확장버전인 LINCS-L1000 데이터는 ~50 human cell line, ~20,000 compounds에 대한 유전자 발현량 데이터를 보유하고 있다. L1000에서는 전사체 데이터로 부터 Characteristic Direction (CD) 방법을 이용해서 signature (DEG의 패턴)를 도출 하고 있다. CD방법은 edgeR, DESeq과 같이 DEG를 identify하는 방법 중 하나로서 개발 되었고 기존 fold-change를 기준으로 한 DEG분석방법과 다르게 fold-change가 낮더라도 같은 방향으로 가는 다른 유전자가 많을 경우 그 유전자에 더 많은 weight를 주는 방법이다.

The CD method gives more weight to genes that move together in the same direction across repeats. So, a gene that changes less but ‘moves‘ together with a large group of other genes may be scored higher than a gene that changed more in overall magnitude.

L1000CDS2 Application

L1000 data를 위해서 언급한 computational pipeline을 통해 얻은 CD Signature를 search할 수 있도록 만든 web-based application이 L1000CDS2이다. 사용자가 넣어준 유전자 발현 데이터와 LINCS-L1000 data를 비교해서 small molecules과 drung의 우선순위(based on cosine distance)를 계산한다. 이 tool을 통해서 사용자는 넣어준 데이터와 유사한 signature를 가진 potential drug를 확인 할 수 있다.

이러한 genome-wide gene expression drug-response data (약물-전사체 데이터)는

  1. 약물의 알려진 on-target뿐만 아니라 미지의 off-target에 의한 효과까지도 반영하며
  2. 전사체 수준에서 약물의 작용기전 (Mode of Action)에 대한 객관적이고 총체적인 정보를 제공하고
  3. 질환 모델 전사체와의 비교분석을 통해 신약재창출이 가능하게 한다.

References

  • L1000CDS2: LINCS L1000 characteristic direction signatures search engine, 2016
  • 빅데이터 및 인공지능(AI)을 활용한 신약개발 연구 동향, 2017