생물 정보학의 "-정보학" 은 다음 그림과 같이 방대한 데이터에서 지식을 발굴하는 과정을 말합니다. 이 프로세스에는 데이터 관리, 데이터 조작, 데이터 마이닝 및 모델링 시뮬레이션이 포함됩니다. 여기서 데이터 관리 부분은 주로 데이터베이스이고, 데이터 조작 부분은 주로 바이오메트릭 정보의 다양한 소프트웨어 도구를 가리킨다. 이 두 부분은 생물 정보학 연구에서 매우 중요한 자원이며, 학생이 입문할 때 알아야 할 기초 지식이기도 하다. 다음은 이러한 리소스에 대한 간략한 소개입니다. (이 글은 북경대학교 생물정보학 공개 수업 영상을 기반으로 하며, 사진은 비디오 스크린 샷에서 가져온 것이다.)
특성에 따라 이러한 자원은 다른 범주로 나눌 수 있습니다. 예를 들어, 데이터의 특성에 따라 데이터베이스는 원본 데이터 데이터베이스와 보조 데이터 데이터베이스로 나눌 수 있습니다. 예를 들어, 소프트웨어 도구는 소프트웨어가 독립 실행형 도구인지 네트워크 서버인지에 따라 독립 실행형 프로그램과 웹 서버로 나눌 수 있습니다.
출판사의 범주에 따라 중앙 집중식 자원과 개인 자원으로 나눌 수 있다. 비교적 큰 집중 자원은 주로 NCBI (National 생명 공학 정보 센터), EBI (European 생물 정보학 연구소), UCSC (California University 산타크루스) 게놈 브라우저입니다. 이 세 가지 가장 큰 데이터베이스와 기타 생물 정보학 데이터 자원에 대해서는 아래에서 설명합니다.
1 소개. NCBI
NCBI 게놈 데이터베이스:
대부분의 측정된 게놈은 보존되고 1000+ 게놈은 이미 서열화되었다.
NCBI- 뉴클레오티드/단백질 (RefSeq):
서로 다른 릴리즈 후의 참조 시퀀스를 통합합니다. 여기서 NM_* 는 핵산 서열을 나타내고 NP_* 는 단백질 서열을 나타냅니다. 여기서 핵산은 id 번호, 이름, 종, 특징, 인코딩 영역, 시퀀스 등의 정보를 제공합니다. 단백질은 또한 기능 간격에 대한 정보를 제공합니다.
NCBI 유전자:
유전자 단위로 경로, 변이, 표형 등의 정보를 통합했다.
GeneCards 는 인간 유전자에 대해 더 좋은 주석 (표현, 상호 작용, 동원단백질, 기능, 유전적 변이 등) 을 가지고 있다. ) 인간 유전자와 단백질에서 NCBI 보다 한 수 더 낫다.
NCBI- 슬라
차세대 시퀀싱 기술의 짧은 시퀀스 데이터베이스는 5 개월마다 데이터를 두 배로 늘릴 것이다.
NCBI- 분류학
적어도 하나의 유전자가 서열화된 모든 종의 분류나무는 묘사된 모든 종의 10% 가 이미 서열화되었다.
NCBI 공과의학
문헌을 열람하는 데 쓰인다.
NCBI 그리드
(의학 주제 제목) 출판 된 구조화 된 용어 시소러스의 문장 색인을 만드는 데 사용되는 제어 된 사운드.
NCBI- 내 NCBI
관심 있는 키워드의 경우 NBCI 를 설정하면 매주 관련 문서가 푸시되므로 프로젝트의 문서 추적에 유용합니다.
NCBI 폭발
NCBI 의 가장 유명한 도구인 BLAST 에 관한 두 편의 문장, 42,000 여 차례 인용되었다. BLAST 의 여러 버전은 다음과 같습니다.
온라인: NCBI 폭발
독립 실행형: BLAST+
포함된 웹 페이지: wwwblast
2.ebi 소개
다음 표에서는 EBI 의 일부 리소스를 보여 줍니다.
EBI- 은센불:
NCBI 와 UCSC 사이의 자원은 많은 종의 서로 다른 자원을 통합했다. Ensembl 의 수량 유형은 다음과 같습니다.
EBI-UniProtKB
범용 단백질 자원 (UniProt) 은 단백질 서열과 주석 데이터의 종합 자원이다.
UniProt 기술 자료 (UniProtKB) 는 단백질 기능 정보를 수집하는 중심 허브로 정확하고 일관되며 풍부한 주석을 가지고 있습니다. ) 을 참조하십시오
UniProtKB -Swiss-Prot (수동 교정)
UniProtKB -TrEMBL (수동 교정 없음)
EBI- 온전하다
분자간 상호 작용
EBI- 크루즈 타 오메가
복수 시리즈 대응
EBI inter proscan
현재 기능이 알려진 단백질의 한 영역이 포함되어 있는지 확인하기 위해 시퀀스를 입력합니다.
3 UCSC 소개
게놈을 좌표로 하다. SNP, mRNA, EST 잘라내기, EST 절단 안 함, 높은 패스 수, 풀 통과를 포함한 많은 트랙이 포함되어 있습니다.