1. 시퀀스 비교
시퀀스 비교의 의미는 핵산과 아미노산의 수준에서 두 개 이상의 기호 시퀀스의 유사성 또는 비등방성을 비교하여 구조적 기능과 진화 관계를 추론하는 것입니다. 시퀀스 유사성을 연구하는 목적은 유사한 시퀀스를 통해 유사한 구조나 기능을 얻는 것입니다. 또한 시퀀스 유사성을 통해 시퀀스 간의 동원성을 판단하고 시퀀스 간의 진화 관계를 추론할 수 있습니다. 서열 비교는 생물 정보학의 기초이며 매우 중요하다.
가장 기본적인 시퀀스 비교는 글로벌 시퀀스 비교와 로컬 시퀀스 비교로 구분되는 이중 시퀀스 비교로, 둘 다 동적 계획 방법으로 효과적으로 해결할 수 있습니다. 실제 응용에서 일부 생물학적으로 의미 있는 유사성은 단일 서열로 분석할 수 있는 것이 아니라 여러 서열의 비교와 배열로만 식별할 수 있다. 예를 들어, 단백질의 기능이 비슷한 여러 생물에 직면할 때, 우리는 서열에서 어떤 부분이 비슷하고 어떤 부분이 다른지 알고 싶어 단백질의 구조와 기능을 분석할 수 있습니다. 이 정보를 얻기 위해서, 우리는 이 시퀀스들을 비교해야 한다. 다중 시퀀스 정렬 알고리즘에는 동적 프로그래밍 알고리즘, 별 비교 알고리즘, 트리 비교 알고리즘, 유전 알고리즘, 시뮬레이션 어닐링 알고리즘, 숨겨진 마르코프 모델 등이 포함됩니다. 이 알고리즘들은 컴퓨터로 해결할 수 있다.
2. 데이터베이스 검색
인간 게놈 프로젝트가 시행됨에 따라 실험 데이터가 급격히 증가하면서 데이터 표준화 및 검사가 정보 처리의 첫 걸음이 되었습니다. 이를 바탕으로 데이터베이스를 구축하고 게놈 정보를 저장하고 관리합니다. 이를 위해서는 대량의 생물 실험 데이터가 컴퓨터에 저장되어 특정 기능에 따라 이 데이터를 정렬하여 수백 개의 생물 정보 데이터베이스를 형성하고, 생물학자의 요구를 충족시키기 위해 효율적인 프로그램이 필요하다. (윌리엄 셰익스피어, 생물, 생물, 과학, 과학, 과학, 과학, 과학, 과학, 과학, 과학, 과학 데이터베이스에는 기본 및 보조 데이터베이스가 모두 포함됩니다. 1 차 데이터베이스는 실험에서 얻은 원시 데이터에서 직접 파생되며 간단한 분류 및 치수만 거칩니다. 보조 데이터베이스는 기본 데이터를 분석하고 정련한 후 추출한 유용한 정보입니다.
분자생물학의 3 대 핵심 데이터베이스는 GenBank 핵산 서열 데이터베이스, 스위스 -PROT 단백질 서열 데이터베이스, PDB 생물 대분자 구조 데이터베이스로, 전 세계의 분자생물학과 의학 연구원들이 생물분자 정보의 조직과 구조를 이해하고 게놈 정보를 해독하는 데 필요한 지원을 제공한다. 그러나, 전통적인 수공 분석 방법은 분명히 새로운 시대의 발걸음을 따라가지 못한다. 대량의 실험 결과는 반드시 컴퓨터를 통해 자동으로 분석해야 데이터 간의 밀접한 관계를 발견하고 실제 문제를 해결할 수 있다.
게놈 서열 분석
게놈학 연구의 첫 번째 목표는 완전한 인간 유전자 코드를 얻는 것이다. 인류의 모든 유전 코드를 얻으려면 인간 게놈을 깨고 각각의 작은 서열을 측정한 다음 다시 조립해야 한다. 따라서 현재 생물 정보학에서 많은 작업이 게놈 DNA 서열을 겨냥한 것으로, 빠르고 정확한 DNA 서열 분석 방법을 수립하는 것은 유전자의 구조와 기능을 연구하는 데 중요한 의미가 있다. 게놈 서열의 경우, 사람들은 서열에서 유전자와 그 표현 조절 정보를 찾는 것에 더 관심이 있다. 예를 들어, 알 수 없는 유전자의 경우, 우리는 유전자와 관련된 생리 기능을 이해하거나 질병의 발병 메커니즘에 대한 정보를 제공하기 위해 알려진 유전자와 비교할 수 있습니다. 신약을 개발하거나 질병을 치료하기 위한 기초를 제공합니다. 유전자의 구조와 기능을 좀 더 포괄적으로 이해할 수 있습니다. 따라서 컴퓨터가 대용량 데이터를 효율적으로 관리하고 실행할 수 있도록 하는 것도 중요한 문제입니다.
단백질 구조 예측
단백질은 생물체의 기본 물질이며, 거의 모든 생명활동은 단백질의 구조와 기능을 통해 드러난다. 따라서 단백질의 데이터를 분석하고 처리하는 것은 매우 중요하다. 단백질의 생물학적 기능은 단백질의 구조에 의해 결정된다. 따라서 단백질 서열에 따라 단백질의 구조를 예측하는 것은 매우 중요하며, 이를 위해서는 대량의 데이터를 분석하여 단백질 서열과 구조 사이의 관계와 법칙을 파악해야 한다.
단백질 구조 예측은 2 차 구조 예측과 공간 구조 예측으로 나눌 수 있다. 2 차 구조 예측에는 여러 가지 방법이 있습니다. 1 통계 기반 ② 물리적 및 화학적 성질에 기초; ③ 시퀀스 패턴을 기반으로합니다. ④ 다층 신경망 기반; ⑤ 그래프 이론에 기초; ⑥ 다변량 통계에 기초; ⑦ 기계 학습에 기반한 전문가 규칙; ⑧ 가장 가까운 이웃 알고리즘. 현재 대부분의 2 차 구조 예측 알고리즘은 시퀀스 비교 알고리즘인 BLAST, FASTA 및 CLUSTALW 에서 생성된 비교 시퀀스를 기반으로 합니다. 2 차 구조 예측 방법의 정확도는 80% 이상에 이를 수 있지만 2 차 구조 예측의 정확도는 아직 향상되지 않았다.
실제 단백질 2 차 구조 예측에서 구조 실험 결과, 시퀀스 비교 결과, 단백질 구조 예측 결과 및 다양한 예측 방법이 결합되는 경우가 많습니다. 여러 소프트웨어를 동시에 사용하여 예측하고, 각 소프트웨어의 예측 결과를 분석하고, 보다 사실적인 단백질 2 차 구조를 얻는 것이 일반적입니다. 시퀀스 비교를 2 차 구조 예측과 결합하는 것도 일반적인 종합 분석 방법입니다.
단백질 2 급 구조는 단백질 폴리펩티드 사슬 자체의 접힘과 컬링 방식을 가리킨다. 2 차 구조는 주로 알파 나선, 베타접기, 베타코너를 포함하며 단백질의 고급 구조의 기본 요소이다. 일반적인 2 차 구조에는 α 나선형과 β 접힘이 포함됩니다. 3 차 구조는 2 차 구조에 기초하여 더 감아서 접은 것이다. 단백질 공간 구조를 연구하는 목표는 단백질과 3 차원 구조의 관계를 이해하는 것이다. 단백질의 2 차 구조를 예측하는 것은 단백질의 3 차원 모양을 예측하는 첫 번째 단계일 뿐이다. 단백질 접기 문제는 매우 복잡하여 단백질 공간 구조 예측의 복잡성을 야기한다. 단백질의 3 차원 구조를 예측하는 세 가지 방법, 즉 동원모형법, 단서법, 처음부터 예측법이 있다. 그러나 어떤 방법을 사용하든 결과는 예측이며, 알고리즘에 따라 결과가 다를 수 있습니다. 따라서 단백질의 3 차원 구조를 예측하기 위해 새로운 이론 계산 방법을 연구할 필요가 있다.
그림 4. 1 단백질 구조
현재 알려진 단백질 서열 데이터베이스의 데이터 양은 구조 데이터베이스보다 훨씬 더 많으며, DNA 서열 분석 기술과 유전자 인식 방법이 발전함에 따라 이러한 격차는 점점 더 커질 것이다. 사람들은 단백질 구조 생성의 진도가 단백질 서열을 생성하는 속도를 따라갈 수 있기를 바라며, 이를 위해서는 새로운 단백질 구조 예측의 이론적 분석 방법을 개발해야 한다. 단백질의 3 차원 구조 모양을 잘 예측할 수 있는 알고리즘은 아직 없다. 단백질의 구조 예측은 현대 컴퓨터 과학에서 해결해야 할 가장 중요한 문제 중 하나로 여겨지므로 단백질 구조 예측 알고리즘은 분자생물학에서 특히 중요하다.
5. 끝말
현재 컴퓨터의 발전은 이미 각 분야에 침투했고, 생물학에서 대량의 실험 데이터의 처리와 이론 분석에도 상응하는 컴퓨터 프로그램이 필요하다. 따라서 현대 과학기술이 발달하면서 생명기술과 컴퓨터 정보 기술의 융합이 대세의 흐름이 되었다. 생물 연구 과정에서 생성되는 방대한 양의 데이터는 강력한 데이터 처리 및 분석 도구가 필요하기 때문에 컴퓨터 과학 기술은 생물 과학자에게 필연적인 선택이 되었다. 사람들이 이미 컴퓨터 기술을 이용하여 많은 생물학적 문제를 해결했지만, 컴퓨터를 이용하여 생물학적 데이터를 더 잘 처리하는 방법은 여전히 장기적이고 복잡한 과제이다.