1, 시퀀싱 및 시퀀스 비교) \x0d\ \ 시퀀싱은 생물 정보학의 기초이자 주요 데이터 소스이며 인간 데이터 또는 기타 데이터일 수 있습니다. 시퀀스 일치의 기본 문제는 두 개 이상의 기호 시퀀스의 유사성 또는 비유사성을 비교하는 것입니다. 생물학의 본의로 볼 때, 이 문제는 겹치는 시퀀스 조각에서 DNA 의 완전한 서열을 재건하는 것을 의미한다. 다양한 실험 조건 하에서 probedata 에서 물리적 및 유전지도 저장 결정, 데이터베이스의 DNA 서열 순회 및 비교, 두 개 이상의 서열의 유사성 비교, 데이터베이스에서 관련 서열과 하위 서열 검색, 뉴클레오티드의 연속 생성 패턴 찾기, 단백질과 DNA 서열의 정보 성분 찾기, 부분 삽입, 누락 등 DNA 서열의 생물학적 특성 비교 시퀀스의 목표 함수는 시퀀스 간 돌연변이 세트의 최소 거리 가중치 및 최대 유사성 합계를 얻습니다. 비교 방법에는 글로벌 일치, 로컬 일치, 세대 격차 처벌 등이 포함됩니다. 동적 프로그래밍 알고리즘은 일반적으로 시퀀스 길이가 작은 경우 두 시퀀스를 비교하는 데 사용되지만 대량 유전자 서열 (예: 인간 DNA 시퀀스 최대 109bp) 에는 적용되지 않습니다. 알고리즘의 복잡성이 선형이라 해도 효과가 없다. 따라서 계발적 접근법의 도입은 필연적이며, 유명한 BALST 와 FASTA 알고리즘과 그에 상응하는 개선 방법은 모두 이 전제에 기반을 두고 있다. \ x0d \ x0d \ 2. 단백질 구조 비교 및 예측의 기본 문제 \ x0d \ x0d \ 는 둘 이상의 단백질 분자 공간 구조의 유사성 또는 비등방성을 비교하는 것이다. 단백질의 구조와 기능은 밀접하게 연관되어 있다. 일반적으로 기능이 비슷한 단백질 구조는 일반적으로 비슷하다고 생각한다. 단백질은 아미노산으로 구성된 긴 사슬로 길이가 50 에서 1000~3000AA (아미노산) 까지 다양하다. 단백질은 효소, 물질의 저장과 운송, 신호 전달, 항체 등과 같은 다양한 기능을 가지고 있다. 일반적으로 아미노산의 서열은 단백질의 3 차원 구조를 내재적으로 결정한다고 생각한다. 단백질은 네 가지 다른 구조를 가지고 있다. 단백질의 구조와 예측을 연구하는 이유는 다음과 같습니다. 의학적으로 생물의 기능을 이해하고, 도킹 약물의 목표를 찾을 수 있으며, 농업에서 더 나은 작물을 얻을 수 있는 유전 공학을, 공업에서 효소의 합성을 사용할 수 있습니다. 단백질의 구조를 직접 비교하는 이유는 단백질의 3 차원 구조가 진화에서 1 차 구조보다 더 안정적이기 때문이다. 또한 AA 시퀀스보다 더 많은 정보가 포함되어 있습니다. 단백질의 3 차원 구조 연구의 전제는 내부 아미노산 서열이 3 차원 구조와 일일이 대응하는 것 (반드시 성립되는 것은 아님) 이다. 물리적으로 최소 에너지로 설명할 수 있다. 알려진 구조의 단백질 구조 법칙을 관찰하고 요약하여 알 수 없는 단백질의 구조를 예측하다. 소스 모델링 및 스레드 방법은 이 범주에 속합니다. 동원성 모델링은 유사성이 높은 단백질 구조 (아미노산이 같은 30% 이상) 를 찾는 데 사용되며, 이는 진화 가족 중 서로 다른 단백질 구조를 비교하는 데 사용된다. 그러나, 단백질 구조 예측 연구의 현황은 실제 수요를 만족시킬 수 없다. \x0d\3. 유전자 인식 및 비 코딩 영역 분석에 관한 연구 \ x0d \ x0d \ 유전자 인식의 기본 문제는 주어진 게놈 서열이 주어진 후 게놈 서열에서 유전자의 범위와 정확한 위치를 정확하게 식별하는 것이다. 비인코딩 영역은 인트론으로 이루어져 있으며, 일반적으로 단백질이 형성된 후 버려지지만, 실험에서 비인코딩 영역을 제거하면 DNA 서열이 유전 언어로, 인코딩 영역과 비인코딩 서열에 모두 포함되어 있음이 분명하다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), Northern Exposure (미국 TV 드라마) 현재 비코딩 영역의 DNA 서열을 분석하는 일반적인 지침 방법은 없다. 인간 게놈에서 모든 서열이 코딩된 것은 아니다. 즉, 어떤 단백질 템플릿이며, 인코딩된 부분은 인간 유전자의 전체 서열의 3~5% 에 불과하다. 분명히, 이렇게 큰 유전자 서열 수동 검색은 상상도 할 수 없다. 암호 영역을 감지하는 방법에는 암호 영역 코돈 측정 빈도, 1 차 및 2 차 마르코프 체인, ORF(OpenReadingFrames), 하위 모터 인식, HMM(HiddenMarkovModel) 및 GENSCAN, 패치 일치 등이 포함됩니다. X0d\\x0d\4, 분자 진화 및 비교 유전체학 \x0d\\x0d\ 분자 진화는 같은 유전자 서열 내에서 다른 종의 유사점과 차이점을 이용하여 생물의 진화를 연구하고 진화 나무를 구축하는 것이다. 그것들로 인코딩된 DNA 서열이나 아미노산 서열을 사용하거나 관련 단백질의 구조를 비교함으로써 할 수 있다. 비슷한 인종 유전자가 비슷하다는 전제가 있다. 비교를 통해, 서로 다른 인종 중 어떤 것이 같은지, 어떤 것이 다른지 알 수 있다. 초기 연구 방법은 크기, 피부색, 팔다리 수 등과 같은 외부 요소를 사용하는 경우가 많았습니다. 진화의 기초로 삼다. 최근 몇 년 동안, 많은 패턴 생물 게놈 시퀀싱 임무가 완성됨에 따라 사람들은 전체 게놈의 관점에서 분자 진화를 연구 할 수 있습니다. 서로 다른 인종의 유전자를 일치시킬 때, 우리는 일반적으로 세 가지 상황, 즉 직계 동원을 처리해야 한다. 바이 패스 상 동성: 기능적으로 다른 동종 유전자; 이종 유전자: 다른 방법으로 생물 간에 전파되는 유전자 (예: 바이러스 주사 유전자). 이 분야에서 일반적으로 사용되는 방법은 특징 (즉, DNA 서열 또는 단백질에서 아미노산 염기의 특정 위치) 과 거리 (비교 점수) 및 기존의 클러스터 방법 (예: UPGMA) 을 기반으로 시스템 발육 트리를 구축하는 것입니다. X0D \ 5, 겹치는 그룹 조립 \ 현재의 시퀀싱 기술에 따르면 반응당 500 개 이상의 염기쌍만 감지할 수 있습니다. 예를 들어, 인간 유전자 측정에는 짧은 사격법이 사용되었는데, 이를 위해서는 대량의 짧은 서열이 모두 겹치는 무리를 형성해야 했습니다. 전체 순서를 얻을 때까지 더 긴 겹침을 형성하기 위해 점진적으로 접합하는 과정을 겹침 그룹 조립이라고 합니다. 시퀀스의 중첩 그룹은 NP 전체 문제입니다. \x0d\6, 유전암호의 기원 \x0d\ 일반적으로 유전암호에 대한 연구에 따르면 코돈과 아미노산의 관계는 생물진화사의 우연한 사건으로 인해 현대생물의 같은 조상에 고정되어 있다. 이런' 동결' 이론과는 달리, 어떤 사람들은 각각 선택 최적화를 제안했다. 화학과 역사는 유전 암호를 설명하는 세 가지 이론이다. 각종 생물 게놈 시퀀싱 임무가 완성됨에 따라 유전 암호의 기원을 연구하고 이 이론의 진실성을 검증하기 위한 새로운 자료를 제공하였다. \x0d\ x0d \ 7. 구조 기반 약물 설계 \ x0d \ 인간 유전자 공학의 목적 중 하나는 인체 내 약 6 억 5438 만 개의 단백질의 구조, 기능, 상호 작용 및 각종 인간 질병을 이해하는 것이다. 약물 치료를 포함한 각종 치료와 예방 방법을 찾다. 생물 대분자와 소분자 구조에 기반한 약물 설계는 생물 정보학에서 매우 중요한 연구 분야이다. 특정 효소나 단백질의 활성화를 억제하기 위해, 우리는 단백질의 3 급 구조를 알고 있는 기초 위에서 분자 배열 알고리즘을 이용하여 컴퓨터에 억제제 분자를 후보 약물로 설계할 수 있다. 이 분야의 목적은 새로운 유전자 약품을 발견하여 큰 경제적 이득을 얻는 것이다. \x0d\ 8. 바이오 시스템 모델링 및 시뮬레이션 \x0d\ 대규모 실험 기술 개발 및 데이터 축적으로 글로벌 및 시스템 수준에서 생물학적 시스템을 연구 및 분석하고 개발 법칙이 포스트 게놈 시대의 또 다른 연구 핫스팟 인 시스템 생물학이 되었음을 보여줍니다. 현재 연구 내용에는 생물학적 시스템 시뮬레이션 (CurrOpinRheumatol, 2007, 463-70), 시스템 안정성 분석 (비선형 역학 Spsycholliffesci, 2007, 413) 이 포함됩니다. SBML (생물 정보학, 2007, 1297-8) 로 대표되는 모델링 언어는 부울 네트워크 (PLoSComputBiol, 2007, E1) 와 함께 빠르게 성장하고 있습니다. 2007, 3262-92) 및 이산 동적 이벤트 시스템 (생물 정보학, 2007, 336-43) 이 시스템 분석에 적용되었습니다. 많은 모델은 회로와 같은 물리적 시스템을 기반으로 하는 모델링 방법으로, 정보 흐름, 엔트로피, 에너지 흐름 등의 거시적 분석 아이디어에서 시스템의 복잡성을 해결하려고 하는 많은 연구가 있습니다 (AnalQuantCytolHistol, 2007, 296-308). 물론, 생물계의 이론적 모형을 세우는 데는 시간이 오래 걸린다. 실험 관측 데이터가 크게 증가하고 있지만 생물학적 시스템 모델 식별에 필요한 데이터는 현재 데이터의 출력 능력보다 훨씬 큽니다. 예를 들어, 시계열의 칩 데이터의 경우 샘플 포인트가 기존 시계열 모델링 방법을 사용하기에는 충분하지 않습니다. 엄청난 실험 비용이 현재 시스템 모델링의 주요 어려움입니다. 시스템 설명 및 모델링 방법 또한 선구적인 개발이 필요합니다. \x0d\9. 생물 정보학의 기술적 방법 연구 \x0d\ 생물 정보학은 단지 생물학 지식의 간단한 배열과 수학, 물리학, 정보과학 등 학과 지식의 간단한 응용이 아니다. 방대한 양의 데이터와 복잡한 배경으로 인해 생물 정보학 배경에서 기계 학습, 통계 분석 및 시스템 설명이 빠르게 발전했습니다. 거대한 계산량, 복잡한 소음 패턴, 대량의 시변 데이터는 전통적인 통계 분석에 큰 어려움을 초래하며 비모수 통계 (BMCBioinformatics, 2007, 339) 및 클러스터 분석 (QualLifeRes, 2007, 등 보다 유연한 데이터 분석 기술이 필요합니다. 고차원 데이터 분석에는 부분 최소 평방 (PLS) 과 같은 피쳐 공간의 압축 기술이 필요합니다. 컴퓨터 알고리즘의 개발에서는 알고리즘의 시간과 공간 복잡성을 충분히 고려하고 병렬 컴퓨팅, 그리드 컴퓨팅 등의 기술을 활용하여 알고리즘의 실현 가능성을 확장해야 합니다. \x0d\ 10, 바이오이미지 \x0d\ 왜 혈연 관계가 없는 사람들이 이렇게 생겼습니까? ₩ \x0d\ ₩ 모양은 점으로 구성됩니다. 겹치는 점이 많을수록 더 비슷해 보입니다. 관련이 없는 두 인물 점이 겹치는 이유는 무엇입니까? \x0d\ 의 생물학적 기초는 무엇입니까? 유전자가 비슷합니까? 모르겠습니다. 전문가의 답변을 바랍니다. \x0d\ 1 1, 유전자 발현 프로파일 링, 대사 네트워크 분석과 같은 기타 \x0d\; 유전자 칩 설계와 프로테오믹스 데이터 분석은 점차 생물 정보학에서 새로운 중요한 연구 분야가 되었다. 학과 방면에서 생물 정보학에서 파생된 학과, 구조 유전체학, 기능 유전체학, 비교 유전체학, 단백질 연구, 약물 유전체학, 한약 유전체학, 종양학, 분자 유행병학, 환경 게놈학은 이미 시스템 생물학의 중요한 연구 방법이 되었다. 현재의 발전에서 볼 수 있듯이, 유전자 공학은 이미 포스트 게놈 시대에 접어들었다. 생물 정보학과 밀접한 관련이 있는 기계 학습과 수학에서 발생할 수 있는 오도에 대처하는 방법에 대해서도 우리는 명확한 인식을 가지고 있다.