TF-IDF, 페이지랭크, BM25 등
1. TF-IDF(용어 빈도-역문서 빈도): 정보 검색 및 텍스트 마이닝에 일반적으로 사용되는 가중치 기술입니다. 해당 단어가 문서에 나타나는 빈도와 해당 단어가 말뭉치에 나타나는 빈도를 계산하여 해당 단어가 문서에 얼마나 중요한지 결정합니다.
2. PageRank: Google 검색 엔진이 웹페이지의 중요성을 결정하는 데 사용하는 알고리즘입니다. 웹 페이지 간의 링크 관계를 기반으로 각 웹 페이지의 PageRank 값을 계산하여 쿼리 결과의 관련성과 중요도를 결정합니다.
3. BM25: 문서의 길이와 단어의 빈도를 고려한 향상된 TF-IDF 알고리즘으로, 긴 문서와 짧은 문서의 상황을 더 잘 처리할 수 있습니다.