정보 흐름의 사소한 일: 3 추천 알고리즘은 어떻게 이루어집니까?

정보 흐름이 유행하는 이유 (정보 흐름에 관한 사소한 일: 정보 흐름이 왜 이렇게 유행하는지) 를 말하고, 제품 관점에서 추천 알고리즘이 기술적으로 어떻게 실현되는지 살펴봅시다.

필요한 기술 및 운영 비용에 따라 주요 추천 알고리즘은 컨텐츠 메타데이터 기반 권장 사항, 사용자 초상화 기반 권장 사항 및 협업 필터링 알고리즘 기반 권장 사항의 세 가지 범주로 나눌 수 있습니다.

메타 데이터 기반 추천은 비교 기반의 권장 알고리즘입니다. 기본 원칙은 내용에 라벨을 붙이는 것이다. 컨텐츠에 따라 특정 메타데이터를 선택합니다. 일반적인 각도에는 컨텐츠의 키워드, 유형, 작성자 및 출처가 포함됩니다. 헤드 라인 app 를 열고 콘텐츠를 차단하도록 선택하면 해당 콘텐츠에 대한 일부 메타데이터를 볼 수 있습니다.

컨텐츠의 메타데이터를 통해 컨텐츠 간의 상관 관계에 따라 관련 컨텐츠를 추천할 수 있습니다. Qipa 를 즐겨 보는 사용자도 미디어 제작 밥의 유혹을 보는 것을 좋아할 것이다. 콘텐츠의 메타데이터에 따라 사용자의 콘텐츠 선호도를 기록하고 점차 명료하게 데이터를 축적하여 사용자 선호도에 따른 정확한 추천을 용이하게 할 수 있습니다. 이것이 바로 아래에 언급해야 할 사용자 초상화에 기반한 추천입니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 콘텐츠명언)

사용자 초상화는 사용자를 표시하는 것과 마찬가지로 주로 사용자 기본 데이터 (연령, 성별 등) 의 세 부분으로 구성됩니다. ), 응용 프로그램 사용 데이터 (응용 프로그램 사용 빈도, 기간 등. ) 및 콘텐츠 선호 데이터 (좋아하는 콘텐츠 분류, 범주 등. ).

기본 데이터의 경우 연령대에 따라 콘텐츠 선호도에 큰 차이가 있습니다. 젊은이들은 신곡과 히트곡을 선호할 수도 있고, 중년층은 향수곡을 더 선호할 수도 있다. 응용 프로그램 사용 데이터에 따라 사용자를 계층화할 수 있고, 활성 사용자는 더 많은 콘텐츠를 추천하여 사용을 촉진할 수 있으며, 곧 유실될 사용자는 개방률이 높은 콘텐츠를 푸시하여 살릴 수 있으며, 운영 활동은 더욱 타겟이 될 수 있습니다. 콘텐츠 기본 설정 데이터를 기반으로 사용자의 콘텐츠 기본 설정을 기록하고 점차 명확하게 하여 보다 정확한 권장 사항을 만들 수 있습니다. 엔터테인먼트 뉴스를 보고, 국내 스타를 보고, 신선한 고기를 보고, 콘텐츠 선호도 데이터가 누적되면서 헤드라인 제품 추천이 더욱 정확해진다.

협업 필터링 알고리즘은 간단히 유사한 사용자 또는 콘텐츠를 찾아 추천하는 것으로, 주로 사용자 기반 협업 필터링 권장 사항과 프로젝트 기반 협업 필터링 권장 사항을 포함합니다.

(1) 사용자 기반 협업 필터링 권장 사항

사용자 기반 협업 필터링 권장 알고리즘은 콘텐츠 선호도가 유사한 사용자를 분석하고 알고리즘을 통해 자신이 좋아하는 콘텐츠를 추천하는 것입니다. 같은 생각을 가진 사람들이 즐겨 보는 내용을 추천하는 이런 사고방식은 생활 속의 친구가 같은 생각을 가진 사람의 추천과 더 비슷하다. (조지 버나드 쇼, 친구명언) 예를 들어, 당신은 ABC 를 좋아하고, 다른 사용자들도 ABC 를 좋아하는 것처럼 D 를 좋아한다면 D 가 추천할 것이다.

(2) 콘텐츠 기반 협업 필터링 권장 사항

콘텐츠 기반 협업 필터링 권장 알고리즘은 알고리즘을 통해 콘텐츠와 콘텐츠 간의 상관 관계를 분석하고 좋아하는 콘텐츠에 따라 가장 관련성이 높은 콘텐츠를 추천합니다. 이 콘텐츠를 보는 사용자의 85% 도 XXX 를 좋아하는데, 바로 이런 생각이다. 예를 들어 A 를 좋아하고 A 를 좋아하는 사용자가 B 를 좋아한다면 B 가 추천해 줄 것이다.

컨텐츠 기반 협업 필터링 권장 사항은 단순한 컨텐츠 메타데이터 기반 권장 사항보다 특정 컨텐츠 간의 더 깊은 연관성을 발견할 수 있습니다. 예를 들어, 나편집사유는 종종 콘텐츠 메타데이터만을 바탕으로 다양한 콘텐츠를 추천하는 경우가 많으며, 나편집사유의 한 회는 가장 관련성이 높은 에피소드여야 하지만, 콘텐츠 메타데이터의 관련성이 낮은 프로그램에서 추천하는 내용은 추천할 수 없다. 하지만 많은 사용자가 시청 후 방송에서 추천하는 내용을 검색하고 볼 수 있기 때문에 콘텐츠 기반 협업 필터링 추천은 둘 사이의 연관성을 발견하고 추천한다.

추천 알고리즘에 대한 아이디어를 소개할 때, 우리는 줄곧' 내용 선호도' 라는 단어를 말하는데, 이것은 추천 알고리즘을 실현할 때의 핵심 문제이다. 어떤 데이터가 사용자의 콘텐츠 선호도를 판단하는 데 필요한가? 다음과 같은 세 가지 주요 관점이 있습니다.

사용자가 수동으로 선택할 수 있도록 하는 것이 가장 쉬운 생각이다. 그러나 제한된 선택 공간으로 인해 사용자는 몇 가지 범주에서만 선택할 수 있으며 전체 컨텐츠를 포함할 수는 없습니다. 동시에 입도가 너무 커서 정확하게 추천하기 어렵다. 또한 사용자가 응용 프로그램을 열자마자 선택이 너무 무겁거나, 일정 기간 사용한 후 선택을 보충하면 사용자가 손실될 수 있습니다.

수동 선택이 달성하기 어렵기 때문에, 우리는 사용자의 사용 데이터에서 발굴해야 한다. 주류의 사고방식은 사용자의 주동적인 행동에 근거하여 판단하는 것이다. 독서를 클릭하여 좋아하는 것을 나타내고, 좋아하는 것을 클릭하거나, 답신을 클릭하여 나누는 것은 매우 좋아하는 것을 나타낸다. (존 F. 케네디, 독서명언) 내용을 건너뛰면 추천이 줄어든다. 클릭에 관심이 없다면 더 이상 추천하지 않겠습니다.

사용자의 조작에 따라 콘텐츠 선호도를 판단하고, 지속적인 사용에서 데이터를 축적하고 정제하며, 콘텐츠 선호도에 대한 판단이 점점 더 정확해집니다. 이것이 헤드 라인 시스템 적용의 주요 전략입니다. 이런 전략은 침몰 시장에서 주동적으로 선택하지 않으려는 침묵사용자에게 매우 적합한 전략이지만, 이런 전략은 클릭과 운영만 보고 내용의 실제 품질을 중시하지 않고 표제당, 저속한 내용 등의 문제를 야기할 수 있으며, 나중에 더 자세히 소개할 것이다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 침묵명언)

선택은 사용자의 콘텐츠 선호도를 완전히 대표할 수 없기 때문에 어떻게 판단을 더 정확하게 할 수 있습니까? 좀 더 은밀한 데이터로 시작할 필요가 있다. 예를 들어, 문장, 클릭, 읽기 시간, 읽기 완료, 문장 관련 추천 내용 보기 여부 등을 고려해 볼 수 있습니다. 순전히 클릭 판단보다 표제당 문제를 어느 정도 해결할 수 있다. 예를 들어, 비디오를 볼 수 있습니다. 너무 많이 감으면 다 봐도 별로 관심이 없을 수도 있지만, 반복 시청할 가치가 있는 내용은 콘텐츠 선호도에 맞을 확률이 상대적으로 높다.

권장 알고리즘의 원리와 데이터 소스를 소개한 후 한 컨텐츠의 전체 배포 프로세스를 복원해 보겠습니다.

첫 번째는 콘텐츠 초기화 및 콜드 스타트입니다. 알고리즘을 통해 컨텐츠를 분석 추출 또는 수동으로 처리하고, 컨텐츠의 소스, 분류, 키워드 등의 메타데이터를 추출한 다음 사용자 초상화를 기준으로 콘텐츠 관심 일치도를 계산하고, 해당 콘텐츠 선호도를 가진 사용자에게 배포할 수 있습니다. 또한 원본 일치도를 통해 관계 체인에 콘텐츠를 배포하여 콘텐츠의 콜드 시작을 완료할 수 있습니다.

그런 다음 사용자의 읽기 시간, 읽기 완료, 상호 작용 횟수 등의 데이터를 기준으로 콘텐츠의 품질을 분석하고 이에 따라 추천을 늘리거나 줄여 콘텐츠를 동적으로 배포하고 조정할 수 있습니다.

마지막으로, 협동 필터링 알고리즘이 작용해야 할 때이다. 양질의 컨텐츠의 경우 사용자 기반 협업 필터링 추천을 통해 콘텐츠 청중과 비슷한 취미를 가진 사용자에게 추천하거나, 프로젝트 협업 필터링 추천을 기준으로 유사한 콘텐츠를 즐겨 보는 사용자에게 추천할 수 있습니다. 양질의 콘텐츠 전파를 관계 체인으로 제한하지 않도록 합니다.

실제 추천 알고리즘 구현 과정에서 기본 콘텐츠 오리지널 일치도, 콘텐츠 일치도, 콘텐츠 품질 외에도 고려해야 할 많은 문제가 있습니다. 예를 들어 뉴스 알림 등 시효성이 강한 콘텐츠는 짧은 시간 동안 가중치가 부여되어야 하며 시간 초과는 권장되지 않습니다. 콘텐츠에 대한 사용자 선호도가 항상 유지되는 것은 아닙니다. 시간이 지남에 따라 사용자는 새로운 콘텐츠를 좋아할 수 있습니다. 사용자가 일정 기간 동안 이전에 좋아했던 내용에 관심이 없다면 이런 추천을 줄여야 한다. 또한, 마음에 들수록 추천하는 것에 빠지지 않기 위해, 결국에는 일종의 콘텐츠로, 사용자를 짜증나게 하는 국면으로, 사용자의 취향에 상한선을 정해야 한다. 신선함을 유지하기 위해서는 사용자가 좋아할 수 있는 새로운 콘텐츠를 찾을 수 있도록 도와야 한다. .....

마지막으로, 우리는 데이터를 통해 우리가 이 문장 을 어떻게 읽는지 알 수 있지만, 어떤 자료도 우리가 읽은 후의 감정과 수확을 정확하게 묘사할 수 없다. 알고리즘이 아무리 발전해도 알고리즘에 불과하다. Dell 보다 실제 콘텐츠 선호도를 더 잘 알고 있을 수 있지만, 콘텐츠에 대한 우리의 추구는 이해할 수 없습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 콘텐츠명언)

이는 헤드 라인 제품이 큰 성공을 거둔 이유일 수도 있지만 표제당, 저속화, 메아리실 효과라는 지적도 받고 있다. 다음으로 정보 흐름 제품이 직면한 문제와 가능한 솔루션에 대해 살펴보겠습니다.

上篇: 정보 작업 관리 규정 下篇: 2004 년 황홍 스케치의 형제선