ACL2020의 MASR MIND 데이터 세트 논문을 사용하여 뉴스 추천에서 일반적으로 사용되는 일부 데이터 세트 소개/
(2013) 독일 뉴스 포털 13개에 게시된 뉴스 수집 기사 로그 클릭 사용자는 Plista4 데이터 세트를 구성하는 데 사용되었습니다. 여기에는 70,353개의 뉴스 기사와 1,095,323개의 클릭이 포함되어 있습니다. 이 데이터 세트의 뉴스 기사는 독일어로 되어 있으며 사용자는 주로 독일어권 국가 출신입니다.
Adressa 데이터는 10주 동안의 adreseavisen 웹사이트 로그에서 구성되었으며, 여기에는 뉴스 기사 48,486개, 사용자 3,083,438명, 클릭 이벤트 27,223,576개가 포함되어 있습니다. 각 클릭 이벤트에는 세션 시간, 뉴스 제목, 뉴스 카테고리, 사용자 ID 등 여러 속성이 포함되어 있습니다. 각 뉴스 기사는 작성자, 엔터티, 주제 등의 세부정보와 연결되어 있습니다. 이 데이터세트의 뉴스 기사는 노르웨이어로 작성되었습니다. 전체 데이터 세트는 서로 다른 크기의 두 가지 버전으로 나뉩니다.
전체적으로 Adressa는 가장 포괄적인 콘텐츠를 보유하고 있으며 정기 뉴스 추천, 세션 기반 추천, 지식 그래프 기반 추천을 제공할 수 있습니다.
2018) 뉴스 추천 데이터세트가 구축되었습니다. 브라질의 유명 뉴스 포털인 글로보(globo)에서 발췌한 내용입니다. 이 데이터세트에는 약 314,000명의 사용자, 46,000개의 뉴스 기사, 300만 개의 클릭 기록이 포함되어 있습니다. 각 클릭 기록에는 사용자 ID, 뉴스 ID, 세션 시간 등의 필드가 포함됩니다. Kaggle 플랫폼에서 처음 공개되었으며, 원본 뉴스 기사 정보 없이 훈련된 뉴스 임베딩을 제공했습니다.
14,180개의 뉴스 기사와 34,022개의 클릭 이벤트가 포함되어 있습니다. 각 뉴스 기사는 단어 ID로 표시되며, 뉴스 원본은 제공되지 않습니다. 사용자 ID가 없으므로 이 데이터 세트의 사용자 수를 알 수 없습니다.
유익하셨다면 좋아요와 팔로우, 감상 부탁드립니다. 추천에 관심이 있으시면 댓글/비공개 메시지로 편하게 소통해주세요~~