카탈로그
1. 지식지도란 무엇입니까?
2. 지식지도의 표현
3. 지식지도 저장
4. 적용
5. 도전
6. 결론
1. 지식지도란 무엇입니까?
지식지도는 본질적으로 의미 네트워크이며 노드와 가장자리로 구성된 그래프 기반 데이터 구조입니다. 지식지도에서 각 노드는 실제 존재하는 "엔티티" 를 나타내며, 각 모서리는 엔티티 간의 "관계" 입니다. 지식지도는 관계를 표현하는 가장 효과적인 방법입니다. 일반적으로 지식 지도는 서로 다른 모든 유형의 정보를 연결하는 관계 네트워크입니다. 지식지도는' 관계' 의 관점에서 문제를 분석할 수 있는 능력을 제공한다.
지식지도의 개념은 초기에 구글에서 제기된 것으로, 주로 기존 검색 엔진을 최적화하는 데 사용된다. 기존의 키워드 기반 검색 엔진과 달리 지식지도는 복잡한 관련 정보를 더 잘 조회하고, 의미 차원에서 사용자의 의도를 이해하고, 검색 품질을 향상시킬 수 있습니다. 예를 들어 구글의 검색 상자에 빌 게이츠를 입력하면 검색 결과 페이지 오른쪽에 빌 게이츠와 관련된 정보 (예: 생년월일, 가족 상황 등) 가 나타납니다.
또' 누가 빌 게이츠의 아내인가' 등 다소 복잡한 검색문장에 대해서도 구글은 아내 멜린다 게이츠를 정확하게 돌려보낼 수 있다. 이는 검색 엔진이 지식지도를 통해 사용자의 의도를 진정으로 이해하고 있음을 보여준다.
위에서 언급한 지식지도는 모두 더 광범위한 범주에 속하며, 일반 분야의 검색 엔진 최적화 및 질의 응답 시스템 문제를 해결합니다. 다음으로, 특정 분야에서 특정 분야의 지식지도가 어떻게 표현되고 적용되었는지 살펴보도록 하겠습니다. 이것이 업계의 관심사이기도 합니다.
2. 지식지도의 표현
우리가 지식지도로 사실을 묘사한다고 가정해 봅시다.)-"장삼은 이사의 아버지입니다." 이곳의 실체는 장삼과 이사이고, 관계는' 아버지' (is_father_of) 이다. 물론 장삼과 이사도 다른 사람과 어떤 관계가 있을 수 있다 (당분간은 고려하지 않음). 우리가 지식지도에 전화 번호를 노드로 추가할 때 (전화번호도 실체임), 우리는 또한 한 사람과 전화의 관계를 정의할 수 있다. has_phone, 즉 한 사람이 어떤 사람에게 속한다는 것을 의미한다. 다음 그림은 이 두 가지 서로 다른 관계를 보여 줍니다.
또한 has_phone 관계식에 time 을 속성으로 추가하여 전화 번호가 열리는 시간을 나타낼 수 있습니다. 이 속성은 관계뿐만 아니라 엔티티에 추가할 수 있습니다. 이 모든 정보를 관계 또는 엔티티의 속성으로 추가할 때 결과 매핑을 속성 맵이라고 합니다. 속성 그래프와 기존 RDF 형식은 모두 지식 그래프의 표현과 저장 방식으로 사용할 수 있지만 두 가지 차이점이 있습니다. 다음 섹션에서는 간략하게 설명합니다.
3. 지식지도 저장
지식지도는 주로 RDF 저장 형식과 그림 데이터베이스의 두 가지 형식으로 저장되는 그림 기반 데이터 구조입니다. 그들의 차이점에 대해서는 1 을 참조하십시오. 아래 곡선은 최근 몇 년 동안 다양한 데이터 저장소 유형의 발전을 보여줍니다. 여기에서 전체 데이터베이스 스토리지 분야에서 그림 기반 스토리지의 급속한 발전을 분명히 볼 수 있습니다. 이 차트는 graph DBMS 가 지난 2 년 동안 500% 의 인기를 증가시킨 데서 나온 것이다.
다음 목록은 현재 널리 사용되고 있는 그림 기반 스토리지의 데이터베이스 순위를 보여줍니다. 이 순위에서 볼 수 있듯이 Secondary 는 전체 그림 스토리지 분야에서 1 호를 차지하고 있으며 Jena 는 여전히 RDF 분야에서 가장 인기 있는 스토리지 프레임워크로 남아 있습니다. 이 데이터 부분은 DB-Engines 순위에서 나온 것입니다.
물론 디자인할 지식지도가 매우 간단하고 1 도 이상의 관련 쿼리가 쿼리에 포함되지 않는 경우 관계형 데이터 저장소 형식을 사용하여 지식지도를 저장할 수도 있습니다. 하지만 좀 더 복잡한 관계 네트워크 (실생활의 실체와 관계는 일반적으로 복잡함) 에 대해서는 지식지도의 장점이 뚜렷하다. 첫째, 공동 조사의 효율성은 기존의 저장 방식에 비해 크게 향상될 것입니다. 우리가 2, 3 도 관련 문의를 할 때 지식지도 기반 조회의 효율성이 수천 배, 심지어 수백만 배나 높아진다. 둘째, 그림 기반 스토리지는 설계에 매우 유연해서 일반적으로 부분적인 변경만 하면 됩니다. 예를 들어, 새로운 데이터 소스가 있다면 기존 지도에 삽입만 하면 됩니다. 반면 관계형 스토리지 모델의 유연성은 매우 떨어집니다. 모든 패턴은 미리 정의되어 있으며 나중에 변경하려면 비용이 많이 듭니다. 마지막으로 그래픽 데이터 구조에 엔티티와 관계를 저장하는 것이 전체 이야기의 논리에 맞는 가장 좋은 방법입니다.
4. 적용
이 글은 주로 지식지도가 인터넷 금융업계의 응용에 대해 논의한다. 물론, 많은 응용 장면과 사고방식이 다른 산업으로 확대될 수 있다. 여기서 말하는 응용 장면은 빙산의 일각에 불과하다. 다른 많은 응용 프로그램에서 지식지도는 여전히 그 잠재적 가치를 발휘할 수 있으며, 우리는 후속 문장 중에 계속 토론할 것이다.
반사기
부정 방지는 위험 통제에서 매우 중요한 부분이다. 대용량 데이터 기반 부정 방지 문제는 다양한 소스 (정형 및 비정형) 의 데이터를 통합하고, 부정 행위 방지 엔진을 구축하고, 사기 사례 (예: 신원 사기, 그룹 사기, 에이전트 패키징 등) 를 효과적으로 식별하는 방법에 있습니다. ). 그리고 많은 부정행위들이 복잡한 관계망을 포함하는데, 이는 부정행위 감사에 새로운 도전을 가져왔다. 지식지도는 관계의 직접적인 표현으로 이 두 가지 문제를 잘 해결할 수 있다. 먼저, 지식지도는 앞서 언급한 새로운 데이터 소스를 매우 쉽게 추가할 수 있는 방법을 제공합니다. 둘째, 지식지도 자체를 사용하여 관계를 표현합니다. 이 직관적인 표현은 복잡한 관계에서 발생할 수 있는 구체적인 위험을 보다 효과적으로 분석하는 데 도움이 됩니다.
사기 방지의 핵심은 사람이다. 첫째, 차용인과 관련된 모든 데이터 소스를 통해 여러 데이터 소스가 포함된 지식지도를 구축하여 단일 시스템에서 이해할 수 있는 구조화된 지식으로 통합해야 합니다. 여기에는 차용인의 기본 정보 (예: 신청시 작성한 정보) 를 통합할 수 있을 뿐만 아니라 대출자의 소비 기록, 행동 기록, 인터넷 브라우징 기록을 전체 지식지도에 통합하여 분석하고 예측할 수 있다. 여기서 어려운 점은 많은 데이터가 인터넷에서 얻은 구조화되지 않은 데이터이며, 이러한 데이터는 기계 학습 및 자연어 처리 기술을 통해 구조화된 데이터로 변환되어야 한다는 것입니다.
일관되지 않은 검증
일관되지 않은 검증은 상호 검증과 비슷한 차용인의 사기 위험을 판단하는 데 사용될 수 있습니다. 예를 들어, 대출자 장삼과 대출자 이사는 같은 회사 전화를 작성했지만, 장삼이 채운 회사는 이사가 채운 회사와는 완전히 다르다. 이는 위험지점이 되어 감사원의 특별한 주의가 필요하다.
또 다른 예로, 대출자는 장삼이 친구이고, 이 4 는 부자관계라고 말한다. 차용인의 정보를 지식지도에 추가하려고 하면 일관성 검증 엔진이 트리거됩니다. 엔진은 먼저 장삼과 이사의 관계를 읽어서 이 삼각 관계가 정확한지 확인한다. (존 F. 케네디, 삼각관계, 삼각관계, 삼각관계, 삼각관계, 삼각관계, 삼각관계, 삼각관계) 분명히 친구의 친구는 부자가 아니어서 뚜렷한 불일치가 있다.
불일치 검증에는 지식 추론이 포함됩니다. 일반적으로 지식 추론은 "링크 예측" 으로 이해될 수 있습니다. 즉, 기존 다이어그램에서 새로운 관계나 링크를 도출할 수 있습니다. 예를 들어, 만약 장삼과 이사가 친구이고, 장삼과 대출자도 친구라면, 우리는 대출자와 이사도 친구라고 추론할 수 있다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 친구명언)
집단사기
집단 사기의 발굴은 허위 신분의 식별보다 더 어렵다. 이런 조직은 매우 복잡한 관계망에 숨겨져 있어 쉽게 발견되지 않는다. 숨겨진 관계 네트워크를 정리해야 잠재적인 위험을 분석하고 발견할 수 있다. 지식지도는 자연 관계 네트워크의 분석 도구로서 이러한 잠재적 위험을 쉽게 식별할 수 있도록 도와줍니다. 간단한 예를 들어, 일부 그룹 사기 회원들은 허위 신분으로 대출을 신청하지만, 일부 정보는 * * * * * 가 공유한다. 다음 그림은 이 상황을 대략적으로 보여 줍니다. 그림에서 볼 수 있듯이, 장삼, 이사, 왕오삼인 사이에는 직접적인 관계가 없지만, 관계망을 통해 세 사람이 모두 정보를 공유하는 것을 쉽게 볼 수 있어 사기의 위험을 즉시 떠올리게 한다. 집단 사기에는 여러 가지 형태가 있지만, 지식지도는 다른 어떤 도구보다 더 좋고 편리한 분석 방법을 제공한다는 것은 확실하다.
이상 탐지
이상 분석은 데이터 마이닝 분야에서 중요한 과제이다. 주어진 데이터에서 "비정상적인" 점을 찾는 것으로 간단히 이해할 수 있습니다. 우리 어플리케이션에서 이러한 "비정상적인" 점들은 사기와 관련이 있을 수 있습니다. 지식지도는 하나의 그림으로 볼 수 있기 때문에 지식지도에 대한 이상 분석은 대부분 그림의 구조에 기반을 두고 있다. 지식 지도의 서로 다른 개체 유형 및 관계 유형으로 인해 예외 분석도 이러한 추가 정보를 고려해야 합니다. 그래프 기반 이상 분석은 대부분 계산량이 많기 때문에 오프라인 계산을 선택할 수 있습니다. 응용 프로그램 프레임워크에서 예외 분석은 정적 분석과 동적 분석의 두 가지 범주로 나눌 수 있습니다. 나중에 하나씩 설명하겠습니다.
-정적 해석
정적 분석이란 주어진 그래픽 구조와 특정 시점에서 일부 예외 (예: 예외 하위 그래프) 를 발견하는 것을 말합니다. 아래 그림에서 볼 수 있듯이, 그 중 5 개는 서로 매우 가깝고, 아마도 사기 조직일 것이다. 따라서, 우리는 이러한 이상 구조에 대해 더 많은 분석을 할 수 있다.
-동적 해석
동적 분석이란 시간에 따른 구조 변화 추세를 분석하는 것이다. 우리의 가정은 지식지도의 구조가 단기간에 크게 변하지 않을 것이라는 것이다. 변화가 심하면 이상이 있을 수 있으므로 더 많은 주의가 필요합니다. 시간 경과에 따른 분석 구조의 변화에는 시계열 분석 기술과 그래픽 유사성 계산 기술이 포함됩니다. 관심 있는 독자는 이 자료들을 참고할 수 있다.
고객 관리 손실
대출 전 위험 통제 외에도 지식지도는 대출 후 강력한 역할을 할 수 있다. 예를 들어, 대출 후 고객 관리에 대한 지식지도는 우리가 더 많은 새로운 인맥을 발견하여 독촉 성공률을 높이는 데 도움이 될 수 있습니다.
현실적으로 많은 대출자들은 성공 후 돈을 갚지 않고 숨바꼭질을 하며 자신에게 연락할 수 없다. 차용인이 제공하는 다른 연락처에 연락하려고 해도 나 자신에게 연락할 수 없다. 이른바' 실련' 상태로 접어들면서 독촉원들은 손을 댈 수가 없었다. 그럼 다음 질문은, 연락이 끊긴 상황에서 새로운 차용인의 연락처를 찾을 수 있을까요? 그리고 이 사람들은 우리의 지식지도에 관련 연락처로 나타나지 않았다. 더 많은 잠재적 인맥을 발굴할 수 있다면 소장의 성공률을 크게 높일 수 있다. 예를 들어, 다음 그림에서 차용인은 이사와 직접적인 관계가 있지만, 우리는 이사와 연락할 수 없다. 2 도 관계 분석을 통해 이 4 의 어떤 연락처가 대출자를 알 수 있는지 예측할 수 있습니까? 여기에는 지도 구조 분석이 포함됩니다.
지능형 검색 및 시각화
지식지도에 근거하여, 우리는 또한 지능형 검색 및 데이터 시각화 서비스를 제공할 수 있다. 스마트 검색의 기능은 구글과 바이두에 지식지도를 적용하는 것과 비슷하다. 즉, 검색된 모든 키워드에 대해 지식지도를 통해 보다 풍부하고 포괄적인 정보를 반환할 수 있습니다. 예를 들어, 사람의 ID 번호를 검색하면 스마트 검색 엔진은 각 개체에 대한 모든 기록 대출 기록, 연락처 정보, 동작 특성, 레이블 (예: 블랙리스트, 동료 등) 을 반환할 수 있습니다. ) 이 사람과 관련이 있습니다. 또한 시각화의 이점은 자명합니다. 시각화를 통해 복잡한 정보를 매우 직관적으로 표현하여 숨겨진 정보의 경위를 한눈에 파악할 수 있습니다.
정밀 마케팅
Forrester Research 의 수석 분석가인 Michele Goetz 는 "지식 차트를 통해 고객의 이름, 주소, 연락처 등을 포함한 고객의 핵심 정보를 얻을 수 있으며, 그들이 아는 다른 사람, 온라인 상호 작용 방식 등과 연결할 수 있습니다" 라고 말합니다.
똑똑한 기업은 경쟁사보다 잠재 고객을 더 효율적으로 발굴할 수 있다. 인터넷 시대에는 마케팅 수단이 다양했지만, 아무리 여러 가지 방법이라도 하나의 핵심, 즉 사용자를 분석하고 사용자를 이해하는 데 없어서는 안 된다. 지식지도는 다양한 데이터 소스를 결합하여 엔티티 간의 관계를 분석하여 사용자의 행동을 더 잘 이해할 수 있습니다. 예를 들어, 한 회사의 마케팅 관리자는 지식지도를 이용하여 사용자 간의 관계를 분석하고, 한 조직의 유사점과 차이점을 발견하고, 특정 부류의 사람들을 위한 마케팅 전략을 개발합니다. 사용자의 요구를 더 잘 이해해야만 마케팅을 더 잘 할 수 있다.
5. 도전
지식지도는 아직 공업계에서 광범위하게 응용되지 않았다. 일부 기업들이 이 방향으로 발전하려고 시도하더라도, 많은 기업들이 여전히 연구 단계에 있다. 주된 이유는 많은 기업들이 지식지도에 대해 잘 모르거나 이해하지 못하기 때문이다. 하지만 한 가지 확실한 점은 지식지도가 앞으로 몇 년 안에 업계에서 유행하는 도구가 될 것이며, 현재의 추세로 볼 때 예측하기 쉽다는 것이다. 물론 지식지도는 비교적 새로운 도구이기 때문에 실제 응용에는 어느 정도 도전이 수반될 것이다.
데이터 노이즈
첫째, 데이터에는 많은 소음이 있습니다. 데이터가 이미 데이터베이스에 존재하는 경우에도 100% 의 정확성을 보장할 수 없습니다. 여기에는 주로 두 가지 측면이 있습니다. 첫째, 현재 누적되고 있는 데이터에 오류가 있으며, 이 부분의 잘못된 데이터는 수정해야 합니다. 가장 간단한 수정 방법은 앞서 언급한 오프라인 불일치 검증을 수행하는 것입니다. 둘째, 데이터 중복. 만약 대출자 장삼이 회사명' 푸혜' 를 기입하고, 대출자 이사 () 가 회사명' 푸혜금융' 을 기입하고, 대출자 왕무 () 가 회사명' 푸혜금융정보서비스유한공사' 를 기입하면 된다. 세 사람 모두 같은 회사에 속해 있지만, 다른 이름을 기입하면 컴퓨터는 그들이 다른 회사에서 왔다고 생각할 것이다. 다음 질문은, 어떻게 방대한 양의 데이터에서 이런 애매모호한 이름을 찾아 하나의 이름으로 결합할 수 있을까 하는 것이다. (알버트 아인슈타인, 지식명언) 이것은 자연어 처리의' 모호분석' 기술을 포함한다.
비정형 데이터 처리 능력
빅 데이터 시대에는 대량의 데이터가 텍스트, 사진, 오디오, 비디오 등 처리되지 않은 비정형 데이터였습니다. 특히 인터넷 금융업계에서는 대량의 텍스트 데이터에 자주 직면한다. 이러한 구조화되지 않은 데이터에서 귀중한 정보를 추출하는 방법은 매우 어려운 작업이며 기계 학습, 데이터 마이닝 및 자연어 처리 능력을 습득하는 데 더 높은 문턱을 제시합니다.
지식추리
추리 능력은 인간 지능의 중요한 특징으로, 우리가 이미 가지고 있는 지식에서 함축된 지식을 발견할 수 있게 해준다. (존 F. 케네디, 지식명언) 일반적인 추론은 종종 몇 가지 규칙의 지원이 필요하다. 예를 들어 친구의 친구는 친구의 관계를 추론할 수 있고, 아버지의 아버지는 할아버지의 관계를 추론할 수 있다. 예를 들어, 장삼의 많은 친구들도 이사의 친구라면, 우리는 장삼과 이사가 친구일 가능성이 높다고 추측할 수 있다. 물론, 여기에 확률의 문제가 있을 것이다. 정보량이 특히 많을 때, 이 가장자리 정보와 추리 알고리즘을 효과적으로 결합하는 것이 가장 중요하다. 일반적으로 사용되는 추론 알고리즘에는 논리 기반 추론과 분산 표현에 기반한 추론이 포함됩니다. 심도 있는 학습이 인공지능 분야에서 점점 더 중요해짐에 따라 분산 표현에 기반한 추리도 연구 핫스팟이 되었다. 관심이 있으시다면 현재 이 분야의 업무 진행 4, 5, 6, 7 을 참고할 수 있습니다.
큰 데이터, 작은 샘플, 효과적인 생태 폐쇄 루프가 핵심입니다.
지금 얻을 수 있는 데이터의 양은 어마하지만, 우리는 여전히 작은 샘플 문제, 즉 샘플 수가 적다는 문제에 직면해 있다. 기계 학습에 기반한 사기 방지 채점 시스템을 구축해야 한다고 가정해 보겠습니다. 먼저 사기 샘플이 필요합니다. 하지만 사실 우리가 받을 수 있는 가짜 샘플 수는 매우 적다. 수백만 건의 대출 신청이 있더라도, 우리가 최종적으로 사기로 표기한 샘플은 수만 개에 불과할 가능성이 높다. 이것은 기계 학습의 모델링에 더 높은 도전을 제기합니다. 우리는 매우 높은 가격으로 모든 사기 샘플을 얻었다. 시간이 지남에 따라 우리는 반드시 더 많은 샘플을 수집할 수 있지만, 샘플의 성장 공간은 여전히 제한되어 있다. 이미지 인식과 같은 전통적인 기계 학습 시스템과는 달리 수십만, 심지어 수백만 개의 샘플을 얻는 것은 어렵지 않습니다.
이런 작은 샘플 조건 하에서 효과적인 생태 폐쇄 루프를 구축하는 것이 특히 중요하다. 생태 폐쇄 루프란 효과적인 자체 피드백 시스템을 구축하여 실시간으로 우리에게 피드백을 줄 수 있는 모델을 구축하여 모델을 지속적으로 자체 최적화하고 정확도를 높이는 것을 말합니다. 이러한 자체 학습 시스템을 구축하기 위해서는 기존 데이터 흐름 시스템을 개선해야 할 뿐만 아니라 각 업무 라인으로 깊이 들어가 프로세스를 최적화해야 합니다. 이것은 또한 전체 사기 방지 과정의 필수 과정이며, 전체 과정이 게임으로 가득 차 있다는 것을 알아야 한다. 따라서 피드백 신호를 통해 전략을 지속적으로 조정해야합니다.
6. 결론
지식지도는 학계와 공업계의 주목을 받고 있다. 이 문서에서 언급한 응용 프로그램 외에도 지식 지도는 권한 관리, 인적 자원 관리 등 다양한 분야에 적용될 수 있습니다. 이 분야의 적용은 후속 문장 에서 상세히 논의될 것이다.
참고
1De Abreu, D., Flores, a., 팔마, g., 페스타나, v., Pinero, J., Queipo, J. 그래픽 데이터베이스와 RDF 엔진 사이에서 링크 데이터 소비 및 마이닝을 선택합니다. 추위 속.
2 사용자 행동 자습서
3 유지원 지식지도-기계 뇌의 지식 기반 2 장 지식지도-기계 뇌의 지식 기반
4 니켈, M, 머피, K, 트레프, V. 지식도의 관계 기계 학습 평론.
5Socher, r, 첸, d, 매닝, c.d. Ng, A. (20 13). 신경 텐서 네트워크를 기반으로 한 지식 기반 완비 추론. 신경 정보 처리 시스템 진행 (926-934 면).
6Bordes, a., Usunier, n., Garcia-Duran, a., Weston, J. Jacques 연코, O. (201 번역은 다중 관계형 데이터 모델링에 사용되는 임베딩입니다. 신경 정보 처리 시스템 진행 (2787-2795 면).
7 제너턴, R, 루, N.L., 보데스, A. Obozinski, G. R. (20 12). 고도의 다중 관계 데이터의 잠재적 요인 모델. 신경 정보 처리 시스템 진행 (3 167-3 175 면).