데이터 시각화의 기본 프로세스

작가 | 키안 시앙

출처 | 데이터 제품 설명

대부분의 사람들이 데이터 시각화에 대한 첫인상은 Excel 차트 모듈의 히스토그램, 막대 차트, 선 차트, 파이 차트, 분산형 차트 등과 같은 다양한 그래픽일 수 있습니다. 위의 내용은 데이터 시각화의 구체적인 구현 일 뿐이지 만 데이터 시각화는 그 이상입니다.

데이터 시각화는 단순한 시각화 매핑이 아니라 데이터 수집, 데이터 처리 및 변환, 시각화 매핑, 사용자 상호 작용, 사용자 인식 등 데이터 흐름을 주요 라인으로 하는 전체 프로세스입니다. 전체 시각화 프로세스는 데이터 흐름이 일련의 처리 모듈을 통해 변환되는 것으로 볼 수 있으며, 사용자가 시각화 상호 작용을 통해 시각화 매핑 결과에서 지식과 영감을 얻는 프로세스입니다.

그림 1 시각화 기본 흐름도

시각화 메인스트림 모듈 사이에는 단순한 선형 연결뿐만 아니라 두 모듈 간에 연결이 있습니다. 예를 들어, 데이터 수집, 데이터 처리 및 변환, 시각적 코딩 및 인간-컴퓨터 상호 작용 방식에 따라 새로운 시각 결과가 생성되며, 사용자는 새로운 시각 결과에 대한 인식을 통해 새로운 지식과 영감을 얻을 수 있습니다.

다음으로 데이터 시각화의 주요 프로세스에서 몇 가지 주요 단계를 설명합니다.

0 1

데이터 수집

데이터 수집은 데이터 분석 및 시각화의 첫 번째 단계입니다. 속담에 "교묘한 여자는 쌀이 없는 밥을 짓기 어렵다" 는 말이 있다. 데이터 수집 방법 및 품질은 데이터 시각화의 최종 효과를 크게 결정합니다.

데이터 수집의 분류 방법은 여러 가지가 있으며, 데이터의 출처에 따라 내부 데이터 수집과 외부 데이터 수집으로 나눌 수 있습니다.

1. 내부 데이터 수집:

일반적으로 주문 거래와 같은 업무 데이터베이스에서 발생하는 기업 내 업무 활동 데이터 수집을 나타냅니다. 사용자의 동작 데이터와 APP 사용을 분석하려면 동작 로그 데이터가 필요합니다. 이때 앱이나 웹에서 데이터를 수집하기 위해서는' 매몰점' 방법을 사용해야 한다.

2. 외부 데이터 수집:

경쟁 데이터 수집 및 공식 기관 공식 홈페이지에 게시된 일부 업계 데이터 획득을 포함하여 기업의 일부 외부 데이터를 얻는 방법의 수를 나타냅니다. 외부 데이터를 가져옵니다. 일반적인 데이터 수집 방법은 "웹 크롤러" 입니다.

위의 두 가지 데이터 수집 방법으로 얻은 데이터는 모두 중고 데이터입니다. 조사와 실험을 통해 수집한 데이터는 원시 데이터이며, 시장 조사 및 과학 연구 실험에서 일반적으로 사용되는 데이터이며, 이번 토론의 범위를 벗어납니다.

데이터 처리 및 변환

데이터 처리 및 데이터 변환은 데이터 사전 처리 및 데이터 마이닝을 포함한 데이터 시각화를 위한 전제 조건입니다.

한편, 과거 데이터 수집으로 얻은 데이터는 불가피하게 소음과 오차를 포함하고 있으며, 데이터 품질은 낮습니다. 한편, 데이터의 특성과 패턴은 종종 대량 데이터에 숨겨져 있으며 추출하려면 추가 데이터 마이닝이 필요합니다.

일반적인 데이터 품질 문제는 다음과 같습니다.

1. 데이터 수집 오류, 데이터 객체가 누락되었거나 포함하지 않아야 하는 다른 데이터 객체가 포함되어 있습니다.

2. 데이터의 이상치, 즉 데이터 세트의 다른 대부분의 데이터 객체와 특성이 다른 데이터 객체입니다.

3. 값이 누락되고 데이터 객체에 대한 하나 이상의 속성 값이 누락되어 데이터 수집이 불완전합니다.

4. 데이터 불일치, 수집한 데이터 분명 불합리, 또는 여러 속성 값 모순. 예를 들어 가중치가 음수이거나 우편 번호가 도시와 일치하지 않습니다.

5. 완전히 중복되거나 거의 반복되는 데이터가 포함된 중복 값이 존재합니다.

이러한 문제 때문에 수집된 데이터를 직접 분석하거나 시각화하면 사용자가 잘못된 결정을 내리는 경우가 많습니다. 따라서 수집된 원시 데이터의 정리 및 표준화는 데이터 시각화 프로세스의 필수적인 부분입니다.

데이터 시각화의 표시 공간은 일반적으로 컴퓨터 화면, 대형 화면 표시 등과 같은 2 차원적입니다. 3D 그래픽 렌더링 기술은 2D 평면에 3D 객체를 표시하는 문제를 해결합니다.

그러나 빅 데이터 시대에 우리가 수집한 데이터는 일반적으로 매스 (대량), 다양성 (다양성), 속도 (고속), 가치 (가치) 와 같은 4V 특징을 가지고 있습니다. 고차원, 대량, 다양한 데이터에서 귀중한 정보를 발굴하여 의사 결정을 지원하는 방법, 청소 및 소음 제거 외에도 비즈니스 목적에 따라 데이터를 2 차 처리해야 합니다.

일반적으로 사용되는 데이터 처리 방법에는 통계학 및 기계 학습의 차원 축소, 데이터 클러스터링 및 분할, 샘플링 등이 있습니다.

시각적 매핑

데이터를 정리하고 소음을 제거하고 비즈니스 목적에 따라 데이터를 처리한 후 다음 단계는 시각적 매핑입니다. 시각화 매핑은 전체 데이터 시각화 프로세스의 핵심이며 처리된 데이터 정보를 시각화 요소에 매핑하는 프로세스입니다.

시각화 요소는 시각화 공간+태그+시각적 채널의 세 부분으로 구성됩니다.

1. 시각화 공간

데이터 시각화를 위한 표시 공간은 일반적으로 2 차원입니다. 그래픽 그리기 기술을 통해 3D 원형 지도, 3D 지도 등과 같은 2D 평면에 표시되는 문제를 해결하는 3D 개체의 시각화입니다.

그림 2 시각화 공간 예

표시

레이블은 데이터 속성의 분류를 나타내는 시각적 지오메트리 요소에 대한 데이터 속성의 매핑입니다.

공간 자유도에 따라 기호는 점, 선, 면, 본체로 나눌 수 있으며 각각 0 자유도, 1 차원, 2 차원, 3 차원 자유도가 있습니다. 예를 들어 우리의 일반적인 분산형 차트, 선 차트, 사각형 트리 차트, 3D 히스토그램은 각각 점, 선, 면, 체체의 네 가지 다른 유형의 표시를 사용합니다.

그림 3 레이블 유형의 예

3. 시각적 채널

데이터 속성 값과 레이블 시각적 렌더링 매개변수 간의 매핑을 시각적 채널이라고 하며, 일반적으로 데이터 속성의 정량화 정보를 표시하는 데 사용됩니다.

일반적인 시각적 채널로는 위치, 크기 (길이, 면적, 볼륨 ...), 모양 (삼각형, 원, 큐브 ...), 방향, 색상 (색조, 채도, 밝기, 투명도 ...) 등이 있습니다.

그림 3 의 네 가지 그래픽 예는 위치, 크기 및 색상과 같은 시각적 채널을 활용하여 데이터 정보를 시각적으로 표현합니다.

"표식" 과 "시각적 채널" 은 시각적 코딩 요소의 두 가지 측면으로, 데이터 정보를 완전히 시각화하여 시각적 매핑 프로세스를 완료합니다.

시각화 인코딩 요소의 우선 순위와 데이터의 특성에 따라 적절한 시각적 표현을 선택하는 방법에 대해 다음 번에 여러분과 공유할 수 있습니다.

인간-컴퓨터 상호 작용

시각화의 목적은 데이터의 숫자, 특성 및 패턴을 반영하고 데이터 뒤의 정보를 대상 사용자에게 보다 직관적이고 이해하기 쉬운 방식으로 제공하여 올바른 결정을 내리는 데 도움이 됩니다.

그러나 일반적으로 우리가 직면 한 데이터는 복잡하며 데이터에 포함 된 정보는 풍부합니다.

시각적 그래픽에 있는 모든 정보를 기계적으로 풀어놓고 조직하고 선별하지 않으면 전체 페이지가 특히 비대하고 혼란스러워 보일 뿐만 아니라 미감이 부족할 수 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 예술명언) 그리고 초점을 흐리고, 사용자의 주의를 분산시키고, 사용자 단위 시간을 줄여 정보를 얻을 수 있는 능력을 줄였다.

일반적인 상호 작용 방식은 다음과 같습니다.

1. 스크롤 및 확대/축소: 스크롤 및 확대/축소는 지도 및 선 그래프의 정보 세부 사항과 같이 현재 해상도 장치에서 데이터가 완전히 표시되지 않을 때 매우 효과적인 상호 작용 방법입니다. 그러나 스크롤 및 확대/축소의 구체적인 효과는 페이지 레이아웃뿐만 아니라 특정 디스플레이 장치와도 관련이 있습니다.

2. 색상 매핑 제어: 일부 시각화 오픈 소스 도구는 D3 과 같은 팔레트를 제공합니다. 원하는 대로 시각적 도면의 색상을 구성할 수 있습니다. 셀프 분석과 같은 플랫폼 도구에서는 상대적으로 많지만 일부 자체 연구 시각화 제품의 경우 일반적으로 전문 디자이너가 이 작업을 담당하여 시각화된 시각적 커뮤니케이션을 아름답게 만듭니다.

3. 데이터 매핑 방법 제어: 데이터 시각화 매핑 요소에 대한 사용자 선택을 나타냅니다. 일반적으로 데이터 세트에는 여러 피쳐 세트가 있습니다. 사용자에게 유연한 데이터 매핑 방법을 제공하여 사용자가 관심 있는 차원을 기준으로 데이터 뒤의 정보를 쉽게 탐색할 수 있도록 합니다. 이는 tableau 및 PowerBI 와 같은 일반적인 시각화 분석 도구에서 사용할 수 있습니다.

4. 데이터 세부 정보의 수준 제어: 데이터 세부 정보 숨기기, 롤오버 또는 클릭.

사용자 인식

시각화의 결과는 사용자가 인식한 후에야 지식과 영감을 얻을 수 있다.

인식 과정에서 사용자는 수동적으로 시각적 그래픽을 받아들일 뿐만 아니라 시각 모듈과의 상호 작용을 통해 능동적으로 정보를 얻습니다.

사용자가 시각적 결과를 더 잘 인식하고 결과를 가치 있는 정보로 변환하여 의사결정을 지도하는 방법은 심리학, 통계, 인간-컴퓨터 상호 작용 등 너무 많은 영향을 미칩니다.

배움의 길은 매우 길고, 우리는 영원히 길에 있다. 우리는 데이터 시각화 분야에 대한 지식을 계속 공유하고, 계속 우리를 주시하는 것을 기억할 것이다!

上篇: 왜 Xiangjiang app 의 설립 등록은 계약할 수 없습니까? 下篇: 상대방의 QQ 정보 카드가 보이지 않으면 어떻게 합니까?