데이터는 쓸모가 없을 수도 있지만, 데이터에 포함된 정보는 유용하여 불확실성을 줄일 수 있다. 데이터의 정보량에 따라 알고리즘의 상한선이 결정됩니다.
데이터 체인은 전체 모델 구축 과정에서 작업량이 가장 많은 곳으로, 매장 지점, 로그 에스컬레이션, 정리 스토리지에서 피쳐 항목, 사용자 초상화, 객체 초상화에 이르기까지 가장 가치가 없고 중요한 장소로 간주됩니다. 이 조각은 해결해야 할 문제와 선택한 모델과 큰 관계가 있어 구체적인 분석이 필요하다. 개인화를 예로 들어 피쳐 엔지니어링의 정보 손실에 대해 이야기하십시오.
우리 모델의 목적은 미래를 예측하는 것이다-'과거를 배우지만 미래를 영원히 모른다', 그리고 모든 사람의 미래를 더 예측하고, 실시간으로 모든 사람의 미래를 예측하는 것이다. 이를 위해 과거, 사용자, 물품에 대해 더 많이 알수록 먼저 사용자의 행동 (언제, 어디서, 어떻게, 무엇을, 어느 정도) 을 수집한 다음, 사용자가 클릭하는 데 영향을 미치는 요소를 찾아내고, 사용자 관심도를 구축하고, 마지막으로 이를 바탕으로 예측을 해야 한다.
이 과정에서 각 링크마다 정보 손실이 발생하고, 그 중 일부는 수집되지 않았습니다 (예: 사용자의 환경 및 기분). 일부분을 모아서 당분간 사용할 수 없다. 예를 들어, 전자 상거래 분야의 사용자가 직접 감지하는 것은 한 장의 사진이며, 점 여부는 주로 이 그림에 달려 있다. 이 정보 부분은 심층 학습 전에 사용하기가 어렵습니다. 일부는 수집 및 사용되지만 처리 방법으로 인한 손실 (예: 시간 창의 길이, 피쳐가 분산되는 세그먼트 등) 입니다.
초기에 먼저 "양" 을 한 다음 "율" 을 하는 것이 가장 빠른 성과를 내는 방식이어야 한다
#2 f(x)
F(x) 의 설계는 주로 매개변수 수와 구조의 두 방향 혁신에 초점을 맞추고 있습니다. 이 두 매개 변수는 알고리즘의 학습 능력을 결정합니다. 데이터에서 정보를 발굴하는 능력 (정보 활용) 은' 재능' 과' 잠재력' 과 비슷한 것으로 이 모델이 얼마나 똑똑한지 측정하는 데 사용된다. 이에 따라 위의 {x, y} 는 네가 얼마나 많은 일을 겪었는지 알 수 있다. 더 많이 경험할수록, 더 똑똑해질수록, 더 많이 알게 될 것이다. (존 F. 케네디, 경험명언)
모델 복잡성 -VC 차원
매개변수 수는 모델의 복잡성을 나타내며 일반적으로 VC 차원으로 측정됩니다. VC 차원이 클수록 모델이 복잡해지고 학습 능력이 강해집니다. 데이터 양이 비교될 때, 높은 VC 차원의 모델은 낮은 VC 차원의 모델보다 좋지 않지만, 이것은 이야기의 일부일 뿐이다. 더 많은 데이터를 통해 낮은 VC 차원 모델의 효과는 더 이상 올라갈 수 없고 높은 VC 차원 모델은 여전히 상승하고 있음을 알 수 있습니다. 이때 높은 VC 차원 모델은 낮은 VC 차원 모델에 대해 다음과 같이 말할 수 있습니다. 당신은 90 점을 시험했습니다. 왜냐하면 당신의 실력이 거기에 있기 때문입니다. 나는 100 점을 시험했습니다. 왜냐하면 매스는 100 점밖에 없기 때문입니다.
물론 VC 차원은 높을수록 좋은 것이 아니라 문제의 복잡성과 일치해야 합니다.
-모델 설계가 실제보다 간단하면 모델 표현 능력이 부족하고 높습니다. 생성될 것입니다.
-모델 설계가 실제보다 복잡하면 모델이 너무 잘 맞춰져 분산이 높습니다. 을 눌러 섹션을 인쇄할 수도 있습니다 그리고 모델이 복잡할수록 샘플 양이 커질수록 DL 은 수억 개의 샘플이 생기기 쉽다.
모형 구조
모형 구조는 매개변수가 어떻게 결합되는지, 평면, 3D 또는 타임라인이 될 수 있는지 해결해야 합니다. 서로 다른 모델 구조에는 서로 다른 데이터 스키마를 캡처할 수 있는 고유한 속성이 있습니다. 세 가지 전형적인 모델을 살펴 보겠습니다.
LR:
선형 정보만 배울 수 있고, 인공피쳐공학을 통해 비선형 맞춤 능력을 높일 수 있다
MLR:
Lr 은 lr 보다 표현력이 더 강하다. LR 모든 사용자 및 프로젝트에 대해 매개변수 세트를 사용합니다. MLR 은 각 세그먼트마다 고유한 매개변수를 가질 수 있습니다.
-남자와 여자의 행동 패턴이 다르기 때문에 두 개의 모델, 한 남자와 한 여자, 매개 변수를 즐기지 마세요.
-의류업계는 3C 업종과 다르기 때문에 모델 두 개, 의류 한 개, 3C 한 개, 무매개 변수 즐기기.
이 길의 끝에서, 당신은 모든 사람을 위해 모델을 훈련시킬 수 있습니다. 이것이 진정한' 개인화' 입니다!
주파수 변조:
피쳐 교차 자동화 및 비선형 정보 마이닝
DL:
임의의 정밀도로 임의의 연속 함수에 접근할 수 있습니다. 즉, "안에 있습니다. 직접 찾아야 할 것이 있습니다." 라는 뜻입니다.
#3 목표
목표 함수는 한 가지 일을 하기 전에 작은 목표를 설정하는 것이다. 이 작은 목표는 우리가 다음에 어느 방향으로 가야 하는지를 결정한다. 전반적으로, 좋고 간단합니다. 선택할 수있는 많은 표준 방법이 있습니다. 혁신적인 공간은 크지 않지만 손실 함수를 직접 만드는 것이 좋습니다. 다니엘을 기다리십시오.
손실 함수: rmse/logloss/hinge/ ... 벌칙: l 1/L2/l 2 1/ 블럽/중량 감소/ ...
P (모델 | 데이터) = P (데이터 | 모델) * P (모델) /P (데이터)-—& gt;; 대수 (d|m)+대수 (m)
#4 최적화
목표가 있으면 모형 설계가 충분히 총명하고, 배우지 않거나 배우지 않는 방법이 잘못되었으며, 또' 종용을 해치는' 비극이다. 여기서 해결해야 할 문제는 어떻게 더 빠르고 더 잘 배울 수 있는가이다. 베이시안 방법을 버리고 크게 두 가지 범주로 나눌 수 있다.
다윈주의
휴리스틱 알고리즘, 다윈 진화론 모방, 적응도 함수를 통한' 물경쟁천선택, 적자생존' 최적화, 대표적인 것은 유전알고리즘 GA, 입자군 최적화 PSO, 개미 군체 알고리즘 AA; 물류 경로 문제와 같은 복잡성, 지수 규모, 고차원, 대형 공간 등의 특성 문제를 해결하는 데 적합합니다. 문제는 수렴이 느리고 공업에서 거의 사용되지 않는다는 것이다.
라마크의
라마크 진화, 획득 유전, 직접 변형 유전자 (W); 비교적 대표적인 것은 두 가지 범주로 나뉜다.
-싱가포르 달러 변형 (싱가포르 달러/네스트로프/아다그라드 /rms prop/ 아담/...)
-뉴턴 변수 (뉴턴 /lbfgs/ ...)
#5 평가
어떻게 모델을 잘 할 것인가에 대한 통일된 기준은 없다. 인터넷에 배포된 모델은 다방면의 이익을 어느 정도 관련시킬 수 있다. 개인화된 시나리오를 예로 들자면 사용자, 공급업체/컨텐츠 생산자, 제품 운영 간의 게임이 포함됩니다. 일반적으로 "세 가지 좋은 모드" 는 다음 세 가지 수준을 충족해야 합니다.
알고리즘 수준: 정확도, 적용 범위, AUC, 로그 손실 ... 회사 수준: 수익, CTR, CVR ... 사용자 수준: 사용자 경험, 만족도, 놀라움. ...
#0 모델 최적화
분해 후, 모델 최적화의 아이디어도 분명합니다.
살이 찌려면 먼저 먹을 것이 있어야 한다. 둘째, 먹을 수 있어야 하고, 편식하지 않고 무엇이든 먹을 수 있어야 한다. 마지막으로 소화가 잘 된다
하나의 공식으로 요약: 모델 효과 ∝ 데이터 정보 x 알고리즘 정보 활용.
한편으로는' 정보량' 을 확대하고, 사용자 초상화와 물체 초상화를 잘 만들고, 사진/문자 등 수량화하기 어려운 데이터를 이용한다. 반면 f(x) 를 높여' 정보 활용도' 를 높이고 이전에 파낼 수 없었던 규칙을 발굴한다.
그러나 빅 데이터 초기에는 효과가 주로 첫 번째 측면에서 나왔다.