標籤: Python

資料科學競賽分享 (I) – 2020 Shopee Code League (附 github 連結)

第一個參加的跨國大型資料科學競賽,8場小比賽都有全勤參與;但人生很難,top1%更難,過程中往往望大神興嘆。為了振作起來,本文挑選跟電商、行銷 domain 相關的第八賽段,同時也是相對比較沒有被虐的 part,來聊聊解題思路和代碼。 (I) Marketing Analytics: 預測用戶是否開信(EDM) 原題 Kaggle 連結 基本描述 問題類型:二元分類 (0=未開信,1=開信) 資料… 繼續閱讀…

【技術分享】資料科學初學者建模易犯的錯誤盤點

並非每次我們接觸到的資料,針對每一個預測標的,都有獨立、整理好的特徵值;尤其是在面對時間序列資料時,我們也希望捕捉預測標的,隨時間變化的特徵變化規律。本篇整理時間序列建模時,注意的重點: (I) Scale-transformation 發生情境:屬性之間的值域差異大,例如:有的欄位是 boolean (0, 1)、有的欄位是金額量 (ex: 0 ~ 10^8)。 如果不將多個屬性的數值 scal… 繼續閱讀…

【技術分享】認識文本分析|給我一段話,我告訴你重點在哪:對文本重點字詞加權的TF-IDF方法

適逢上週五2019數位奇點獎,敝公司獲得【最佳數據科技創新獎】銅獎;當中的案件我們使用到tfidf產生的文本向量做KMeans分群。正好想試試再讓文章簡單好懂一點,本周就單純只介紹這個文本分析很常用到的統計方法:TF-IDF。 一句話解釋TF-IDF——用來從一段文字/一個語料庫中,給越重要的字詞/文檔,越高的加權分數。本篇文章共三段,第一段講述概念與公式,第二段帶一個簡單的script印出一句話… 繼續閱讀…

【技術分享】認識文本分析|Word2Vec, Doc2Vec 比較 (附Python程式碼)

本篇筆記 Python自然語言處理入門的常用方法 Word2Vec,及其延伸:Doc2Vec,表述他們之間的關聯,並以Python實作比較不同方法分辨同樣兩個語句的效果。(介於中間的還有Sent2Vec,概念與Doc2Vec相似) Word2Vec是什麼? 顧名思義 Word to vector,通過神經網路訓練,將字詞表示成空間中的向量,讓我們可以用向量間的距離,來代表文本語意上的相似程度。這種… 繼續閱讀…