Blog

【技術分享】資料科學初學者建模易犯的錯誤盤點

並非每次我們接觸到的資料,針對每一個預測標的,都有獨立、整理好的特徵值;尤其是在面對時間序列資料時,我們也希望捕捉預測標的,隨時間變化的特徵變化規律。本篇整理時間序列建模時,注意的重點: (I) Scale-transformation 發生情境:屬性之間的值域差異大,例如:有的欄位是 boolean (0, 1)、有的欄位是金額量 (ex: 0 ~ 10^8)。 如果不將多個屬性的數值 scal… 繼續閱讀…

【資源整理】資料分析學習路徑整理 <政大徵才月>

職稱滿天飛,資料分析師、數據分析師、資料科學家、數據工程師、AI工程師、機器學習工程師…,我認為有一個光譜可由淺入深分類一下這些跟「數據」搭上邊的工作(例如 日常工作類型的比例是建立資料架構、清理資料、建模還是視覺呈現報告結果佔多數、會需要產業knowhow的比例多寡等等)。 不過這不是本篇的重點,本篇想針對資料分析入門到精通、到走向資料科學家或數據工程師、AI工程師,過程中的線上教材做歸類。我目… 繼續閱讀…

【講座整理】品牌行銷九大輿情分析維度—iBuzz @NCCU MBA CEO論壇

前言 iBuzz (亞洲指標數位行銷顧問股份有限公司) 是台灣第一間做海外內自動化網路口碑輿情搜集系統,來分享的 CEO 黎榮章 學長 也是政大企家班的校友! 據網路資料,他們在台灣的網路環境蒐集輿情口碑資料的總頻道來源超過17,289個,涵蓋八大頻道類型(新聞、文章、論壇、部落格、維基與FB粉絲團、Youtube、PTT);同時也有針對中國大陸的網路口碑資訊蒐集,採… 繼續閱讀…

【技術分享】認識文本分析|給我一段話,我告訴你重點在哪:對文本重點字詞加權的TF-IDF方法

適逢上週五2019數位奇點獎,敝公司獲得【最佳數據科技創新獎】銅獎;當中的案件我們使用到tfidf產生的文本向量做KMeans分群。正好想試試再讓文章簡單好懂一點,本周就單純只介紹這個文本分析很常用到的統計方法:TF-IDF。 一句話解釋TF-IDF——用來從一段文字/一個語料庫中,給越重要的字詞/文檔,越高的加權分數。本篇文章共三段,第一段講述概念與公式,第二段帶一個簡單的script印出一句話… 繼續閱讀…

【技術分享】認識文本分析|Word2Vec, Doc2Vec 比較 (附Python程式碼)

本篇筆記 Python自然語言處理入門的常用方法 Word2Vec,及其延伸:Doc2Vec,表述他們之間的關聯,並以Python實作比較不同方法分辨同樣兩個語句的效果。(介於中間的還有Sent2Vec,概念與Doc2Vec相似) Word2Vec是什麼? 顧名思義 Word to vector,通過神經網路訓練,將字詞表示成空間中的向量,讓我們可以用向量間的距離,來代表文本語意上的相似程度。這種… 繼續閱讀…

【技術分享】認識統計顯著性|A/B Testing 觀測數值增減多少才是顯著有效?

前言 不論是廣告投放或行銷中的A/B Test,對結果的評斷和優化,都是數據分析的環節之一。避免看到數字就憑著主觀解讀,而是設法找尋具科學證據的解釋,也是數據分析師的基本素養。 本文介紹A/B Testing觀測結果的統計顯著性,期待你除了會使用線上免費工具計算實驗的顯著性之外,也能了解背後統計概念。 A/B Testing做完後對結果的評估,其中一個重要的檢查點:「多少的數值增減才是顯著有效」?… 繼續閱讀…

【書摘】行銷資料分析|Sexy Little Number — 用數據找到潛在客戶:行銷預算分配背後的科學邏輯?

除了新創公司必須要將預算精簡再精簡,一般中大型公司在規畫預算時,很可能依然停留在經驗法則、或固定成本、銷售額百分比等計算方式。
對於有做轉換追蹤的公司,可能很快會發現哪些預算分配方式有效、哪些ROI不如預期;不過開頭都說了「三十多年前」,除了以上方式,有沒有更科學一點、更讓我們靠近最佳化成果的方式呢?

【實習心得】電通安吉斯集團-安索帕 Isobar 暑期實習

大致來說,我覺得一段經驗中,最值得分享的是兩件事:一個是別人常常以為,但事實上不一定是這樣的;另一個是我們過往以為清楚自己的模樣,卻因為這段經驗發現自己的另一面。 簡介公司及實習期間做的事 Isobar,全名「知世.安索帕」。隸屬電通安吉斯集團(Dentsu Aegis Network)旗下品牌,提供數位行銷的全方位解決方案。我在傳播企劃部和媒體部擔任跨部門實習生。 特別感謝公司先讓我和各部門主管… 繼續閱讀…