【闖蕩新世界的勇者】(EP05) 從交通組到資料科學的跨界之路 簡書廷資料工程師

高銘陽

人物簡介

簡書廷學長畢業於台大土木系與土木所交通工程組,後選擇投入資料科學的領域,至今逾四年的時間。目前在 Shopline 擔任資料工程師,職務內容主要為負責開發及監控資料處理流程 (Extract, Load & Transform, ELT),整合不同來源的資料建構資料倉儲 (data warehouse),並將其提供給產品團隊或資料分析團隊做使用。過去也曾擔任過資料分析師,將資料轉換為有價值的洞察,協助企業制定決策。

圖/在全球智慧開店平台 Shopline 任職資料工程師。簡書廷提供。

求學過程

回顧當初走上資料科學的契機,是在大二修工程統計學時,在課堂中教的統計方法與分析資料背後的洞察關聯,令簡學長心中產生對於資料科學的好奇心。學士畢業後,在思考研究所推甄的方向時,喜好資料科學的傾向讓學長在土木系的七個組之中選擇了交通組,這個較有機會運用資料分析手法做研究的組別。在研究所的期間,學長接觸了作業研究和最佳化分析等理論,之外還修了心理系的多變量分析和程式語言,透過這些跟資料處理與用數學方法解決問題有關的手法,幫助自己對於資料分析有更深刻的了解。

從土木工程轉向資料科學領域並非易事,然而憑藉過去在土木系獲得的數理能力訓練,加上額外的投入和努力,簡學長在職涯跑道轉換上跨過第一個挑戰:在服完兵役後,簡學長順利找到一份新創公司資料分析師的工作,至今也已累積逾四年的資料科學職涯經驗。

淺談資料科學

先談談資料科學,資料科學是一門涵蓋多個領域的跨學科領域,它結合了資料分析和資料工程技術,為了從各種資料中萃取有價值的訊息和洞察。資料分析是這個領域的核心技巧之一,它運用統計學的廣義技巧,透過對資料進行量化和分析,來發現隱含的規律和趨勢。這些統計學方法包括數據探勘、機器學習和深度學習等,它們可用於預測、分類和優化等各種資料驅動的任務;資料工程在資料科學中也扮演著重要的角色,它涉及將原始資料進行處理、轉換和整合,使其變得更容易被分析和理解。資料工程師將資料進行架構上的轉換,包括結構化的資料和非結構化的資料。結構化資料是指具有固定格式和組織的數據,例如關聯式數據庫中的表格;而非結構化資料則是指缺乏固定格式的數據,例如文本、圖像和音頻等。資料工程師使用各種工具和技術,如資料庫設計和大數據處理技術,以確保資料的完整性、一致性和準確性。

資料科學和交通組的異同

前文提到的交通組研究過程跟資料科學有相似的地方,彼此都有用到資料分析和資料工程的技術來幫助分析數據來得到結論。交通領域與商業上遇到的資料科學問題有著不同之處,最明顯的差異是資料的可及性,交通領域可能受限於法規或者資料來源的管控,資料的運用限制較多,而業界若是取用內部 (inhouse) 的資料庫,則運用的彈性較高。此外在分析對象上,交通領域從旅行者行為出發,旅客的選擇跟一般的消費者相比選擇的對象相對有限,譬如:想快速地往返台北與高雄,唯一的選擇只有高鐵,在較偏遠的鄉鎮間的移動,軌道運輸系統基本上只剩台鐵,而以電商消費者為例,在網路平台消費時擁有的選擇可說是五花八門。這樣的差異進而導致在資料的運用上的著重點不太相同,交通領域上需以服務大眾為導向,商業則以市場反應為導向。但廣義上,交通組的議題研究可視為資料科學的子集。

資料科學常用的技巧

在處理資料時,常碰到需要處理大量數據的情況,這時便需要使用 SQL [1]來協助自己查詢資料,不太建議只使用 Excel因為它能處理的資料量級有極限(最多上百萬筆資料,但實務上在分析時常是千萬以上的量級)。在資料處理的流程上常使用 Airflow [2]來幫助流程管控與自動化處理(當流程被排定時,一些重複且定時執行的過程便可交給電腦)。

接著我們來看簡學長在業界曾經處理過的一個挑戰性任務 ─ 廣告媒合平台上的廣告案與網紅合作價碼的匹配。在這個專案中需要設計一個模型來幫助判斷不同類型的網紅報價與廣告案件的對應價格,這涉及到店家端(開案者)、網紅端(接案者)及案件本身的屬性,要從龐大的歷史資料以及複雜多維度的資料之中找到適合的參數與權重,需要資料工程的基礎搭建將所有可取得的資料整理成易於分析的樣態,在資料庫中的資料依參數分門別類,運用統計學、多變量分析搭配領域知識 (domain knowledge)等方式,找出彼此的關聯並試著把他們的關係降維(減少變數個數),最後運用機器學習產出預測模型。在技術面上就算是暫時告一段落了,但資料科學家 (data scientist) 還需要與決策團隊講述研究成果,確保產出能夠成為軟體產品服務的一環。這就有賴溝通能力和陳述能力,使不同背景的夥伴也能理解並接受你的成果。

圖/利用工作之餘擔任商管學生社團的 SQL 講師,講解資料庫基本觀念。簡書廷提供。

資料科學的影響

簡學長相信資料本身具有價值,而資料科學可以通過將這些資料應用到產業中,增加效率並影響決策。他認識到商業和學術領域對於資料科學的應用有著不同的需求和目標,但都需要資料科學的手法幫助分析現有的成果。簡學長對資料科學的未來發展持樂觀態度,相信資料科學將逐漸被越來越多的產業所重視,並將對商業與其他領域的決策產生更大的影響,但同時個人資訊安全與資料收集的衝突將成為一個重要議題,人們將更加關注資料的隱私保護和安全問題。

給想走資料科學的建議

如前所敘,除了數理能力及軟體技術外,在資料科學場域上發揮時,還需要針對特定領域的背景理解,了解相關的議題是很重要的,正如當初簡學長在修許聿廷教授的都市運輸規劃時,針對高速公路收費員裁撤與電子收費 (ETC) 的衝突,蒐集了正反兩方的論點與佐證進而對於運輸領域有了更多認識。

在業界服務的這幾年,簡學長也表示多與產品經理、業務和客戶經理互動能幫助自己快速累積領域知識。從他們第一線與使用者互動的經驗確實能幫助自己掌握資料分析問題的背景與前提。例如前述的合作價格預估專案,業務透過經驗法則即能大略掌握概況,有了這樣的經驗談,我們對於資料的理解就能大大躍進。

此外資料科學也是個快速發展的領域,如果要等到出成書之後再去看就有些過時了。因此簡學長建議可多透過社群或線上線下的交流會,多和在第一線從事資料領域的人交流彼此對於資料應用的觀點,或許能多激起一些新想法,並更加瞭解業界對於資料科學的職能需求點。

圖/在 ccClub (臺灣攜曦程式推廣學會) 交流會上分享資料科學職涯經驗。簡書廷提供。

結語

從這次的訪談中,我們看見簡書廷從交通領域到資料科學的跨界之路展現了勇於探索、持續學習和解決問題的堅持。他在工作與業餘時間自學所逐步累積專業知識和技能,使他在資料科學領域逐漸站穩腳步。他的故事啟發著更多的人,去追尋自己的興趣和夢想,在不同領域中尋求出色的表現。

 

[1] 是一種用於在互相關聯的資料庫中儲存和處理資訊的程式設計語言

[2] 是以Python寫成的工作流程管理系統(Workflow Management System)