題目發想
在實習開始之前我們參加了大專校院資訊應用服務創新競賽,並請教授指導我們比賽的相關企畫的內容,在選擇競賽題目時,由於我們參加的組別會使用到商業的開放資料,教授認為求職詐騙剛好可以跟這個結合在一起,加上詐騙手法的日益更新,所以我們覺得可以做一個關於辨別求職詐騙的系統,目的在保護求職者的利益,減少詐騙事件的發生。但在競賽時我們只有做出一個雛形,背後的資料跟程式碼尚未完善,所以在meeting發想專題題目時,教授就建議我們或許可以延續比賽時的主題繼續做下去,但也給我們充足的時間是否有更好的題目。經過一段時間的討論跟思考後,我們決定繼續將比賽時所發想的辨識求職詐騙作為我們的專題題目。
規劃時程
01.
2月到3月初: 準備題目,事前討論與學習
02.
3月到4月: 蒐集600筆資料集、機器學習初探
03.
5月: 實作機器學習方法
04.
6月: 學習各個深度學習的方法
05.
7月之後:繼續完善及實踐
計畫目標
-
蒐集並標註求職相關資料,包括真實訊息和詐騙訊息
-
使用CKIP斷詞系統對資料進行斷詞處理
-
探索並實作機器學習和深度學習方法,訓練求職詐騙識別模型
-
評估各種模型的準確度、精確度、召回率、F1分數和ROC AUC分數,選擇最優模型
整理詐騙判斷依據
A、判斷是詐騙
-
薪水太高(行業平均薪資*1.5)+無經驗門檻(無須特殊專長)
-
要銀行卡、銀行帳戶
-
確認是詐騙LINE帳號
-
提供資訊不足
-
聯絡方式很少(只有line帳號、沒有行動電話)
-
提供資訊太少(無具體公司位置、名稱)
-
-
與公司描述不符
-
公司統編有問題,登記的公司與職稱所描述的不相符
-
刊登職位與公司性質不符合
-
-
有詐騙關鍵字
-
無事尾
-
保證合法
-
不是詐騙、很安全
-
-
使用非台灣標準文字,如簡體中文等等
-
色情、博奕、家庭代工等詐騙高危行業
B、判斷不是詐騙
-
相同的聯絡資訊,有刊登在104、1111、518、小雞上工
-
提供電子郵件是公司的電子郵件
-
提供市話
-
提供詳細資訊,例如地址、連絡電話、工作需求等
尋找詐騙資料集
為了建立一個有效的求職詐騙辨識系統,我們首先需要大量的數據作為訓練和測試資料。因此,我們計劃先收集600筆相關資料,這些資料包括真實的求職訊息和已確認的詐騙訊息。我們將通過人工蒐集過濾從各大求職平台、社交媒體以及相關報導中獲取這些資料(如圖3),並對其根據我們所整理的詐騙依據進行分類及標註。
程式進度(ckip斷詞+分類)
目前,我們將 CKIP 繁體中文斷詞系統 與 機器學習的分類模型 做結合,來進行文本分類的研究。目的是自動分析文本內容,並根據其內容分類為詐騙或非詐騙資訊。整個過程包括資料讀取與處理、CKIP斷詞、特徵提取以及機器學習分類模型的應用與評估。
實驗結果
在分析第2次結果的部分,我們對不同機器學習分類模型的表現進行了詳細評估,使用了12Fold交叉驗證來測試每個模型的精確度、召回率、F1分數、準確率和ROC AUC分數。以下是各個模型的詳細表現: