top of page

題目發想

在實習開始之前我們參加了大專校院資訊應用服務創新競賽,並請教授指導我們比賽的相關企畫的內容,在選擇競賽題目時,由於我們參加的組別會使用到商業的開放資料,教授認為求職詐騙剛好可以跟這個結合在一起,加上詐騙手法的日益更新,所以我們覺得可以做一個關於辨別求職詐騙的系統,目的在保護求職者的利益,減少詐騙事件的發生。但在競賽時我們只有做出一個雛形,背後的資料跟程式碼尚未完善,所以在meeting發想專題題目時,教授就建議我們或許可以延續比賽時的主題繼續做下去,但也給我們充足的時間是否有更好的題目。經過一段時間的討論跟思考後,我們決定繼續將比賽時所發想的辨識求職詐騙作為我們的專題題目。

規劃時程 

01.

2月到3月初: 準備題目,事前討論與學習

02.

3月到4月: 蒐集600筆資料集、機器學習初探 

03.

5月: 實作機器學習方法 

04.

6月: 學習各個深度學習的方法 

05.

7月之後:繼續完善及實踐

計畫目標 

  1. 蒐集並標註求職相關資料,包括真實訊息和詐騙訊息

  2. 使用CKIP斷詞系統對資料進行斷詞處理

  3. 探索並實作機器學習和深度學習方法,訓練求職詐騙識別模型

  4. 評估各種模型的準確度、精確度、召回率、F1分數和ROC AUC分數,選擇最優模型 

整理詐騙判斷依據 

A、判斷是詐騙 

  • 薪水太高(行業平均薪資*1.5)+無經驗門檻(無須特殊專長) 

  • 要銀行卡、銀行帳戶 

  • 確認是詐騙LINE帳號 

  • 提供資訊不足

    • 聯絡方式很少(只有line帳號、沒有行動電話) 

    • 提供資訊太少(無具體公司位置、名稱) 

  • 與公司描述不符 

    • 公司統編有問題,登記的公司與職稱所描述的不相符 

    • 刊登職位與公司性質不符合 

  • 有詐騙關鍵字 

    • 無事尾

    • 保證合法 

    • 不是詐騙、很安全 

  • 使用非台灣標準文字,如簡體中文等等 

  • 色情、博奕、家庭代工等詐騙高危行業 

B、判斷不是詐騙 

  • 相同的聯絡資訊,有刊登在104、1111、518、小雞上工 

  • 提供電子郵件是公司的電子郵件 

  • 提供市話 

  • 提供詳細資訊,例如地址、連絡電話、工作需求等 

尋找詐騙資料集 

為了建立一個有效的求職詐騙辨識系統,我們首先需要大量的數據作為訓練和測試資料。因此,我們計劃先收集600筆相關資料,這些資料包括真實的求職訊息和已確認的詐騙訊息。我們將通過人工蒐集過濾從各大求職平台、社交媒體以及相關報導中獲取這些資料(如圖3),並對其根據我們所整理的詐騙依據進行分類及標註。 

image.png

程式進度(ckip斷詞+分類) 

目前,我們將 CKIP 繁體中文斷詞系統 與 機器學習的分類模型 做結合,來進行文本分類的研究。目的是自動分析文本內容,並根據其內容分類為詐騙或非詐騙資訊。整個過程包括資料讀取與處理、CKIP斷詞、特徵提取以及機器學習分類模型的應用與評估。 

實驗結果 

在分析第2次結果的部分,我們對不同機器學習分類模型的表現進行了詳細評估,使用了12Fold交叉驗證來測試每個模型的精確度、召回率、F1分數、準確率和ROC AUC分數。以下是各個模型的詳細表現: 

image.png
bottom of page