A Job Scam Detection Model Based on Social Media Data
基於社群數據的求職詐騙訊息辨識模型
摘要
求職詐騙已成為現代社會中的嚴重問題,隨著網路成為求職者與雇主溝通的主要管道,詐騙手法也不斷演變,從高薪誘惑到隱藏陷阱,受害者往往在不知情中遭受經濟損失或成為非法行為的工具。根據統計,台灣的詐騙案件逐年增加,尤其是假求職詐騙,受害者多為年輕人或社會新鮮人。現有的防詐技術如隨機森林、SVM等雖然在偵測上有良好的表現,但針對求職詐騙的研究相對較少。本專題計畫結合政府公開資料、社群媒體評論、機器學習深度學習模型,開發一個求職詐騙偵測平台,以協助求職者辨別職缺真實性,提升應徵過程的安全性。
研究動機與問題
求職詐騙已成為現代社會中的重大問題。隨著網路成為求職者與雇主溝通的橋樑,詐騙者利用技術和心理手段創新各種誘騙方式來吸引求職者應徵虛假職位,通常伴隨誇大且具吸引力的承諾,如「輕鬆高薪」、「無經驗門檻」、「彈性工作時間」等,誘使求職者提交個人資料或匯款,甚至在不知情下被迫從事非法活動。根據刑事局統計,2022年全台詐騙案件達3萬件,其中「假求職」詐騙案件達887件,比前一年增長61%,造成的財務損失增加36%(警察廣播電台新聞科, 2023)。在此類案件中,約80%的受害者為20至60歲的勞動人口,特別是青少年和學生,由於缺乏社會經驗且有兼職需求,成為詐騙集團的主要目標(謝東明, 2023)。詐騙手法包括租借帳戶、高薪面談時沒收證件等,甚至對受害者進行身體控制,突顯了求職詐騙的嚴重性與多樣化,使求職者在求職過程中更感到焦慮不安。
目前,台灣針對金錢詐騙、網路釣魚等常見詐騙形式已有多項防範措施,並透過政府宣導提升民眾警覺。學術界也對各類詐騙偵測技術進行研究,例如,Bhattacharyya et al.(2011)利用隨機森林和支持向量機(SVM)等演算法檢測信用卡詐騙,研究顯示隨機森林在不同欠採樣情況下的偵測效果更穩定,特別是在高文件深度上,能有效捕捉詐騙案例。此外,Sahingoz et al.(2019)則利用機器學習演算法(如決策樹、隨機森林、kNN等)來檢測網路釣魚網站,並建立基於NLP特徵和詞向量的偵測系統,顯著提升了釣魚網站的偵測精確度。然而,針對求職詐騙的研究相對稀少。求職詐騙具有高度隱蔽性和針對性,且手法不斷演變,往往利用人們急於找到工作的心理,使受害者難以察覺其中的陷阱。現有防範措施多依賴於提高求職者的自我警覺,但面對詐騙手法的快速變化,僅靠個人警覺已不足以應對所有潛在風險。
本專題旨在開發一個求職詐騙偵測平台,透過結合政府開放資料、求職網站與社群媒體評論等相關資源和職缺描述來強化偵測能力。我們使用的政府開放資料集,如金管會證期局的上市、上櫃公司基本資料,以及經濟部商業司的商業登記資料,這些資料經過政府審核和驗證,具有高度的準確性和公信力。此外,求職網站與社群媒體上的評論,以衡量徵才公司的電子口碑(eWOM)。透過這些資料,平台可分析公司是否符合合法性條件,例如公司的實收資本額、公司狀態、成立時間、是否為上市櫃公司等,從而協助求職者確認徵才公司的合法性,降低誤入假冒公司名義的風險。
在偵測職缺內容是否存在詐騙風險的過程中,我們利用機器學習和深度學習技術進行多方分析。為了建立訓練數據集,本專題收集了多元來源的資料,包括600筆來自臉書的求職資訊及200筆來自其他求職平台的資料,其中一半是確定的詐騙案例,另一半為合法職缺。根據常見的詐騙手法,我們列出多項判斷依據,並在資料收集後進行清理,以確保數據的準確性和完整性,隨後針對求職內容進行斷詞處理,以利後續文本分析。
在模型訓練和測試中,我們採用了Logistic Regression、Gaussian Naive Bayes、Random Forest和Decision Tree等機器學習方法,並透過交叉驗證和測試集進行評估,以準確率、精確率和召回率等指標衡量模型表現。這些傳統機器學習方法構成初步模型,隨後我們進一步引入BERT模型,利用其深度語言理解能力捕捉詐騙訊息中的隱藏語意模式,進一步提升平台的偵測效能。
求職詐騙偵測平台結合了政府開放資料、求職網站和社群媒體評論,讓求職者在應徵時可參考多元資訊來源,不僅確認公司合法性,還能檢視其他用戶的評價,並通過機器學習和深度學習模型即時分析職缺描述的可信度,在檢測到潛在詐騙風險時發出警告,協助求職者及早察覺異常,降低受害風險。希望通過此平台,求職者能夠在求職過程中更安全地找到心儀的工作機會,促進更透明和可信的求職環境。
文獻回顧與探討
隨著數位求職平台的普及和求職詐騙手法的日趨隱蔽,透過科技手段有效辨識詐騙職缺已成為重要的研究課題之一。機器學習與深度學習技術的應用在此領域快速增長,並在準確率、精確度、召回率和F1分數等多項指標上進行比較和優化,力求提升辨識效果。
(1) 機器學習在求職詐騙偵測中的應用
機器學習模型的應用被廣泛用於求職詐騙訊息的分類中,效果顯著。Mouri et al. (2023) 比較了隨機森林、樸素貝葉斯、邏輯迴歸和決策樹等模型的偵測表現,其中隨機森林的準確率最高,達97.16%。Dutta et al. (2020) 的研究也驗證了隨機森林模型的穩定性,在準確率98.27%及均方誤差僅為0.02的指標上表現出色,顯示其在求職詐騙偵測中的潛力。此外,Naudé et al. (2023) 研究了詞袋模型與TF-IDF特徵的效果,發現SVM和SGD模型在這些特徵上表現最佳,其中SVM-tfidf分類器的加權平均F1分數達0.868,顯示在真實求職訊息的偵測上有良好效果。
(2) 深度學習在求職詐騙偵測中的應用
深度學習技術在處理大量且不平衡的求職詐騙數據集時展現出強大潛力。Akram et al. (2024) 發現,BERT和RoBERTa等預訓練模型在詐騙偵測中擁有高準確率,但辨識詐騙職缺等少數類別的召回率較低,因此研究者引入多種SMOTE技術來改善少數類別的識別效果。Akhila et al. (2024) 則使用Bi-LSTM和Bi-GRU模型進行即時虛假職位偵測,其中Bi-GRU三層架構達到98%的準確率,並引入焦點損失函數進一步提升至98.6%,有效應對資料不平衡問題。這些研究證明了深度學習技術在求職詐騙偵測中的應用價值和未來發展的可能性。
系統整體架構
-
查詢介面:透過輸入公司名稱及職缺描述,進行後續求職詐騙分析工作
-
級別顯示及判定:我們根據多個指標來判定求職訊息的合法及安全性,主要分為公司跟職缺描述兩個面向,最後統整成評分表,對整個求職訊息進行評分,並以儀表的型式顯示在分析結果頁面上。
-
公司面向判定:
-
政府公開資料:利用成立時間及狀態、實收資本額、是否為上市櫃公司三項指標來評估徵才公司。
-
成立時間及狀態:根據2017年經濟部中小企業處的資料,新創公司在成立的二到三年之間最容易陣亡,且大多很難撐過五年。而解散、廢止(林詩梅, 2020)的公司未完成清算前,其他公司若使用相同的名稱,表示為違法。
-
實收資本額:根據2021年的資料 (Hennge, 2021),資本額為100萬以下的公司總數佔了全台的76.63%,由此可知台灣大多數公司資本額都不超過100萬,因此以100萬做為資本額高低的閥值。
-
是否為上市櫃公司:上市櫃公司得接受證交所、金管會、NCC等監管單位的定期檢核,因此相較於非上市櫃公司,公司資訊更為豐富可靠。
-
-
社群媒體:透過自然語言處理技術,分析求職網站與社群媒體上的評論,能夠了解公司的網路聲量與口碑。計算出每個公司的電子口碑,反向排序後切為三等份,依序為正向口碑、中性口碑與負向口碑。
-
-
職缺描述:利用事先收集的求職詐騙資料集,其中可以包含真實求職詐騙案例、相關新聞報告、防範宣導文件的彙整分析結果,利用自然語言處理或人工智慧技術,比對職缺描述中是否包含常見求職詐騙手法,來評估職缺內容的可信度。
-
評分儀表:利用不同的燈號來呈現職缺的可靠度,例如,綠色表示A級(80分以上)、黃色表示B級(70分以上)、橘色表示C級(60分以上、紅色表示D級 (60分以下)。
詐騙手法比對
本專題利用從FB等Meta相關應用程式及其他求職平台收集求職文本,並針對這些資料進行標註和清洗,以提升後續分析和機器學習模型的準確性。這過程中,我們依據新聞報導及防詐宣導資料,為求職訊息標記詐騙特徵,如「高薪無門檻」、「要求提供私人資訊」等。此外,透過資料清洗,我們移除重複訊息、無效廣告用詞,並進行文本正規化,最後透過中研院的CKIP Transformers模型完成中文斷詞,確保所使用資料的品質與一致性。此研究為求職詐騙訊息的自動辨識提供了更為可靠的數據支持。
資料蒐集及預處理
1、資料來源: 在本專題中,我們選擇以Meta相關應用程式(如Facebook、Instagram等)為主要資料來源,「網路詐騙通報查詢網」30日統計資料發現,自99.4%詐騙廣告都來自在Meta系統,許多受害者的求職詐騙經驗也多來自這些平台。因此,我們主要從Meta蒐集了600筆資料,並且擴大資料來源至其他求職平台,如台灣事實查核中心、mygopen、cofacts、DCARD等,目的是收集多元平台的詐騙訊息,藉此建立更全面的詐騙樣本資料集,以利於後續的模型訓練和分析,提高求職詐騙辨識的準確性和適用性。
2、資料標註: 我們根據新聞報導、防詐宣導等資料來源,整理出一套用於判斷求職詐騙的依據。特別針對「高薪無門檻」、「要求提供私人資料」等具有詐騙潛在風險的職缺描述特徵進行分類,並依據這些特徵為數據集中的職缺加以標記,辨識出潛在的詐騙資訊。以下是我們針對是詐騙以及不是詐騙的詐騙標準訂立。
-
薪水太高: 根據內政部警政署刑事警察局「防範詐騙五大要點」(刑事警察局預防科, 2023) ,求職詐騙常以過高薪資誘騙求職者。若徵才廣告中的薪資超過該行業平均水平的1.5倍,且對經驗或專業技術無明確要求,則有詐騙風險,目的是誘導更多人上當。
-
要求銀行卡或銀行帳戶:根據警察廣播電臺新聞科 (2023) 的報導表示,求職遇到對方索取「個人銀行帳號」「實體金融卡」以及「密碼」等的行為特徵,就很可能是詐騙行為。
-
確認是詐騙LINE帳號 : 使用警政署與趨勢科技合作的官方LINE帳號(如圖 3)「趨勢科技防詐達人」驗證是否為詐騙帳號。
-
提供資訊不足: 勞動部勞動力發展署北基宜花金馬分署. (2018). 求職防騙守則指出,求職詐騙廣告常以不完整資訊掩蓋真實意圖,若徵才廣告提供的公司資訊不完整(如僅提供LINE聯絡方式、無具體地址或公司名稱),該廣告可能具有詐騙風險。這類訊息通常缺乏真實性,無法證明公司合法性,提供的求職資訊越少,越可能是詐騙。
-
與公司描述不符: 根據宜蘭縣政府警察局礁溪分局. (2024). 反詐欺資訊專欄,許多詐騙廣告會冒用知名公司名義或不符公司性質以迷惑求職者,如登記的公司與職稱描述不符,或徵才職位與公司性質明顯不符,屬詐騙常見手法。
-
有詐騙關鍵字: 根據內政部(2022),在臉書的貼文指出詐騙廣告常使用此類術語 ,用於引導求職者相信職缺合法性,降低警戒心3,以下關鍵字常見於詐騙訊息:
-
使用非台灣標準文字: 若徵才廣告中包含非台灣標準文字(如簡體中文),其可能性較高為詐騙訊息。詐騙集團可能來自海外,使用非台灣標準文字的訊息更應警惕。使用簡體中文等非台灣標準文字的訊息較高機率為詐騙。
-
涉及高危行業: 內政部警政署和嘉義縣警察局報導指出,社群平台上多次出現家庭代工、色情、博弈相關詐騙案例,尤其是在求職高峰期。若徵才職位涉及高危行業,如色情、博弈、家庭代工等,通常詐騙風險高,需謹慎處理。
3、資料清洗: 在對資料進行分析及機器學習前,我們需要對資料進行清洗,由於未經處理的原始資料通常包含許多影響模型表現的雜訊、多餘欄位以及格式不一致的問題。如果直接將這些數據拿來時學習,可能會導致分析結果失真,模型準確性下降。因此,我們需要對資料進行清洗,包括識別並移除或修改錯誤值、重複值、不一致的格式等。這樣做能確保我們在後續分析中資料的可用性。
-
重複資料處理:同一求職訊息可能在不同平台上多次出現,比對並移除重複紀錄,以減少重複資料對模型的影響
-
冗詞與冗句移除:刪除描述中冗長且無實際意義的詞語和句子(例如:商家的廣告用詞等),避免這些無效資訊稀釋關鍵特徵的影響力。
-
文本正規化:消除多餘的空格、標點符號、特殊符號,以保持資料的一致性。
4、斷詞處理 : 在自然語言處理(NLP)領域中,通常文本資料都是以完整的語句所組成,但是對於電腦來說句子含有的大量訊息及複雜結構卻很難被理解,所以需要對資料進行斷詞(Word Segmenter),在這裡我們使用中研院的CKIP Transformers模型,相對現行中文斷詞常使用Jieba斷詞來說, CKIP 針對繁體中文語料進行分析,效果更好。
特徵工程
特徵工程(Feature Engineering),又稱特徵提取或特徵發現,是利用領域知識將原始數據轉換成更有助於模型學習的特徵的過程,目的是優化機器學習模型的預測效果。特徵工程有助於提升資料品質,增強模型在未知數據上的預測性能。主要方法包括特徵轉換、特徵縮放、特徵選擇、特徵提取等。特徵選擇是從眾多特徵中挑選出關鍵特徵,保持其原始形式,而特徵提取則是將重疊或冗餘特徵組合為新的特徵,以實現降維並保留重要信息。這些操作在機器學習模型訓練前有助於提升數據的可用性和模型的準確度。
1、機器學習 :在本專題中,我們選用TF-IDF(Term Frequency -Inverse Document Frequency)作為機器學習中特徵工程的基礎方法。不難看出 TF-IDF 是從一段文字/一個語料庫中,給越重要的字詞/文檔,越高的加權分數來提取特徵,而大致能將 TF-IDF拆分成詞頻(Term Frequency)和逆向檔案頻率 (Inverse Document Frequency)來解釋:
2、深度學習:由於我們在深度學習中使用了BERT模型來進行預測,且BERT模型在特徵工程方面的做法與傳統方法有所不同,因為它是是一種基於Transformer架構的預訓練語言模型,以雙向的方式在上下文中學習單詞語義,能從輸入文本中提取具有語境理解能力的特徵向量,讓詞語根據上下文轉換成符合脈絡的嵌入
模型架構
本實驗架構中,採用了機器學習和深度學習模型來進行求職詐騙訊息的偵測。機器學習模型包含邏輯回歸、高斯貝氏、隨機森林和決策樹,深度學習則是採用中研院的 ckip-BERT 來進行求職詐騙訊息的偵測。
評估指標
-
準確率(Accuracy) = (TP + TN) / (TP + TN + FP + FN) 在所有樣本中,正確預測的比例。
-
精確率(Precision)= TP / (TP + FP) 在所有「預測為詐騙」的樣本中,正確識別的比率。
-
召回率(Recall)= TP / (TP + FN) 在所有「實際為詐騙」的樣本中,正確識別的比率。
-
F 度量(F-measure) = 2 * (Precision * Recall) / (Precision + Recall) 精確率與召回率的加權平均,平衡模型的精度與敏感度。
-
AUC(ROC曲線下面積) 用於衡量模型區分正負樣本的能力,AUC值越高表示模型在不同閾值下的預測效果越好。
結果分析
1、邏輯回歸 (Logistic Regression) :Logistic Regression 在所有評分指標上表現優秀,展現出高準確率和精確率,且ROC AUC值為0.98,顯示出該模型具有很好的區分能力。
2、高斯貝氏(Gaussian Naive Bayes) :Gaussian Naive Bayes 模型在精確度跟準確率上均達到了很高的水準,整體表現出色,預測詐騙訊息效果顯著。
3、隨機森林(RandomForest) :隨機森林模型的各項指標相對平衡,雖然結果略為小於LR跟高斯貝氏,但整體預測結果也相當優秀。
4、決策樹(Decision Tree) :雖然決策樹模型的準確率也相當高,但相較其他模型,整體指標表現相對較差。
5、深度學習
-
同域(In-Domain)結果分析:在同域測試中(例如600 to 600和200 to 200),模型的各項指標表現優異,接近或達到完美。600 to 600:準確率(Accuracy)達到0.9967,並且精確率(Precision)、召回率(Recall)、F1-score均為1,ROC AUC也是1。200 to 200:準確率達到0.995,其他指標也接近完美,顯示模型在訓練和測試數據來自相同domain時具有非常強的預測能力和穩定性。 這些結果表明,當訓練和測試數據來自相同domain時,BERT模型能夠非常精確地識別樣本,並且在過擬合風險可控的情況下達到優異的性能。
-
跨域(Cross-domain)結果分析 :在跨域測試中(例如600 to 200和200 to 600),模型的各項指標出現顯著下降,尤其是在200 to 200的情況下:600 to 200:準確率0.8585、精確率0.8484、召回率0.876,ROC AUC為0.9235,這些指標略低於同域結果,但依然維持在較高水準,顯示模型有一定的跨域泛化能力。200 to 200(另一組數據):準確率0.7572,精確率0.6805,F1-score 0.7999,雖然召回率達到0.9703,但其他指標相比於同域顯著降低,顯示跨域泛化能力在此場景中受到限制。 BERT模型在同域測試中性能非常優異,但在跨域測試中其泛化能力較為有限,尤其是在600 to 200的情況下,模型性能下降較為明顯。這顯示出模型對新domain數據的適應能力不足,需要考慮進一步的domain適應方法,如領域對抗訓練或利用更多標註數據來提升模型的泛化能力。 這樣的分析可以進一步說明在應用BERT模型時,當測試數據與訓練數據分布存在差異時,模型的準確性和穩定性可能會受到影響。
總結 : 綜合各模型在求職詐騙偵測任務中的表現,BERT模型在同平台資料集(同域)測試中表現出色,尤其在600到600和200到200的情境中,準確率、精確率、召回率和F1分數幾乎達到完美水準,這表明BERT在相似數據分布下具有極高的辨識能力。然而,在不同平台(跨域)資料集測試中,BERT模型的性能有所下降,顯示其對於不同資料分布的泛化能力有限。相較之下,邏輯回歸模型在跨域測試中表現更為穩定,尤其在600到200和200到600的情境中依然保持較高的準確率和ROC AUC值。這表明邏輯回歸模型在不同平台數據上的適應性更強,泛化能力相對較好,適合在跨平台或異質數據場景中使用。