top of page

Anaconda 環境建置

當進行專業實習報告,並探討求職詐騙識別的研究主題時,我們需要建立和測試多種模型。每個模型可能對環境配置有不同的要求。為了避免因不同套件版本之間的衝突而引發錯誤,我們選擇使用 Anaconda 來管理和配置這些環境。Anaconda 可以有效解決套件版本衝突問題,並且在需要時能夠方便地重建環境,這在開發過程中非常重要。 

 

我們也遇到了 CKIP 不支援最新版本 Python 的問題,為了解決這個問題,我們降低了 Python 版本至 3.8。這樣一來,我們可以確保 CKIP 在我們的環境中能夠正常運行。透過 Anaconda 管理環境,我們能夠輕鬆創建具有特定套件版本的獨立環境,並在不同專案或需求下使用不同的 Python 版本和套件配置,而無需擔心版本衝突問題。這使我們能夠更靈活地進行實驗和測試,同時保持開發過程的穩定性。 

CKIP斷詞 

通過學習和使用這些 CKIP 的程式碼,我們從中了解到了: 

  1. 文本預處理: 學會了如何處理原始文本資料,包括使用字串替換操作來清理文本中的雜訊資料。並了解如何使用 CKIP 提供的分詞器 CkipWordSegmenter 對中文文本進行分詞處理,將文本轉換為詞清單。也學習了如何使用 CKIP 提供的詞性標注器 CkipPosTagger 為分詞結果添加詞性標注資訊。並掌握了如何根據特定規則(例如移除單個字元的詞)清理分詞和詞性標注後的結果,提高文本資料的品質。 

  2. 自然語言處理工具的使用: 了解並實踐了如何使用 ckip_transformers 庫中的分詞器、詞性標注器和命名實體識別器。 

機器學習

在我們的研究中,我們採用了邏輯回歸(Logistic Regression)、高斯貝氏(Gaussian Naive Bayes)、隨機森林(RandomForest)和決策樹(Decision Tree)這四種分類模型,並對它們的表現進行了詳細評估。為了全面了解每個模型的性能,我們使用了多種評估指標,包括精確度(Precision)、召回率(Recall)、F1分數(F1 Score)、準確率(Accuracy)和ROC AUC分數(ROC AUC Score)。 

深度學習

我們目前正在深入學習一些深度學習技術,如卷積神經網路(CNN)和雙向編碼器表示(BERT)。這些技術在自然語言處理和圖像識別等領域表現出色,我們希望通過掌握它們來進一步提升求職詐騙識別的能力。 

bottom of page