黃分隨筆

中文斷詞（又稱「中文分詞」）是將一段連續的中文文字切分為一個個有意義的詞語的過程，這在資訊檢索、自然語言處理（NLP）和語料庫分析等領域非常重要。由於中文不像英文有明顯的空格分詞，因此斷詞是一個基礎又關鍵的技術。

一、中文斷詞的方法分類：

使用預先定義好的詞典，從字串中找出匹配的詞語。
代表演算法：最大匹配法（MM）：
- 正向最大匹配（Forward Maximum Matching, FMM）
- 逆向最大匹配（Backward Maximum Matching, BMM）

原句：「我愛自然語言處理」
詞典：我、愛、自然、語言、處理
正向分詞：「我 / 愛 / 自然 / 語言 / 處理」

工具名稱	特點	語言
jieba	Python編寫，易用，支援三種模式（精確、全模式、搜尋引擎模式）	Python
THULAC	清華大學開發，分詞速度快，支援詞性標註	C++ / Python
Stanford NLP	支援繁簡中文，基於統計模型（CRF）	Java
pkuseg	北大開發，針對不同領域有專屬模型	Python
CKIP Tagger	中研院詞庫，繁體中文斷詞	Python (支援繁體，準確率高)

import jieba

text = "我愛自然語言處理"
words = jieba.cut(text, cut_all=False)  # 精確模式
print(" / ".join(words))

輸出：

我 / 愛 / 自然語言 / 處理

若你處理的是繁體中文，建議使用：