基于感知机、KNN、朴素贝叶斯、SVM的文本分类

2024年武汉大学国家网络安全学院机器学习实验课程大作业

本次实验主要研究了KNN、感知机、朴素贝叶斯和SVM四种文本分类算法。

实验数据集为20Newsgroups，其中包含20个类别，共18846个文档。

实验主要从以下几个方面进行：

数据的预处理，包括分词、停用词处理、词频统计等。
KNN算法的实现，研究不同K值和距离度量的影响。
感知机算法的实现，包括基础感知机和多层感知机（MLP）。
朴素贝叶斯算法的实现，研究先验概率和条件概率的计算。
SVM算法的实现，研究不同参数的影响，包括惩罚参数C和核函数类型。
比较四种算法的分类性能。

数据预处理

数据预处理是文本分类的重要步骤，包括以下几个步骤：

分词：将文本划分为单个单词或词组。
停用词处理：移除对分类无用的高频词，如"the", "is", "in"等。
词频统计：统计每个单词在文档中的出现频率。
TF-IDF加权：使用TF-IDF（词频-逆文档频率）对词向量进行加权，提高重要特征的区分度。

KNN算法

KNN算法的关键参数是K值和距离度量。实验分别测试了K=1, 3, 5, 7, 10, 15的不同取值，发现当K在3-7时，分类效果最好。距离度量使用了L1（曼哈顿距离）和L2（欧氏距离）。

代码示例

def knn_test(dataChoice, p, k):
    C = get_class_id(dataChoice + '/v_train')
    trainData, labels = get_data_and_labels(dataChoice + '/v_train')

    t = {}.fromkeys(range(len(C)), 0)
    f = {}.fromkeys(range(len(C)), 0)
    pre = {}.fromkeys(range(len(C)), 0)
    printed=set()
    for i in C:
        if C[i] not in printed:
            print('Test', C[i], '...')
            printed.add(C[i])
        curPath = dataChoice + '/v_test/' + C[i]
        for file in os.listdir(curPath):
            pc = knn_predict(curPath + '/' + file, trainData, labels, C, p, k)
            if pc == i:
                t[i] += 1
            else:
                f[i] += 1
                pre[pc] += 1
    precision = {}
    recall = {}
    f1 = {}
    for i in range(len(C)):
        precision[i] = float(t[i]) / (t[i] + pre[i])
        recall[i] = float(t[i]) / (t[i] + f[i])
        f1[i] = float(2 * precision[i] * recall[i]) / (precision[i] + recall[i])
    return

感知机算法

感知机算法实现了在线学习，通过迭代更新权重向量和偏置项。除了基础感知机外，本实验还实现了多层感知机（MLP），进一步提升了分类能力。

代码示例

def perceptron_train(dataChoice, categories, max_iter, a):
    vAll = nm.txt_to_dic(dataChoice + '/allDic.txt')
    data, labels = get_data_and_labels(dataChoice, vAll, categories)
    w = np.zeros(len(vAll))
    b = 0
    for iter in range(max_iter):
        for i in range(len(data)):
            x = data[i]
            y = labels[i]
            if y * (np.dot(x, w) + b) <= 0:
                delta = np.multiply(a*y, x)
                w = np.add(w, delta)
                b += a*y
    return w, b, vAll

朴素贝叶斯算法

朴素贝叶斯算法计算每个类别的先验概率和条件概率，然后通过贝叶斯规则进行分类。实验中，朴素贝叶斯算法在多分类问题中的表现尤为突出。

代码示例

for c in Dic:
    Nc = nm.get_sum_words(pathLoadChoice + '/' + Dic[c] + '.txt', 0)
    prior[c] = Nc / N

for c in Dic.keys():
    score.append(math.log(prior[str(c)]))
    for t in V:
        if t in vd.keys():
            score[c] += math.log(condprob[int(t)][c])

SVM算法

实验使用了sklearn中的SVM实现，主要测试了不同类别、不同惩罚参数C、不同核函数的影响。实验结果表明SVM在分类性能上优于其他算法。

代码示例

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import f1_score
from sklearn.svm import SVC

def svm_test(category, C, kernel):
    train = fetch_20newsgroups(subset='train', categories=category)
    test = fetch_20newsgroups(subset='test', categories=category)

    vectorizer = TfidfVectorizer()
    v_train = vectorizer.fit_transform(train.data)
    v_test = vectorizer.transform(test.data)

    model = SVC(C=C, kernel=kernel)
    model.fit(v_train, train.target)

    y_true = test.target
    y_pred = model.predict(v_test)

    return f1_score(y_true, y_pred, average='macro')

结论

KNN算法效果与K值和距离度量有关。当K值在3-7之间时，分类效果最好。L2距离度量通常优于L1距离度量。
感知机和SVM算法更适用于二分类问题，其分类准确率可以达到95%以上。SVM通过最大化类别间隔，进一步提高了分类的鲁棒性和准确性。
朴素贝叶斯算法更适用于多分类问题，其分类准确率可以达到80%以上。通过计算先验概率和条件概率，朴素贝叶斯能够有效处理高维数据。
SVM分类效果优于其他算法，在不同参数设置下表现出色，特别是使用线性核函数时效果最佳。
经过TF-IDF加权的词向量分类效果优于简单词频向量，能够提高模型的区分能力和准确性。

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
__pycache__		__pycache__
dataof2		dataof2
dataof20		dataof20
pre_processing		pre_processing
.DS_Store		.DS_Store
README.md		README.md
bayes.py		bayes.py
knn.py		knn.py
mlp.py		mlp.py
perceptron.py		perceptron.py
pic.py		pic.py
svm.py		svm.py
test.py		test.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

基于感知机、KNN、朴素贝叶斯、SVM的文本分类

数据预处理

KNN算法

代码示例

感知机算法

代码示例

朴素贝叶斯算法

代码示例

SVM算法

代码示例

结论

About

Uh oh!

Releases

Packages

Languages

1NormalGuy/ML_test

Folders and files

Latest commit

History

Repository files navigation

基于感知机、KNN、朴素贝叶斯、SVM的文本分类

数据预处理

KNN算法

代码示例

感知机算法

代码示例

朴素贝叶斯算法

代码示例

SVM算法

代码示例

结论

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages