乐搏现金彩票_彩票注册网址_乐博现金彩票游戏

国内更专业
织梦模板下载站

实例:“在我的信用报告上有过时的信息

  分类器和进修算法不克不及以他们本来的形式间接处置文本文件,他们大大都需要有固定大小的数字特征向量而不是带有变量长度的本来的文本文件。因而,在预处置的阶段文本将被转成更益处理的表达体例。

  为了锻炼有监视的分类器,我们起首将“消费者赞扬陈述”转化为数字向量。我们开辟了雷同 TF-IDF 权值向量的向量暗示。

  特别是我们数据集的每个术语,我们将计较一种被称为术语频次的丈量方式。逆文档频次,缩写成tf-idf。我们将利用 sklearn.feature_extraction.text.TfidfVectorizer 给每个消费者赞扬陈述计较一个 tf-idf 向量:

  大大都的预测最终呈现的是对角线(预测的标签 = 现实的标签),恰是我们想要的。然而,仍是有很多的误分类,看看他们是由什么惹起的也许蛮成心思的:

  在获得文本的向量暗示后,我们能够锻炼有监视的分类器来锻炼看不见的“消费者赞扬陈述”和预测“产物”将落在哪个分类。

  此刻,每 4569 个消费者赞扬陈述由12633个特征暗示,代表分歧的一元和二元语法的 tf-idf 分数。

  然后我们利用 chi-squared test 来寻找与每个目次最相关的术语:

  线性支撑向量机和逻辑回归比其他两种分类器表示更好,线性支撑向量机有一个小劣势,它具备 82% 摆布的精确率。

  ngram_range 设置为) (1,2)来表白我们同时考虑一元语法和二元语法。

  我们此刻能够用分歧的机械进修模子来做测试了,评估他们的精确度和寻找任一潜在问题的泉源。

  我们将在消费者赞扬陈述栏删除无赋值的,而且添加一栏编译该产物作为一个整数值,由于凡是分类属性变量用整数比用字符串代表要好。

  实例:“在我的信用演讲上有过时的消息,我之前对该信用演讲有争议,该项消息记实该当被删除,该消息是7年多之前的而且不合适信用演讲的要求。”

  在贸易范畴有良多文天职类的使用,好比旧事故事凡是由主题来分类;内容或产物常常被打上标签;基于若何在线谈论产物或品牌,用户被分成支撑者等等。

  一个从文本中提取特征的常用方式是利用词汇模子袋:一种给每个文件,在我们的例子中的赞扬陈述,词汇的呈现(凡是是频次)将被考虑进去,但这些词汇呈现的挨次是被忽略的。

  继续我们最好的模子(线性支撑向量机),我们看下混合矩阵,展现下预测的和现实的标签之间的差别。

  然而大部门的文天职类文章和网上教程是二进制的文天职类,像垃圾邮件过滤(spam vs. ham)、感情阐发(积极的和消沉的)。在大量实例中,我们现实世界的问题要比这些复杂的多。因而,这是我们今天要做的:将消费者的财政赞扬分成12个预定义的类。这些数据能够从 data.gov 下载。

  你能够看到,文本分类数据集一些误分类的赞扬是一些跟不止一个主题相关的赞扬(好比,包罗信用卡和信用演讲的赞扬)。这种错误将不断发生。

  鉴于新的赞扬的到来,我们想将它归到12个分类目次中。分类器使得每个新赞扬被归类到一个仅且一个类别中。这是一个多类文天职类问题。我曾经火烧眉毛地想看下我们完成的成果。

  我们看到每个产物的赞扬数值不均衡。消费者的赞扬多针对索回债款、信用演讲和衡宇典质贷款。

  当我们碰到问题时,我们会用尺度算法处理这些问题。保守的算法常常倾向于大大都的分类,并不会将数据分布考虑进去。最糟的环境,少数的分类被当做非常值被忽略了。在一些例子中,像欺诈侦测和癌症预测,我们将细心设置我们的模子某人工均衡数据集,好比通过欠采样和过采样每个类。

  我们的问题是有监视的文天职类问题,方针是查询拜访哪一种有监视的机械进修方式最适于处理该问题。

  上述所有这些数据转化后,此刻我们有了所有的特征和标签,是时候来锻炼分类器了。针对这品种型的问题,很多算法可供我们利用。

  然而,在我们的进修不服衡的数据的例子中,我们会将乐趣点放在占少数的的分类上。在大大都分类上具有高精确率的分类器是令人对劲的。然而针对占少数的分类也该当连结合理的精确度。就如许吧。

  在投入锻炼机械进修模子前,我们该当先看一些实例以及每个类别中赞扬的数量:

分享:

评论