GBDT+LR
概述 GBDT的加入,是为了弥补LR难以实现特征组合的缺点。 LR LR作为一个线性模型,以概率形式输出结果,在工业上得到了十分广泛的应用。 其具有简单快速高效,结果可解释,可以分布式计算。搭配L1,L2正则,可以有很好地鲁棒性以及挑选特征的能力。 ...
概述 GBDT的加入,是为了弥补LR难以实现特征组合的缺点。 LR LR作为一个线性模型,以概率形式输出结果,在工业上得到了十分广泛的应用。 其具有简单快速高效,结果可解释,可以分布式计算。搭配L1,L2正则,可以有很好地鲁棒性以及挑选特征的能力。 ...
一、概述 网络表示学习(Representation Learning on Network),一般说的就是向量化(Embedding)技术,简单来说,就是将网络中的结构(节点、边或者子图),通过一系列过程,变成一个多维向量,通过这样一层转化,能够将复杂的网络信息变成结构化的多维特征,从而利用机器学习方法实现更方便的算法应用 ...
聚类与分类的区别 分类:类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。属于监督学习。 聚类:事先不知道数据会分为几类,通过聚类分析将数据聚合成几个群体。聚类不需要对数据进行训练和学习。属于无监督学习。 ...
01 全连接网络 全连接、密集和线性网络是最基本但功能强大的架构这是机器学习的直接扩展,将神经网络与单个隐藏层结合使用。全连接层充当所有架构的最后一部分,用于获得使用下方深度网络所得分数的概率分布。 ...
简介 在推荐、搜索、广告等领域,CTR(click-through rate)预估是一项非常核心的技术,这里引用阿里妈妈资深算法专家朱小强大佬的一句话:“它(CTR预估)是镶嵌在互联网技术上的明珠”。 ...
介绍 FM和FMM模型在数据量比较大并且特征稀疏的情况下,仍然有优秀的性能表现,在CTR/CVR任务上尤其突出。 本文包括: - FM 模型 - FFM 模型 - Deep FM 模型 - Deep FFM模型 FM模型的引入-广告特征的稀疏性 FM(Factorization machines)模型由Steffen Rendle于2010年提出,目的是解决稀疏数据下的特征组合问题。 ...