短文本相似性的改进及其在电商评论推荐中的应用

发布时间：2019-04-24所属分类：科技论文浏览：1次

摘要：摘要：在常用评论特征的基础上，提出了一种基于搜索引擎(如百度)的文本相似性方法获取评论与产品标题之间的相似性，并作为新的评论特征建立评论推荐模型。实验证明，引入评论与产品相似性特征可明显改进评论推荐机制的有效性，同时文本相似性评价的准确性可

　　摘要：在常用评论特征的基础上，提出了一种基于搜索引擎(如百度)的文本相似性方法获取评论与产品标题之间的相似性，并作为新的评论特征建立评论推荐模型。实验证明，引入评论与产品相似性特征可明显改进评论推荐机制的有效性，同时文本相似性评价的准确性可以借助搜索引擎得到较大提升。

　　关键词：评论推荐,文本相似性,搜索引擎,点互信息,指派问题

情报科学

　　1引言

　　近年来，凭借在线浏览以及移动支付的便捷性，电子商务持续繁荣，商品评论的重要性日益凸显。据统计，认为可以借鉴评论购买商品的人群占比82%[1]。超过85%的消费者在网上研究或购买大件商品如电子产品和汽车，63%的人选择带有评论推荐的网站[2]。同时，随着用户的急剧增长，评论不可避免地出现了信息过载问题[3]。而研究表明，潜在消费者的购买意愿与信息检索时间成反比[4]，信息采纳程度与用户评论的信息质量成正比[5]。

　　为此各平台先后推出了自己的评论推荐机制，以期提升平台服务质量及经济效益。亚马逊采用评分加互评的方式进行排序，准确率高，但构建时间长，筛选效率有待进一步提升;淘宝根据字数多少、是否有图、是否追评、是否近期、账号等级高低作为标准，没有深度的评价评论内容与意义，存在刷评论的漏洞;京东和当当多了一个管理员的角色，增加后台人工筛选，置顶优质评论，增强了对文本内容的考察，却也增加了新的成本，同时无法消除管理员个体因素的影响。

　　随着文本挖掘的快速发展，评论筛选的研究有了重大进展，筛选效率进一步提升，筛选成本持续降低，平台服务质量也有了较大改善。文献6将所有评论的特征汇总，提出了特征提取规约模型[6]，该种方法简单方便，但未对每个特征下的所有评论进行有效筛选或推荐。文献7从语义层次将意见表达形式分为情感、评判、鉴赏三种类别，依据评论数据价值评价体系，完成评论数据排序[7]，但没有进行验证。文献8运用潜在狄利克雷分布(LatentDirichletAllocation,LDA)获取评论的主题，不过提取的主题词出现交叉[8]。

　　文献9通过支持向量机分析评论中与评论质量相关的多个影响因素[9]。文献10提出的无监督的主题对立情感混合模型综合考虑了评论词语的主题分布与评论本身的情感极性，取得了较好的结果[10]。文献11基于k-means聚类的异常点检测算法，通过剔除不能反映用户需求的评论来提升评论集的质量[11]。不过目前各种方法所选语料库差异较大，所选指标不一致，存在无法进行有效对比的问题。国内外评论排序研究在综合考虑评论整体、单条评论本身、用户特异性等各类变量后，开始偏重建模方法的改进，忽视了即使是同类商品，不同厂家不同型号的产品也存在差异性。

　　同时，部分学者忽略了模型中变量的个数并非越多越好，有时变量之间相关关系的存在会引发多重共线性，反而会影响模型的精度。本文以此作为研究的出发点，认为潜在消费者在搜索产品时带有一定的倾向或目的性。因此，本文增加了“评论与产品标题相似性”作为评论的特征，并对短文本相似性评价方法进行改进。最后，通过具体案例进行验证。

　　2文本相似性分析

　　文本相似性分析指通过对目标文本与测试文本的内容、语法、结构等因素分析，建立算法模型量化评价文本之间的相似程度。可用于解决机器翻译、图书检索、论文查重等实际问题。由于文本相似度评价方法中多用到相关性概念，也有学者将其称为“文本相关性”[12]。将“产品标题”作为目标文本，对应所有“产品评论”作为测试文本，建立文本相似性分析模型可得“评论与产品标题相似性”变量的特征值。

　　2.1问题描述

　　文本相似性方法主要分为基于统计和基于语义规则两类[13]。基于统计的方法简单有效但忽视了词语之间的位置和语义关系，精度不高。基于语义的方法一般通过对语料库进行训练挖掘语义关系，语义关系越明显，精度越高。而电商评论文本长度短、表达随意、非规范化等特点致使评论文本语义关系稀疏，基于语义的方法无法有效适用于电商评论。

　　也有部分学者基于已有的语义知识库或编码规则建立文本相似性评价模型直接应用于短文本，如基于《同义词词林》语义知识库或基于hash码等。该方法避免了短文本语义关系难以识别的问题，但语义知识库具有主观性，且建立过程耗时耗力，精度难以提升。

　　2.2模型建立

　　本文认为搜索引擎(如百度)中不同关键词的相关信息(如共现结果数目)是二者之间语义相关性的综合体现，同时搜索引擎的形成更加客观，因此提出了基于搜索引擎的文本相似性评价(TextSimilarityEvaluationbasedonSearchEngine,SimSE)模型。该模型基于文本信息主要体现在关键词及其权重上的假设，将文本相似性求解分为三部分：a)向量空间模型将非结构化的文本转换成结构化的关键词权重矩阵。b)词语相似度模型求解不同文本的不同关键词之间的相关性。c)文本相似度模型将词语的相关性转化为文本的相关性。

　　3应用分析

　　本文将SimSE方法应用到电子商务评论推荐问题中，以期能建立电商评论的低成本快速推荐模型，进一步提升平台的服务质量，同时验证引入“评论与产品标题相似性”变量对于评论推荐有效性及SimSE方法对于短文本相似性评价的准确率的影响。参考相关论文中所选评论特征和方法[1,3,6,8]，在引入相似性变量前后分别建立评论推荐模型，同时选择不同的文本相似性方法求解评论与产品标题相似性，对各个模型预测结果的对比得出结论。

　　3.1数据概况

　　爬取亚马逊上所有空气净化器产品的基本信息及评论内容，经过数据清洗、删除低赞(<5)及近期评论(<3个月)后，保留相关评论超过200个的单个产品组成评论集，最终得到11种产品的2433条评论。每条评论包含“产品标题、用户名称、用户评分、评论时间、评论正文、配图数量及获赞数”。

　　3.2相关定义

　　评论的有效性：衡量评论本身对于用户行为产生影响的程度。以单条评论所获点赞数为衡量标准。评论特征向量：评论在所选有序特征维度上的取值序列。

　　4结论

　　本文针对评论推荐问题，提出了基于搜索引擎的文本相似性评价方法，并选择更加客观的亚马逊评论获赞数作为有效性的评价指标。实验结果表明，消极情感分值、主题覆盖率、评价时间、功能、图片数量、形容词数量、副形词数量、词性复杂度、评论长度、与产品标题相似性、性价比对于评论的有效性有显著的影响。相似性特征的引入明显提升了评论推荐的有效性，同时证明了SimSE在短文本相似性评价方面更加有效。以上结论对于评论推荐模型的建立及改进具有明显的参考价值，有助于消费者和商家快速找到有用信息，进而提升平台的服务质量。不过应用中的评论推荐模型在低赞评论或同赞评论的筛选上有待改进。

　　参考文献：

　　[1]郭林方.影响在线评论有用性的相关因素研究[D].东北财经大学,2013.

　　[2]刘翔,范娇娇.供应商与客户智能协同决策规则识别研究[J].中国商贸,2013,(6):175-177.

　　[3]余文菇,沙朝锋,何晓丰,等.考虑观点多样性的评论选择问题[J].计算机研究与发展,2015,52(5):1050-1060.

　　[4]李启庚,赵晓虹,余明阳.服务型产品在线评论信息特征对评论感知有用性与购买意愿的影响[J].工业工程与管理,2017,(6):148-153.

　　[5]李雪,刘益,高伟.用户评论信息特征与信息采纳——产品涉入与社区涉入的不同调节作用[J].情报科学,2018,36(11):117-123.

　　[6]HongY,LuJ,YaoJ,etal.Whatreviewsaresatisfactory:novelfeaturesforautomatichelpfulnessvoting[C]//Proceedingsofthe35thinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval.ACM,2012:495-504.

　　[7]曹高辉.基于语义理解的意见挖掘研究[D].武汉大学,2010.

　　相关刊物推荐：《情报科学》曾用刊名：(国外情报科学)，1980年创刊，本着求实创新的理念，始终站在学科研究的前沿，全面反映学科发展的动态，着力突出刊物与时俱进的时代特征，抓住图书情报界的研究热点，刊发了一大批既有理论水平，又有学术影响的重要论文，及时反映了情报学、信息管理、图书馆学等诸领域的最新研究进展。

短文本相似性的改进及其在电商评论推荐中的应用

热门核心期刊

sci|ssci服务

EI|SCOPUS服务

翻译润色解答

论文发表指导

学术成果常识