通信数码市场

NLPIR平台实现文本聚类的实际应用

0回复 阅读 19

文本聚类的实现是建立在著名的聚类假设上:同类的文档相似度较大,不同类的文档相似度较小。作为一种典型的无监督式机器学习方法,聚类方法的选择取决于数据类型。首先,文档聚类发现与某文档相似的一批文档,帮助知识工作者发现相关知识;再着,文档聚类可以将一类文档聚类成若干个类,提供一种组织文档集合的方法;然后,文档聚类还可以生成分类器以对文档进行分类。

作为无监督的机器学习方法,由于不需要训练过程和预先对文档手工标注类别文本聚类有着较高的灵活性和自动化处理能力,这些特性也使得其成为对文本信息进行有效地组织、摘要和导航的重要途径。在实际应用中,文本聚类可用于提供大规模文档内容总括:识别隐藏的文档间的相似度;减轻浏览相关、相似信息的过程。

NLPIR大数据语义智能分析平台是一个全链条的分析工具,完全本地化部署, 不上传用户数据,安全可靠。融合了网络精准采集、自然语言理解、文本挖掘和 网络搜索的技术,提供客户端工具、云服务以及二次开发接口,包含了大数据背 景下有关语义分析的各个环节的工具,无论对没有任何编程背景但要大量处理语 言、媒体信息的文科生辅助处理分析,还是对需要二次开发才能完成特定领域的 信息服务都可以满足要求。平台先后历时20年,融入了20年的科研成果。服务了全球40万家机构用户和100余家高校用户,免费给研究人员从事研究工作。

  NLPIR文本聚类模块是基于相似性算法的自动聚类技术,自动对大量无类别文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。基于文章集合核心语义理解技术,不仅聚类速度快,而且准确率高,并能自动得到类别间的演化趋势。其能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述,适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用,能够实现长文本和短信、微博等短文本的热点分析。使用NLPIR平台文本聚类模块进行分析,能够查看同属一个类别的多个文件。聚类详情文件名称包含:聚类特征词、媒体来源与新闻标题。

标签

文本聚类
展开全文
一键安装官方客户端
江城热点及时推送 阅读体验更流畅

值得推荐

首页 版块

和武汉妹子交朋友

了解武汉的窗口

在武汉结婚  买房  装修  旅游  购物

用得意生活app有优惠

立即下载