NLPIR平台实现文本聚类的实际应用

文本聚类的实现是建立在著名的聚类假设上：同类的文档相似度较大，不同类的文档相似度较小。作为一种典型的无监督式机器学习方法，聚类方法的选择取决于数据类型。首先，文档聚类发现与某文档相似的一批文档，帮助知识工作者发现相关知识；再着，文档聚类可以将一类文档聚类成若干个类，提供一种组织文档集合的方法；然后，文档聚类还可以生成分类器以对文档进行分类。

作为无监督的机器学习方法，由于不需要训练过程和预先对文档手工标注类别，文本聚类有着较高的灵活性和自动化处理能力，这些特性也使得其成为对文本信息进行有效地组织、摘要和导航的重要途径。在实际应用中，文本聚类可用于提供大规模文档内容总括：识别隐藏的文档间的相似度；减轻浏览相关、相似信息的过程。

NLPIR大数据语义智能分析平台是一个全链条的分析工具，完全本地化部署，不上传用户数据，安全可靠。融合了网络精准采集、自然语言理解、文本挖掘和网络搜索的技术，提供客户端工具、云服务以及二次开发接口，包含了大数据背景下有关语义分析的各个环节的工具，无论对没有任何编程背景但要大量处理语言、媒体信息的文科生辅助处理分析，还是对需要二次开发才能完成特定领域的信息服务都可以满足要求。平台先后历时20年，融入了20年的科研成果。服务了全球40万家机构用户和100余家高校用户，免费给研究人员从事研究工作。

　　NLPIR文本聚类模块是基于相似性算法的自动聚类技术，自动对大量无类别的文档进行归类，把内容相近的文档归为一类，并自动为该类生成标题和主题词。基于文章集合核心语义理解技术，不仅聚类速度快，而且准确率高，并能自动得到类别间的演化趋势。其能够从大规模数据中自动分析出热点事件，并提供事件话题的关键特征描述，适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用，能够实现长文本和短信、微博等短文本的热点分析。使用NLPIR平台的文本聚类模块进行分析，能够查看同属一个类别的多个文件。聚类详情文件名称包含：聚类特征词、媒体来源与新闻标题。

ljrj123

标签

值得推荐