多文本统计 - 文本对比分析工具

正在加载分词引擎，请稍候...

🗂️ 上传多个文本

选择或拖拽文件

支持 TXT / MD / DOCX，批量导入会自动合并内容进行统计

Top N 词汇数

最小词长 (2)

Top N 排序依据

IDF 计算公式

余弦向量模式

过滤停用词

停用词词典

自定义无意义词

同义词归一化（哈工大同义词词林）

开启后会根据哈工大同义词词林扩展版，将同义词统一为代表词参与统计。

启用自定义同义词

只保留名词/动词/形容词

📁 已导入文档

暂未导入文档，选择文件后将自动列出。

#	文件名	字符数	大小

📈 汇总指标

文档数量

0

字符总数

0

词汇总数

0

独立词汇

0

🔝 高频词分布

词频柱状图

Top N 词汇列表

🧠 文档 TF-IDF 关键词

展示每篇文档的关键词权重（TF-IDF）。

🔁 独有 / 共用词汇

自动对比每篇文档的独有词汇，以及全部文档都出现的共用词。显示数量为TopN设置数量。

独有词汇仅与基准文档对比

开启后，“文档独有词汇”只统计相对于所选基准文档未出现的词。

📐 文本余弦相似度

计算不同文本之间的余弦相似度，值越接近 1 表示文本越相似。

🧩 LDA 主题分析

对全部导入文档执行 LDA，输出主题分布与关键词。

主题数量

每个主题关键词

🔎 Word2Vec 词相似度

输入一个已出现的词汇，基于共现关系推荐语义相近的词。

查询词