当前熵值:
熵值范围:
-
熵值分布表格
| 序号 | 数据 | 出现次数 | 总次数 | 概率 | 贡献熵值 |
|---|
在线信息熵(香农熵)计算器,支持计算二进制数据、文本数据、概率分布的信息熵,支持设置对数底数为2, e, 10 。支持设置结果精度。
信息熵(又称香农熵)是信息论的核心概念,由克劳德·香农在1948年提出,用于量化信息的不确定性或随机性。它解决了“信息究竟有多少”的量化问题。
信息熵衡量的是一个信息源(或随机事件)的平均不确定性。
熵值越高,表示系统的不确定性越大,随机性越高,越难以预测;
熵值越低,表示系统越有序,确定性越高。
- 输入内容:输入需要计算熵的数据。
-
数据类型:选择输入的数据或者打开的文件的数据类型。本工具支持以下三种数据类型:
- 二进制数据:数据的数据或者打开的文件,为二进制数据。
- 文本数据:输入的数据或者打开的文件,为字符文本。
- 概率数据:输入的数据或者打开的文件为概率数据。概率数据的格式为逗号分隔的数值。 每个概率都要大于0,小于等于1。所有概率的和为 1。
- 数据格式:当数据类型为二进制数据时,选择输入的二进制数据的格式,支持 hex 和 base64 格式。
- 计算类型:当数据类型为二进制数据时,选择计算比特级别的熵还是字节级别的熵。 比特级别的熵值的范围为 0 <= H <= 1 (以 2 为底时)。 字节级别的熵值的范围为 0 <= H <= 8 (以 2 为底时)。
-
底数:选择熵值计算的底数。本工具支持以下三个底数:
- 2:计算的熵值单位为比特,bit。常用于计算机科学、通信工程、电子学等,是最常用的单位,符合二进制系统。
- e:计算的熵值单位为奈特,nat。常用于理论推导、数学领域,有时在公式简化上更有优势。
- 10:计算熵值的单位哈特,Hart。较少使用。
- 计算方式:H(x) = -∑P(xi)log(b,P(xi)) (i=1,2,..n) 。其中 P(xi) 为 xi 出现的概率,b 为对数底数,决定了熵的单位。 熵的最大值 Hmax = log(b,N),其中 b 为对数底数,N 为所有可能的值的数量。
- 根据信息论研究,在不考虑上下文时(零阶熵),中文文本的熵约为 9.5~9.7 比特/汉字;考虑上下文依赖后(高阶熵),实际熵可降至 5~6 比特/汉字甚至更低。 英文文本的熵约为 约 4.0 - 4.7 比特/字母。
- 当输入数据为文本数据时,如果输入文本全部为 ASCII 字符,则最大熵值为 log(b,128) 。 如果输入文本全部为中文字符,则最大熵值为 log(b,6763) (GB2312 中文字符数量)。 其他情况则不计算最大熵值。