在线信息熵计算器

标签计算器

输入内容

数据类型

数据格式

计算类型

底数

结果精度

当前熵值：

熵值范围： -

熵值分布表格

序号	数据	出现次数	总次数	概率	贡献熵值

在线信息熵计算器-工具简介

在线信息熵(香农熵)计算器，支持计算二进制数据、文本数据、概率分布的信息熵，支持设置对数底数为2, e, 10 。支持设置结果精度。

在线信息熵计算器-使用说明

信息熵（又称香农熵）是信息论的核心概念，由克劳德·香农在1948年提出，用于量化信息的不确定性或随机性。它解决了“信息究竟有多少”的量化问题。信息熵衡量的是一个信息源（或随机事件）的平均不确定性。
熵值越高，表示系统的不确定性越大，随机性越高，越难以预测；
熵值越低，表示系统越有序，确定性越高。

输入内容：输入需要计算熵的数据。
数据类型：选择输入的数据或者打开的文件的数据类型。本工具支持以下三种数据类型：
1. 二进制数据：数据的数据或者打开的文件，为二进制数据。
2. 文本数据：输入的数据或者打开的文件，为字符文本。
3. 概率数据：输入的数据或者打开的文件为概率数据。概率数据的格式为逗号分隔的数值。每个概率都要大于0，小于等于1。所有概率的和为 1。
数据格式：当数据类型为二进制数据时，选择输入的二进制数据的格式，支持 hex 和 base64 格式。
计算类型：当数据类型为二进制数据时，选择计算比特级别的熵还是字节级别的熵。比特级别的熵值的范围为 0 <= H <= 1 (以 2 为底时)。字节级别的熵值的范围为 0 <= H <= 8 (以 2 为底时)。
底数：选择熵值计算的底数。本工具支持以下三个底数：
1. 2：计算的熵值单位为比特,bit。常用于计算机科学、通信工程、电子学等，是最常用的单位，符合二进制系统。
2. e：计算的熵值单位为奈特,nat。常用于理论推导、数学领域，有时在公式简化上更有优势。
3. 10：计算熵值的单位哈特,Hart。较少使用。
计算方式：H(x) = -∑P(x_i)log(b,P(x_i)) (i=1,2,..n) 。其中 P(x_i) 为 x_i 出现的概率，b 为对数底数，决定了熵的单位。熵的最大值 H_max = log(b,N)，其中 b 为对数底数，N 为所有可能的值的数量。
根据信息论研究，在不考虑上下文时（零阶熵），中文文本的熵约为 9.5~9.7 比特/汉字；考虑上下文依赖后（高阶熵），实际熵可降至 5~6 比特/汉字甚至更低。英文文本的熵约为约 4.0 - 4.7 比特/字母。
当输入数据为文本数据时，如果输入文本全部为 ASCII 字符，则最大熵值为 log(b,128) 。如果输入文本全部为中文字符，则最大熵值为 log(b,6763) (GB2312 中文字符数量)。其他情况则不计算最大熵值。

简体中文