一、什么是堆
在数据结构中,堆(Heap)是一种特殊的树形数据结构,用数组存储,通常被用来实现优先队列。
堆具有以下特点:
- 堆是一棵完全二叉树(Complete Binary Tree),即除了最后一层外,其他层都是满的,且最后一层的节点从左到右排列。
 - 堆中的每个节点都满足堆的性质,即父节点的值不小于(或不大于)其子节点的值,这种性质被称为堆序性(Heap Property)。 
  
- 最大堆(Max Heap):父节点的值不小于其子节点的值。
 - 最小堆(Min Heap):父节点的值不大于其子节点的值。
 
 - 堆中的根节点(通常是位于最顶层的节点)是堆中的最大(或最小)元素。在最大堆中,根节点的值大于等于其子节点的值;在最小堆中,根节点的值小于等于其子节点的值。
 - 堆不保存节点之间的具体顺序,只保证堆序性。
 - 堆可以用数组来表示,根据节点的索引和父子节点的关系可以计算出节点之间的关系。
 
堆的常见操作有插入(Insert)、删除根节点(Delete Max/Min)和查找最大(或最小)元素。
堆的应用非常广泛,常见的应用包括优先队列、堆排序、图算法(如最短路径算法中的Dijkstra算法)等。通过使用堆,可以高效地在大量数据中插入、删除和获取最大(或最小)元素,时间复杂度为O(log n)。

二、堆的实现
2.1 向上调整算法
2.1.1 思路
以大堆举例:目的是要实现叶子节点要比所有的祖先节点小

- 考虑单次:如果父节点比孩子结点小,则二者交换
 - 考虑循环:
 
- 循环体:交换之后先前的父亲节点与孩子结点的下标值互换,继续进行单次比较交换
 - 结束条件:
一般的情况:如果符合大堆的条件(父节点大于子节点),则可以跳出循环。
最坏的情况:一直交换到了根节点,如果在进行下去数组就会越界,所以下标值应该>=0 
2.1.2 代码
void AdjustUp(int* a, int child)
{
	int parent = (child - 1) / 2;
	while (child > 0)
	{
		if (a[child] > a[parent])
		{
			Swap(&a[child], &a[parent]);
			//下标值互换
            child = parent;
            //重新计算父亲结点的值
			parent = (child - 1) / 2;
		}
		else
		{
			break;
		}
	}
} 
2.2 向下调整算法
2.2.1 思路
以小堆举例:目的是要实现叶子节点要比所有的祖先节点大

- 考虑单次:
 
- 先找到孩子节点中较小的结点
 - 如果父节点比孩子结点大,则二者交换
 
- 考虑循环:
 
- 循环体:交换之后先前的父亲节点与孩子结点的下标值互换,继续进行单次比较交换
 - 结束条件:
一般的情况:如果符合小堆的条件(父节点小于子节点),则可以跳出循环。
最坏的情况:一直交换到了叶子节点,如果在进行下去数组就会越界,所以下标值应该<=n-1 
2.2.2 代码
void AdjustDown(int* a, int n, int parent)
{
	//左孩子的下标
	int child = parent * 2 + 1;
	while (child<n)
	{
		//找到两个孩子中较小的孩子-假设法
		if (child + 1 < n && a[child + 1] < a[child])
		{
			child++;
		}
		if (a[parent] > a[child])
		{
			Swap(&a[parent], &a[child]);
			parent = child;
			child = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
} 
2.3 插入
2.3.1 思路
从物理结构上讲,插入到数组的最后一个位置,然后用向上调整算法调整即可
2.3.2 代码
void HPPush(HP* php, HPDataType x)
{
	assert(php);
    //检测数组是否扩容
	if (php->size == php->capacity)
	{
		int newcapacity = php->capacity == 0 ? 4 : php->capacity * 2;
		HPDataType* tmp = (HPDataType*)realloc(php->a, newcapacity * sizeof(HPDataType));
		if (tmp == NULL)
		{
			perror("realloc fail");
			return;
		}
		php->a = tmp;
		php->capacity = newcapacity;
	}
    //插入
	php->a[php->size] = x;
	php->size++;
    //调整
	AdjustUp(php->a, php->size - 1);
} 
2.4 删除
2.4.1 思路
删除一般删除的是堆顶的元素
如果直接删除,然后用向下调整算法调整:原来的子节点会变成父节点,父节点会变成子节点。所以不可以采取此做法。
正确的做法:将堆顶元素与堆底元素交换,删除掉数组尾部元素,向下调整原数组。这样就可以规避原堆父子关系全乱的问题
2.4.2 代码
void HPPop(HP* php)
{
	assert(php);
	assert(php->size > 0);
	//交换
    Swap(&php->a[0], &php->a[php->size - 1]);
	//删除
    php->size--;
    //调整
	AdjustDown(php->a, php->size, 0);
} 
三、C语言源码汇总
3.1 heap.h
#pragma once
#include<stdio.h>
#include<assert.h>
#include<stdlib.h>
#include<stdbool.h>
//结构体定义
typedef int HPDataType;
typedef struct Heap
{
	HPDataType* a;
	int size;
	int capacity;
}HP;
//交换
void Swap(HPDataType* p1, HPDataType* p2);
//向上调整
void AdjustUp(HPDataType* a, int child);
//向下调整
void AdjustDown(HPDataType* a, int n, int parent);
//初始化堆
void HPInit(HP* php);
//销毁堆
void HPDestroy(HP* php);
//插入
void HPPush(HP* php, HPDataType x);
//删除
void HPPop(HP* php);
//返回堆顶元素
HPDataType HPTop(HP* php);
//判断堆是否为空
bool HPEmpty(HP* php); 
3.2 heap.c
#include"heap.h"
void HPInit(HP* php)
{
	assert(php);
	php->a = NULL;
	php->size = php->capacity = 0;
}
void HPDestroy(HP* php)
{
	assert(php);
	free(php->a);
	php->a = NULL;
	php->size = php->capacity = 0;
}
void Swap(HPDataType* p1, HPDataType* p2)
{
	HPDataType tmp = *p1;
	*p1 = *p2;
	*p2 = tmp;
}
void AdjustUp(HPDataType* a, int child)
{
	// 初始条件
	// 中间过程
	// 结束条件
	int parent = (child - 1) / 2;
	//while (parent >= 0)
	while (child > 0)
	{
		if (a[child] < a[parent])
		{
			Swap(&a[child], &a[parent]);
			child = parent;
			parent = (child - 1) / 2;
		}
		else
		{
			break;
		}
	}
}
void HPPush(HP* php, HPDataType x)
{
	assert(php);
	if (php->size == php->capacity)
	{
		int newcapacity = php->capacity == 0 ? 4 : php->capacity * 2;
		HPDataType* tmp = (HPDataType*)realloc(php->a, newcapacity * sizeof(HPDataType));
		if (tmp == NULL)
		{
			perror("realloc fail");
			return;
		}
		php->a = tmp;
		php->capacity = newcapacity;
	}
	php->a[php->size] = x;
	php->size++;
	AdjustUp(php->a, php->size - 1);
}
void AdjustDown(HPDataType* a, int n, int parent)
{
	// 先假设左孩子小
	int child = parent * 2 + 1;
	while (child < n)  // child >= n说明孩子不存在,调整到叶子了
	{
		// 找出小的那个孩子
		if (child + 1 < n && a[child + 1] < a[child])
		{
			++child;
		}
		if (a[child] < a[parent])
		{
			Swap(&a[child], &a[parent]);
			parent = child;
			child = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}
// logN
void HPPop(HP* php)
{
	assert(php);
	assert(php->size > 0);
	Swap(&php->a[0], &php->a[php->size - 1]);
	php->size--;
	AdjustDown(php->a, php->size, 0);
}
HPDataType HPTop(HP* php)
{
	assert(php);
	assert(php->size > 0);
	return php->a[0];
}
bool HPEmpty(HP* php)
{
	assert(php);
	return php->size == 0;
} 
四、堆的应用-TopK问题
4.1 分析
处理的是数据量非常大的情况下,需要知道最大/最小的某几个数的问题。
由于建堆的空间复杂度是O(N),所以建堆的方式不可行,需要直接在数组上操作。
正确的思路:用前K个数,建一个小堆,剩下的数据跟堆顶数据比较,如果比堆顶的数据大,就替代堆顶进堆(覆盖根位置,然后向下调整)
4.2 C语言源码
void CreateNDate()
{
	// 造数据
	int n = 100000;
	srand(time(0));
	const char* file = "data.txt";
	FILE* fin = fopen(file, "w");
	if (fin == NULL)
	{
		perror("fopen error");
		return;
	}
	for (int i = 0; i < n; ++i)
	{
		int x = (rand() + i) % 10000000;
		fprintf(fin, "%d\n", x);
	}
	fclose(fin);
}
void TopK()
{
	int k;
	printf("请输入k>:");
	scanf("%d", &k);
	int* heap = (int*)malloc(sizeof(int) * k);
	if (heap == NULL)
	{
		perror("malloc fail");
		return;
	}
	const char* file = "data.txt";
	FILE* num = fopen(file, "r");
	if (num == NULL)
	{
		perror("fopen error");
		return;
	}
	// 读取文件中前k个数
	for (int i = 0; i < k; i++)
	{
		fscanf(num, "%d", &heap[i]);
	}
	// 建K个数的小堆
	for (int i = (k - 1 - 1) / 2; i >= 0; i--)
	{
		AdjustDown(heap, k, i);
	}
	// 读取剩下的N-K个数
	int x = 0;
	while (fscanf(num, "%d", &x) > 0)
	{
		//更新小堆的数据并进行算法排序
		if (x > heap[0])
		{
			heap[0] = x;
			AdjustDown(heap, k, 0);
		}
	}
	printf("最大前%d个数: ", k);
	for (int i = 0; i < k; i++)
	{
		printf("%d ", heap[i]);
	}
	printf("\n");
}
int main()
{
	CreateNDate();
	TopK();
	return 0;
} 



















