C++vector的简单模拟实现

文章目录

前言

一、vector使用时的注意事项

1.typedef的类型

2.vector不是string

3.vector

4.算法sort

二、vector的实现

1.通过源码进行猜测vector的结构

2.初步vector的构建

2.1 成员变量

2.2成员函数

2.2.1尾插和扩容

2.2.2operator[]

2.2.3 迭代器

2.2.4尾删、指定位置删除和插入

3指定位置删除和插入和迭代器失效

3.1insert和迭代器野指针问题

3.2erase和迭代器失效

4.拷贝构造

5.operator=赋值

6.迭代器区间初始化

7.n个val初始化和编译器匹配问题

三、{}的使用

四、vector的问题

前言

vector的使用方法和string很类似，但是string设计的接口太多，而vector则较少所有我们直接开始模拟实现，如果你对vector的使用不太熟悉可以通过它的文档来了解：vector。我们实现vector的简单模板版本。

由于模板的小问题，我们在使用模板时最好声明和定义在同一个文件。

一、vector使用时的注意事项

1.typedef的类型

在看文档时有很多未见过的类型，实际上那是typedef的：

2.vector<char>不是string

不能把vector<char>和string等价，string是专门对待字符串和字符的自定义类型，而vector<char>是char类型的顺序表。

区别在于vector<char>后面要手动加'\0'，而string会自动加'\0'.

3.vector <string>

vector<string>是string 的顺序表，每个元素都是string，如果使用vector<const char*>则空间还需自己手动调整，使用string则不用。

4.算法sort

C++库函数中提供了一个包含算法的头文件<algorithm>,现在我们要学会使用sort来排序：

默认是升序。

	vector<int> v1 = { 5,6,1,3,4,10 };

	for (const auto& e : v1)
	{
		cout << e << ' ';
	}
	std::sort(v1.begin(), v1.end());
	cout << endl;
	for (const auto& e : v1)
	{
		cout << e << ' ';
	}

那么该如何降序？

可以使用反向迭代器：

std::sort(v1.rbegin(), v1.rend());

使用反函数greater<>：

	greater<int> gt;
	std::sort(v1.begin(), v1.end(),gt);
    //std::sort(v1.begin(),v1.end(),greater<int>());//匿名对象

greater是降序,升序是less.在C++中，我们<为升序，> 为降序,所有greater是降序，less是升序。

这里了解一下，后面会详细讲解。

二、vector的实现

1.通过源码进行猜测vector的结构

<vctor.h>中，我们先浅浅了解一下，具体实现我们使用我们的思路。

观察源码typedef：

观察源码的成员变量：

start是什么，finish是什么？end_of_storage?从名字上看再对比之前的顺序表结构，或许可以大胆猜测:start到finish是一对和size差不多，end_of_storage应该是capacity。

通过观察成员函数来进行猜测：

如果finish到了end_of_storage说明满了进行扩容。扩容操作是由insert_aux函数来完成的：

如果满了就进行扩容，大胆猜测扩容操作时进行三段操作：

1.把position位置之前的数据拷贝到新空间，

2.把x插入到新的空间的尾部

3.再把position位置之后的数据拷贝到新的空间。

这些了解一下。

关于construc和destroy实际上和内存池有关：

由于内存池调用new和delete不会进行构造和初始化，所以construc和destroy是定位new的函数，用于对内存池的空间进行构造(这里是拷贝构造)和析构 。

2.初步vector的构建

使用声明和定义分离来进行模拟实现。在开始我们先不实现构造，使用给缺省值来解决五默认构造的问题。关于为什么给成员变量缺省值就可以进行插入可以查看这一片文章：类和对象(下)初始化列表

2.1 成员变量

#pragma once
#include <iostream>
using namespace std;
#include <vector>

namespace vet
{
	template<class T>
	class vector
	{
	public:
		typedef T* iterator;

	private:
		//T* _a;
		//size_t _size;
		//size_t _capacity;
		//俩者本质上是一样的
		iterator _start;
		iterator _finish;
		iterator _end_of_storage;
	};
}

2.2成员函数

2.2.1尾插和扩容

尾插涉及扩容，这我们直接实现capacity和size函数。

 vector.h中  
        void reserve(size_t n)
        {
	        if (n > capacity())
	        {
		        T* tmp = new T[n];
		        if (_start)//如果为空不进行拷贝
		        {
			        memcpy(tmp, _start, sizeof(T) * size());
			        delete _start;
			        _start = tmp;	
		        }
		        _finish = _start + size();
		        _end_of_storage = _start + n;
	        }    
        }
		size_t capacity()
		{
			return _end_of_storage - start;
		}
		size_t size()
		{
			return _finish - _start;
		}
		void push_back(const T& x)
		{
			if (_finish == _end_of_storage)
			{
				//扩容
				size_t newcapacity = capacity() == 0 ? 4 : 2 * capacity();
				reserve(newcapacity);
			}
			*finish = x;
			++finish;
		}

2.2.2operator[]

	T& operator[](size_t pos)
	{
		assert(pos < size());
		return _start[pos];
	}

测试代码：

运行会发现，程序奔溃。

test.cpp中
void test_myvector1()
{
	vet::vector<int> v1;
	v1.push_back(1);
	v1.push_back(2);
	v1.push_back(3);
	v1.push_back(4);
	v1.push_back(5);
	for (int i = 0; i < v1.size(); i++)
	{
		cout << v1[i] << ' ';
	}
}

通过调试发现_finish = x是对空指针操作，实际上错误是在size()计算阶段：

而size()是通过_finish - _start来计算的:

_start指向新的空间，而_finish是nullptr,使用空指针减去_start操作错误。size()不是我们想要的size().

俩种解决办法：

void reserve(size_t n)
{
	if (n > capacity())
	{
		T* tmp = new T[n];
		if (_start)
		{
			memcpy(tmp, _start, sizeof(T) * size());
			delete _start;
			
		}
		_finish = tmp + size();
		_start = tmp;	
		_end_of_storage = _start + n;
	}
}

这样顺序不好，用户可能看不懂，所以可以记录一下size()然后进行更新：

void reserve(size_t n)
{
	size_t oldsize = size();
	if (n > capacity())
	{
		T* tmp = new T[n];
		if (_start)
		{
			memcpy(tmp, _start, sizeof(T) * size());
			delete _start;
			
		}
		_start = tmp;
		_finish = _start + oldsize;
		_end_of_storage = _start + n;
	}
}

结果：

我们这里并未写析构和构造，系统是抽查的机制，动态开辟的一般在delete的时候进行检测，所以我们有时候可能在越界暴露不出来，推荐写上析构：
再测试有无问题。

	~vector()
	{
		if (_start)
		{
			delete[] _start;
			_finish = _end_of_storage = nullptr;
		}
	}

2.2.3 迭代器

有了迭代器，那么就可以使用范围for了；

iterator begin()
{
	return _start;
}
iterator end()
{
	return _finish;
}

测试代码：

	vet::vector<int> v1;
	v1.push_back(1);
	v1.push_back(2);
	v1.push_back(3);
	v1.push_back(4);
	v1.push_back(5);
	vet::vector<int>::iterator it = v1.begin();
	while (it != v1.end())
	{
		cout << *it << ' ';
		it++;
	}
	cout << endl;
	for (const auto& e : v1)
	{
		cout << e << ' ';
	}

结果：

2.2.4尾删、指定位置删除和插入

	//尾删
	void pop_back()
	{
		assert(size() > 0);
		--_finish;
	}

3指定位置删除和插入和迭代器失效

指定位置删除插入：

要实现指定位置删除或插入就要找到要删除或插入的值。

观察vector 的文档发现，vector没有find，是因为在算法<algorithm>中已经存在find的模板：体现了复用，vector，list都可以用。

3.1insert和迭代器野指针问题

空间不够扩容，够了挪动数据。

	void insert(iterator pos, const T& x)
	{
        assert(pos >= _start && pos <= _finish);
		if (_finish == _end_of_storage)
		{
			//扩容
			size_t newcapacity = capacity() == 0 ? 4 : 2 * capacity();
			reserve(newcapacity);
		}
		//挪动数据，从后往前挪
		iterator end = _finish - 1;
		while (end >= pos)
		{
			*(end + 1) = *end;
			--end;
		}
        *pos = x;
	    ++_finish;
	}

运行代码：

void test_myvector2()
{
	vet::vector<int> v1;
	v1.push_back(1);
	v1.push_back(2);
	v1.push_back(3);
	v1.push_back(4);

	for (auto e : v1)
	{
		cout << e << ' ';
	}
	cout << endl;
	v1.insert(v1.begin(), 0);
	for (auto e : v1)
	{
		cout << e << ' ';
	}
}

结果：

通过运行结果发现，程序崩溃了，这是为什么？

实际上这里是迭代器失效了,空间满了需要扩容操作，扩容造成了迭代器失效。如果空间足够则可以正常插入。

迭代器失效是指在使用迭代器遍历集合（如数组、列表、字典等）的过程中，对集合进行了修改（添加、删除操作）导致迭代器指向的元素位置发生变化，从而影响迭代器的正确性和结果不可预测的现象。

我们的代码实在扩容的时候发生了迭代器失效。

扩容操作改变的是_start和_finish以及_end_of_stroage：

所以这里的迭代器失效本质是野指针问题。

既然pos迭代器失效，那我们就更新pos迭代器。pos要指向新空间的pos位置：
记录与_start的距离:size_t len = pos - _start;

void insert(iterator pos, const T& x)
{
	assert(pos >= _start && pos <= _finish);
    if (_finish == _end_of_storage)
	{
		size_t len = pos - _start;
		//扩容
		size_t newcapacity = capacity() == 0 ? 4 : 2 * capacity();
		reserve(newcapacity);
		pos = _start + len;
	}
	//挪动数据，从后往前挪
	iterator end = _finish - 1;
	while (end >= pos)
	{
		*(end + 1) = *end;
		--end;
	}	
	*pos = x;
	++_finish;
}

此时运行上面的测试代码：
结果运行正常。

一般使用insert往往伴随着find，所以我们使用find再进行测试

	vet::vector<int> v1;
	v1.push_back(1);
	v1.push_back(2);
	v1.push_back(3);
	v1.push_back(4);
	for (auto e : v1)
	{
		cout << e << ' ';
	}
	cout << endl;
	vet::vector<int>::iterator vi = find(v1.begin(),v1.end(),3);
	v1.insert(vi, 10);
	for (auto e : v1)
	{
		cout << e << ' ';
	}

这样又有一个问题：发生扩容时insert以后vi个迭代器实参会不会失效？

仔细想想，空间不足时，需要扩容进行空间转移，而vi指向的是否是原来的空间？函数中的pos是否会改变vi?

答案是会失效，因为，vi是实参，而pos是形参，形参的改变不会影响实参的改变。

vet::vector<int>::iterator vi = find(v1.begin(),v1.end(),3);
if(vi != v1.end())
{ 
	v1.insert(vi, 10);
	cout << *vi << endl;
}

由于不知道什么时候扩容，所以一般认为这种情况是迭代器失效。这时候我们建议不要访问和修改vi指向的空间了(即不使用失效的迭代器)。

如果非要访问插入的位置呢？该怎么办？文档中insert提供了一种方法就是函数的返回值：

iterator insert(iterator pos, const T& x)
{
	//代码..
	return pos;
}

一般也不会这么做，所以一般认为失效了。string也有迭代器失效，其他也不例外。也是通过返回值。

3.2erase和迭代器失效

erase要将pos位置之后的数据前移：

	void erase(iterator pos)
	{
		assert(pos >= _start && pos < _finish);
		iterator it = pos + 1;//将后面的数据前移
		while (it != _finish)
		{
			*(it - 1) = *it;
			++it;
		}
		--_finish;
	}

测试代码：

void test_myvector03()
{
	vet::vector<int> v1;
	v1.push_back(1);
	v1.push_back(2);
	v1.push_back(3);
	v1.push_back(4);
	for (auto e : v1)
	{
		cout << e << ' ';
	}
	cout << endl;
	v1.erase(v1.begin());
	for (auto e : v1)
	{
		cout << e << ' ';
	}
}

测试结果：

erase也有迭代器失效,我们使用vector库里的删除进行测试看看：

同样也不能访问，而且是断言错误。而使用返回值时则可以使用：

既然删除只涉及数据移动，那为什么删除也会是迭代器失效呢？

由于C++并未规定删除是否会缩容，所以删除时不同的平台可能不同：

是有可能野指针的。

就算不缩容，那么在删5的时候呢？删除5的时候后面没有数据，如果要访问迭代器会造成越界访问。这里迭代器失效并不是野指针。

所以我们认为erase后，迭代器失效。

vs下要访问迭代器的话，同样是使用返回值，那我们实现也使用，但是在删除最后应一个有效元素时，不能进行访问：

iterator erase(iterator pos)
{
	assert(pos >= _start && pos < _finish);
	iterator it = pos + 1;
	while (it != _finish)
	{
		*(it - 1) = *it;
		++it;
	}
	--_finish;
	return pos;
}

测试代码：

	std::vector<int> v1;
	v1.push_back(1);
	v1.push_back(2);
	v1.push_back(3);
	v1.push_back(4);
	v1.push_back(5);
	int x;
	cin >> x;
	std::vector<int>::iterator it = find(v1.begin(), v1.end(), x);
	if (it != v1.end())
	{
		it = v1.erase(it);
		if(it != v1.end())
		cout << *it << endl;
	}

如下题，要删除所有偶数，使用失效的迭代器则会保存，所有应该使用返回值：

void test_myvector05()
{
	std::vector<int> v1;
	v1.push_back(1);
	v1.push_back(2);
	v1.push_back(3);
	v1.push_back(4);
	v1.push_back(5);
	for (auto e : v1)
	{cout << e << ' ';}
	//删除所有偶数
	std::vector<int>::iterator it = v1.begin();
	while (it != v1.end())
	{
		if (*it % 2 == 0)
			it = v1.erase(it);
		else
			++it;
	}
	for (auto e : v1)
	{cout << e << ' ';}
}

而在linux下不使用返回值则可以。但是不同平台不一样，使用最好使用函数返回值更新。

4.拷贝构造

在不写拷贝构造函数时，编译器会默认生成，该拷贝是浅拷贝。

void test_myvector06()
{
	vet::vector<int> v1;
	v1.push_back(1);
	v1.push_back(2);
	v1.push_back(3);
	v1.push_back(4);
	v1.push_back(5);
	//没有写拷贝构造//浅拷贝
	vet::vector<int> v2(v1);
	for (auto e : v2)
	{
		cout << e << ' ';
	}
}

结果肯定是报错，因为浅拷贝是值拷贝，成员变量的值是一样的，此时v1和v2指向同一块空间

，在出函数作用域时会调用析构函数，此时v1、v2都会析构，但是指向同一块空间，所以析构了俩次。

所有我们要写拷贝构造：
像这样写就可以开辟空防止指向同一块空间。

vector(const vector<T>& v)
{
	for (auto e : v)
	{
		push_back(e);
	}
}

但是由于我们没有写默认构造函数：

由于我们写了一个拷贝构造，编译器不会自动生成构造函数(类和对象中上)了。

我们可以通过写默认构造函数来解决也可以通过下面这种方法：

vector() = default;
vector(const vector<T>& v)
{
	for (auto e : v)
	{
		push_back(e);
	}
}

第一行代码使用于编译器强制生成默认构造函数。

我们在后面再添加上默认构造函数，这里我们先完成拷贝构造函数，由于拷贝构造我们使用的是尾插的方式，所以每次插入可能涉及很多扩容，所以我们可以提前开好空间：

	vector(const vector<T>& v)
	{
		reserve(v.capacity());
		for (auto e : v)
		{
			push_back(e);
		}
	}

运行时发现不行：

是因为我们的capacity和size，迭代器不是const成员函数，所以我们加上const：

实现const迭代器：

	typedef T* iterator;
	typedef const T* const_iterator;
	iterator begin()
	{return _start;}
	iterator end()
	{return _finish;}
	const_iterator begin() const
	{return _start;}
	const_iterator end() const
	{return _finish;}

结果：

5.operator=赋值

我们使用现代写法：

	//v1 = v2
	void swap(vector<T> v)
	{
		std::swap(_start, v._start);
		std::swap(_finish,v._finish);
		std::swap(_end_of_storage,v._end_of_storage);
	}
	//现代写法：传值传参，v出函数作用域会调析构，
	//但是我们交换了this和v的成员变量，所以析构的是原来的空间而不是v的而是this的
	vector<T>& operator=(vector<T> v)
	{
		swap(v);
		return this;
	}

6.迭代器区间初始化

allocator是内存池，内存池是自己写的空间配置，我们使用new来开空间就好。

迭代器区间需要俩个迭代器first和last，我们写成函数模板，可以支持任意类型：

//支持任意容器的迭代器初始化
template <class InputIterator>
vector(InputIterator first, InputIterator last)
{
	while (first != last)
	{
		push_back(*first);
		++first;
	}
}

测试代码：

void test_myvector07()
{
	vet::vector<int> v1;
	v1.push_back(1);
	v1.push_back(2);
	v1.push_back(3);
	v1.push_back(4);
	v1.push_back(5);
	for (auto e : v1)
	{cout << e << ' ';}
	cout << endl;
	vet::vector<int> v2(v1.begin()+1,v1.end()-1);
	for (auto e : v2)
	{cout << e << ' ';}
}

结果：

7.n个val初始化和编译器匹配问题

需要考虑缺省值。

缺省值能否是0？很明显不能，因为T的类型未知，如果是string、vector、list类型，给0肯定会有问题。所以该怎么办？

缺省参数一般给常量，但自定义类型怎么办，C++中自定义类型可以传T()，即匿名对象（调用默认构造）。内置类型是否可以这样？是可以的，C++对内置类型进行升级，可以进行构造：
值分别为0、1、0、2。

测试代码：

void test_myvector08()
{
	vet::vector<string> v1(10);
	vet::vector<string> v2(10, "xx");
	for (auto e : v1)
	{
		cout << e << ' ';
	}
	cout << endl;
	for (auto e : v2)
	{
		cout << e << ' ';
	}
}

结果：

在使用实例化类模板时，如果对它构造n个1会有意想不到的错误：

void test_myvector09() 
{
	vet::vector<string> v1(10, 1);
	for (auto e : v1)
	{
		cout << e << ' ';
	}
}

报错到了这里？

这里提一下调试技巧：目前我们知道时我们的测试代码上下都没有其他代码，

1.如果有其他代码，先通过屏蔽其他代码锁定时哪一段代码出来问题。

2.通过一步步调试进行观察。

这里实际上时参数的匹配问题，编译器的选择问题。

由于我们传参的都是int，所以模板实例化的也是int int。

编译器会匹配更好的，参数更匹配的。

实际上vector<int>(10,1)也会出错：

解决办法：要使得匹配到正确的函数我们就要给出一个重载的函数：

、

这样就可以匹配到合适的函数。vector库内也面临这样的问题。

三、{}的使用

在类和对象(下)中我们提到了多参数和单参数的隐式类型转换。使用到了{}，这时C++11的特性：一切皆可用{}进行初始化。

class A
{
public:
	A(int a)
		:_a1(a)
		,_a2(a)
	{}
	A(int a1, int a2)
		:_a1(a1)
		, _a2(a2)
	{}
private:
	int _a1;
	int _a2;
};
int main()
{
	//单参数隐式类型转换  1-> 构造临时对象A(1) -> 拷贝构造给 a1 => 优化为直接构造
	A a1(1);
	A a2 = 1;
	A a3{ 1 };
	A a4 = { 1 };
	//多参数隐式类型转换  1，2-> 构造临时对象A(1，2) -> 拷贝构造给 aa1 => 优化为直接构造
	A aa1(1, 2);
	A aa2 = { 1,2 };
	A aa3{ 1,2 };
	return 0;
}

所以在平常使用中可以使用{}.

再来看下面代码：

我们使用库中的vector。

void test_vector1()
{
	std::vector<int> v1 = { 1,2,3,4,5,6 };
	for (auto e : v1)
	{
		cout << e << ' ';
	}
}

这里是隐式类型转换，但不是转化为vector<int>而是initializer list，然后再进隐式类型转化，是C++11的一种构造：

initializer list是C++11新增的类型

它是一个自定义类型：

il1和il2是等价的。由于{}内是常量数组。内部实际上是俩个指针，分别指向常量数组的开始和末尾：

它也有迭代器和size，所以支持范围for：

所以在我们自己实现的vector中要使用{1,2,3,4,5}这样的形式我们要支持initializer_list的构造：

	vector(initializer_list<T>il)
	{
		reserve(il.size());
		//initializer_list支持迭代器
		for (auto e : il)
		{
			push_back(e);
		}
	}

结果：

有了这个特性我们就可以像下面这样：

class A
{
public:
	A(int a = 0)
		:_a1(a)
		,_a2(a)
	{}
	A(int a1, int a2)
		:_a1(a1)
		, _a2(a2)
	{}
private:
	int _a1;
	int _a2;
};
int main()
{
	
	vet::vector<A> v1 = { 1,{1},A(1),A(1,2),A{1},A{1,2},{1,2} };
	return 0;
}

{}的用法很杂，使用再使用{}进行初始化时，尽量不要写的太奇怪。

四、vector<string>的问题

观察下面的程序：

void test_myvector11()
{
	vet::vector<string> v1;
	v1.push_back("1111111111111111");
	v1.push_back("1111111111111111");
	v1.push_back("1111111111111111");
	v1.push_back("1111111111111111");
	
	for (auto e : v1)
	{
	    cout << e << endl;
	}
	cout << endl;
}

插入4个string，结果没有问题：

而再插入一个string会发生意料之外的结果：

程序崩溃了。这是为什么？关键就在我们多插入的一次，通过调试观察：

到这没有什么问题，然后进memcpy，释放就释放旧空间。

释放旧空间：

走早这里已经知晓了为什么会改变了，释放的空间是我们拷贝的空间，这样的情况就是浅拷贝。

画图进行分析：

memcpy对任意类型数据拷贝是浅拷贝。memcpy对数据一个字节一个字节拷贝。在对_start进行释放时，string会调用析构函数，对其中的_str进行释放。

解决方案：进行深拷贝：

		void reserve(size_t n)
		{
			size_t oldsize = size();
			if (n > capacity())
			{
				T* tmp = new T[n];
				if (_start)
				{
					//memcpy(tmp, _start, sizeof(T) * size());
					for (size_t i = 0; i < oldsize; i++)
					{
						//进行赋值//内置类型进行赋值，自定义类型调用它的赋值操作
						tmp[i] = _start[i];
					}
					delete[] _start;
				}
				_start = tmp;
				_finish = _start + oldsize;
				_end_of_storage = _start + n;
			}
		}

进行赋值，内置类型进行赋值，自定义类型调用它的赋值操作。在这里tmp[i]和_start[i]相当于是

string对象进行赋值。

如果你有所收获，可以留下你的点赞和关注，谢谢你的观看！