文章目录
- 前言
- 安装ollama
- 启动ollama
- 运行llama3模型
- 查看ollama列表
- 删除模型
- 通过代码进行调用
- REST API
前言
在拥有了一条4090显卡后,那冗余的性能让你不得不去想着办法整花活,于是就想着部署个llama3,于是发现了ollama这个新大陆,废话不多说,直接上操作,对于系统的安装和4090驱动的安装可以查看简易教程:
 linux系统安装:U盘安装Ubuntu24.04,乌邦图,UltralISO
 linux驱动显卡:linux系统,ubuntu安装英伟达NVIDIA4090显卡驱动
 对于llama3的说明可以查看官方:https://ai.meta.com/blog/meta-llama-3-1
- 有何疑问欢迎加好友咨询
  
安装ollama
curl -fsSL https://ollama.com/install.sh | sh
- 直接一步到位安装完成
  
启动ollama
ollama serve
运行llama3模型
- 8B 版本最低仅需 4GB 显存即可运行,这也是我们主要选择的
- 70B 一条4090支撑,跑起来的模型回答问题会很慢
- 405B 商用级别的,不是业余爱好者能应用的
- 模型如果不存在,会自行进行拉取
ollama run llama3.1:8b 
- 出现以下画面。即表示模型已运行,并且可以直接进行提问
  
- 退出:ctrl + d
查看ollama列表
ollama list

删除模型
仅作指令展示,别刚安装完就删除了
ollama rm llama3.1:8b
通过代码进行调用
from openai import OpenAI
base_url = 'http://localhost:11434/v1/'
api_key = 'ollama'
client = OpenAI(base_url=base_url, api_key=api_key)
chat_completion = client.chat.completions.create(
    messages=[{
        'role':'user', 
        'content':'你好,请介绍下你自己'
    }],
    model='llama3.1:8b',
)
data = chat_completion.choices[0].message.content
print(data)
- 执行效果不错
  
REST API
Ollama 提供了用于运行和管理模型的 REST API。
- 生成响应
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1:8b",
  "prompt":"Why is the sky blue?"
}'
- 与模型交流
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.1:8b",
  "messages": [
    { "role": "user", "content": "why is the sky blue?" }
  ]
}'



















