手把手带你在AutoDL上部署InternLM-Chat-7B Transformers

news/2023/12/9 16:18:34 标签: 语言模型, python

手把手带你在AutoDL上部署InternLM-Chat-7B Transformers 调用
项目地址:https://github.com/KMnO4-zx/self_llm.git
如果大家有其他模型想要部署教程,可以来仓库提交issue哦~ 也可以自己提交PR!

InternLM-Chat-7B Transformers 部署调用

环境准备

在autoal平台中租一个3090等24G显存的显卡机器,如下图所示镜像选择pytorch–>1.11.0–>3.8(ubuntu20.04)–>11.3

请添加图片描述

接下来打开自己刚刚租用服务器的JupyterLab,并且打开其中的终端开始环境配置、模型下载和运行demo.
在这里插入图片描述

pip换源和安装依赖包

# 升级pip
python -m pip install --upgrade pip
# 更换 pypi 源加速库的安装
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

pip install modelscope==1.9.5
pip install transformers==4.35.2
pip install streamlit==1.24.0
pip install sentencepiece==0.1.99
pip install accelerate==0.24.1

模型下载

使用modelscope(魔塔社区)中的snapshot_download函数下载模型,第一个参数为模型名称,参数cache_dir为模型的下载路径。

/root/autodl-tmp路径下新建download.py文件

#将当前工作目录切换到/root/autodl-tmp目录下
cd /root/autodl-tmp
#创建一个名为download.py的空文件
touch download.py

并在其中输入以下内容:

import torch
from modelscope import snapshot_download, AutoModel, AutoTokenizer
import os
model_dir = snapshot_download('Shanghai_AI_Laboratory/internlm-chat-7b', cache_dir='/root/autodl-tmp', revision='master')

粘贴代码后记得保存文件(Ctrl+S),如下图所示。

在这里插入图片描述
保存后返回终端界面,运行Python /root/autodl-tmp/download.py执行下载,模型大小为14GB,下载模型大概需要10~20分钟。

代码准备

/root/autodl-tmp路径下新建trans.py文件并在其中输入以下内容

# 导入所需的库
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 从预训练模型加载 tokenizer 和 model
# AutoTokenizer 用于处理文本输入并准备模型输入
# AutoModelForCausalLM 是一个生成式语言模型,支持生成对话
# trust_remote_code=True 表示信任从远程加载的代码
#通过AutoTokenizer.from_pretrained()函数加载预训练模型的tokenizer
tokenizer = AutoTokenizer.from_pretrained("/root/autodl-tmp/Shanghai_AI_Laboratory/internlm-chat-7b", trust_remote_code=True)

model = AutoModelForCausalLM.from_pretrained("/root/autodl-tmp/Shanghai_AI_Laboratory/internlm-chat-7b",trust_remote_code=True).to(torch.bfloat16).cuda()
# 将模型加载到 GPU(如果可用)并设置为评估模式
model = model.eval().cuda()

# 准备对话的历史记录
# 在开始对话之前,历史记录为空列表
#调用model.chat(tokenizer, "hello", history=[])来生成对话,将使用模型和tokenizer来根据给定的历史记录生成回复。生成的回复存储在response变量中
response, history = model.chat(tokenizer, "hello", history=[])

# 打印模型生成的响应文本
print(response)

粘贴代码后记得保存文件,上面的代码有比较详细的注释,大家如有不理解的地方,欢迎提出issue。

部署

在终端输入以下命令启动transformers服务

cd /root/autodl-tmp
python trans.py

耐心等待一下它加载,得到返回值如下所示:

Hello!How can I assist you today?

在这里插入图片描述

然后可以在以上trans.py代码的基础上加一个对话,代码如下所示:

response,history = model.chat(tokenizer,"please provide three suggestions about time management",history=history)

print(response)

耐心等待加载,首先会出来第一个对话内容模型生成的响应文本如下图所示,然后再等待一会它会接着出现第二个对话模型生成的响应文本如下所示:

在这里插入图片描述

耐心等待加载,首先会出来第一个对话内容模型生成的响应文本如下图所示,然后再等待一会它会接着出现第二个对话模型生成的响应文本如下所示:

在这里插入图片描述


http://www.niftyadmin.cn/n/5201010.html

相关文章

算法分析与设计课后练习22

设W(5,7,10,12,15,18,20)和M35,使用过程SUMOFSUB找出W种使得和数等于M的全部子集并画出所生成的部分状态空间树

很多人都在用的现货白银突破交易法 缺点需要注意

突破交易是现货白银投资者常用的交易技巧。通常做突破交易有两种方法,一种是突破发生的时候马上入场,另一种是在突破确认后等待回调然后再入场。目前,投资者较多的是使用后者。用突破——回踩入场有什么优缺点呢?下面我们就来讨论…

【docker】虚拟化和docker容器概念

基础了解 IAAS: 基础设施服务,(只提供基础设施,没有系统) **SAAS: ** 软件即服务,(提供基础设施和系统) PAAS: 平台即服务,(提供基…

【Django使用】4大模块50页md文档,第4篇:Django请求与响应和cookie与session

当你考虑开发现代化、高效且可扩展的网站和Web应用时,Django是一个强大的选择。Django是一个流行的开源Python Web框架,它提供了一个坚实的基础,帮助开发者快速构建功能丰富且高度定制的Web应用 Django全套笔记地址: 请移步这里 …

前端面试考核点【更持续新中】

文章目录 HTMLcssjsVueReactTypeScript移动端&小程序编译/打包/构建npmnodejs微前端网络安全浏览器性能OKR工程化、标准化 HTML Script放在body中间会阻塞吗?defer与async的区别?https://blog.csdn.net/qq_41887214/article/details/124909219 DOM和…

vue路由传参的详解1.命名路由的传参和取出2.query传参和取出3.meta传参和取出4.其他方式5.注意点 代码和注释

Vue是一款流行的前端框架,其路由功能可以帮助我们实现单页应用(SPA)的跳转和页面切换。在实际开发中,我们会遇到需要在路由之间传递参数的情况,本篇博客将详细介绍Vue路由传参和取出参数的几种方式。 目录 1. 命名路由…

六、流量监管、流量整形

流量监管、流量整形 流量监管、流量整形1.1.定义1.2.简单流分类应用场景举例1.3.简单流分类的配置1.4.复杂流分类1.5.复杂流分类在产品中的实现 ————————————————— 流量监管、流量整形 当报文的发送速率大于接收速率,或者下游设备的接口速率小于…

【paddlepaddle】

安装paddlepaddle 报错 ImportError: /home/ubuntu/miniconda3/envs/paddle_gan/bin/../lib/libstdc.so.6: version GLIBCXX_3.4.30 not found (required by /home/ubuntu/miniconda3/envs/paddle_gan/lib/python3.8/site-packages/paddle/fluid/libpaddle.so) 替换 /home/ubu…

gitlab 实战

一.安装依赖 yum install -y curl policycoreutils-python openssh-server perl 二.安装gitlab yum install gitlab-jh-16.0.3-jh.0.el7.x86_64.rpm 三.修改下面的 vim /etc/gitlab/gitlab.rbexternal_url http://192.168.249.156 四.初始化 gitlab-ctl reconfigure 五.查看状…

线性表--队列-1

文章目录 主要内容一.队列基础练习题1.用链式存储方式的队列进行删除操作时需要 ( D ).代码如下(示例): 2.若以1,2,3,4作为双端队列的输入序列,则既不能由输入受限的双端队列得到,又不能由输出受限的双端队列得到的输出序列是( C …

使用Python处理ADC激光测距数据并绘制为图片(二)

使用Python处理ADC激光测距数据并绘制为图片 说明一、定义全局变量变二、保存和清空原始数据三、拆分原始数据为键值对四、获取标题、FigText、更新统计信息文件五、生成图片六、处理原始数据文件七、主函数入口八、测试结果 说明 1. 主要是将ADC激光测距叠加后的1024Byte数据绘…

Ubuntu——卸载、安装CUDA

【注】WSL的Ubuntu是不用安装CUDA的,因为它使用的是Windows的显卡驱动,所以如果WSL的CUDA出了问题,重新安装WSL即可! 如果nvidia-smi有显示,只是需要使用nvcc,那么就需要安装。安装的时候不要选Driver即可…

离散信号的卷积与相关

离散信号的卷积与相关 1.一维离散信号的卷积与相关1.1 scipy实现1.2 个人Python实现1.3 一维卷积与相关的关系 2.二维离散信号的卷积与相关2.1 二维卷积运算的scipy与个人Python实现2.1.1 pad 02.1.2 不需要pad 0 2.2 二维相关运算的scipy与个人Python实现 参考文献 这里的相关…

判断线程池任务执行完成的方式

Thread线程是否执行完成,我们可以调用join方法然后等待线程执行完成;那在使用线程池的时候,我们如何知道线程已经执行完成了?本文就带给大家五种判断的方式: ● isTerminated() 方式,在执行 shutdown() &am…

局域网文件共享神器:Landrop

文章目录 前言解决方案Landrop软件界面手机打开效果 软件操作 前言 平常为了方便传文件,我们都是使用微信或者QQ等聊天软件,互传文件。这样传输有两个问题: 必须登录微信或者QQ聊天软件。手机传电脑还有网页版微信,电脑传手机比…

SwiftUI 如何动态开始和停止播放永久重复(repeatForever)动画

0. 功能需求 在 SwiftUI 丰富多彩的动画世界中,我们有时希望可以随意开始和停止永久循环(repeatForever)的动画,不过这时往往会产生错误的动画“叠加”效果。 从上图可以看到:虽然我们希望密码输入框背景只在用户输入密码时才发生闪烁,但顶部的密码输入框随着不断输入其…
最新文章