Chạy mô hình ngôn ngữ lớn như Llama 3 trên Apple Silicon với MLX Framework của Apple. Người dùng Mac, việc tận dụng MLX Framework của Apple có thể nâng cao đáng kể hiệu quả đào tạo và triển khai các mô hình này trên silicon của Apple. Hướng dẫn này cung cấp hướng dẫn chi tiết về các bước và cân nhắc cần thiết để chạy Llama 3 hoặc bất kỳ LLM nào khác bằng MLX Framework.
Yêu cầu phần cứng:
– Bạn cần ít nhất 8 GB VRAM để thực hiện chính xác hướng dẫn này.
– Sử dụng chip dòng M (chip Apple)
– Sử dụng Python gốc >= 3.9
– macOS >= 13.5 nên sử dụng macOS 14 (Sonoma)
Thử nghiệm với LLM trên máy tính của bạn. Giao diện trò chuyện và API có thể lập trình https://lmstudio.ai/download?os=mac
Để sử dụng MLX với LibreChat https://www.librechat.ai/blog/2024-05-01_mlx
Framework MLX
Lấy cảm hứng từ PyTorch, Jax và ArrayFire, MLX là một khuôn khổ đào tạo và phục vụ mô hình được thiết kế riêng cho silicon của Apple bởi Apple Machine Learning Research. Nó hỗ trợ một loạt các tác vụ học máy, bao gồm tạo văn bản quy mô lớn, tạo hình ảnh và nhận dạng giọng nói. Khuôn khổ này được tích hợp với Hugging Face, cho phép tải và phục vụ mô hình liền mạch.
Các tính năng chính
– API quen thuộc : MLX cung cấp API Python bám sát NumPy, cùng với các API C++, C và Swift có đầy đủ tính năng tương tự như API Python.
– Chuyển đổi hàm có thể cấu hình : Hỗ trợ tính toán phân biệt tự động, vectơ hóa và tối ưu hóa đồ thị tính toán.
– Tính toán Lazy : Tính toán MLX linh động, nghĩa là các mảng chỉ được thực hiện khi cần thiết, giúp tăng hiệu quả.
– Xây dựng đồ thị động : Đồ thị tính toán được xây dựng theo kiểu động, tránh biên dịch chậm và đơn giản hóa việc gỡ lỗi.
– Hỗ trợ nhiều thiết bị : Các hoạt động có thể được thực hiện trên bất kỳ thiết bị được hỗ trợ nào (CPU hoặc GPU) mà không cần truyền dữ liệu.
– Mô hình bộ nhớ hợp nhất : MLX sử dụng mô hình bộ nhớ hợp nhất, cho phép CPU và GPU chia sẻ cùng một nhóm bộ nhớ, loại bỏ nhu cầu truyền dữ liệu giữa chúng và do đó nâng cao hiệu quả và hiệu suất.
Hạn chế
– Dành riêng cho Apple Silicon : MLX được thiết kế dành riêng cho Apple silicon, giới hạn việc sử dụng cho phần cứng tương thích.
– Hỗ trợ cộng đồng hạn chế : Là một khuôn khổ tương đối mới, MLX có cộng đồng nhỏ hơn và ít tài nguyên hơn so với các khuôn khổ đã được thành lập lâu đời hơn.
– Thách thức về tối ưu hóa : Mặc dù khuôn khổ này hiệu quả, nhưng để đạt được hiệu suất tối ưu có thể cần phải điều chỉnh đáng kể và hiểu biết sâu sắc về cả phần cứng và khuôn khổ.
Cài đặt
Tạo một môi trường ảo (khuyến nghị)
Đầu tiên, hãy tạo một môi trường ảo cho dự án của bạn. Bước này là tùy chọn nếu bạn đã thiết lập một môi trường ảo.
1. Điều hướng đến thư mục dự án của bạn và tạo môi trường ảo:
python3 -m venv env_name
2. Kích hoạt môi trường:
source env_name\\bin\\activate
Cài đặt MLX-LM
MLX là một gói độc lập và có một gói phụ gọi là MLX-LM tích hợp Hugging Face cho các Mô hình ngôn ngữ lớn.
1. Cài đặt MLX-LM
pip3 install mlx-lm
Tùy chọn: Cài đặt PyTorch (phiên bản nightly) — ẩn cảnh báo:
pip3 install –pre torch –index-url <https://download.pytorch.org/whl/nightly/cpu>
Tải xuống mô hình
1. Tải xuống mô hình từ kho lưu trữ Hugging Face Hub
Nếu bạn muốn sử dụng mô hình lượng tử (dành cho máy tính có RAM dưới 16):
python3 -m mlx_lm.convert –hf-path meta-llama/Meta-Llama-3-8B-Instruct -q
Thao tác này sẽ lưu mô hình vào thư mục dự án của bạn tại mlx_model.
Nếu không thì:
python3 -m mlx_lm.generate –model meta-llama/Meta-Llama-3-8B-Instruct
2. Kiểm tra mô hình
python3 -m mlx_lm.generate –model model_path –prompt “xin chào”
Thực hiện
Để sử dụng mô hình đã tải xuống trong ứng dụng của bạn, bạn có thể sử dụng triển khai máy chủ do mlx-lm cung cấp. Điều này sẽ khởi động máy chủ cục bộ giống OpenAI trên http://localhost:8080 .
Điểm cuối: http://localhost:8080/v1/chat/completions
Các trường yêu cầu:
– messages tin nhắn : Mảng các đối tượng tin nhắn có vai trò (ví dụ: người dùng, trợ lý) và nội dung (văn bản tin nhắn).
– role_mapping : Từ điển tùy chọn để tùy chỉnh tiền tố vai trò trong lời nhắc.
– stop dừng : Chuỗi mã thông báo tùy chọn mà quá trình tạo sẽ dừng lại.
– max_tokens : Số nguyên tùy chọn cho số lượng mã thông báo tối đa cần tạo (mặc định: 100).
– stream : Boolean tùy chọn để chỉ ra liệu phản hồi có nên được truyền phát hay không (mặc định: false).
– temperature nhiệt độ : Tùy chọn float cho nhiệt độ lấy mẫu (mặc định: 1.0).
– top_p : Giá trị float tùy chọn cho tham số lấy mẫu hạt nhân (mặc định: 1.0).
– repetition_penalty : Tùy chọn float để áp dụng hình phạt cho các mã thông báo lặp lại (mặc định: 1.0).
– repetition_context_size : Kích thước tùy chọn của cửa sổ ngữ cảnh cho hình phạt lặp lại (mặc định: 20).
– logit_bias : Tùy chọn ánh xạ ID mã thông báo từ điển với giá trị độ lệch của chúng.
Khởi động máy chủ
mlx_lm.server –model model_path
Trò chuyện bằng Python
Sau khi máy chủ chạy, bạn có thể gửi yêu cầu POST đến máy chủ. Sau đây là ví dụ về chatbot được tạo bằng Python:
import requests
import json
from typing import List, Dict
# Function to send a request to the server and get a response
def get_response(
server_url: str,
messages: List[Dict[str, str]],
temperature: float = 0.7,
top_p: float = 0.9,
max_tokens: int = 4096,
stream: bool = True,
) -> str:
headers = {“Content-Type”: “application/json”}
data = {
“messages”: messages,
“temperature”: temperature,
“top_p”: top_p,
“max_tokens”: max_tokens,
“stream”: stream,
}
# Send POST request to the server
response = requests.post(
f”{server_url}/v1/chat/completions”,
headers=headers,
data=json.dumps(data),
stream=stream,
)
response.raise_for_status() # Ensure the request was successful
if stream:
content = “”
for line in response.iter_lines():
if line:
decoded_line = line.decode(“utf-8”).lstrip(“data: “)
try:
json_line = json.loads(decoded_line)
if “choices” in json_line and len(json_line[“choices”]) > 0:
delta = json_line[“choices”][0].get(“delta”, {})
content_piece = delta.get(“content”, “”)
content += content_piece
print(content_piece, end=“”, flush=True)
except json.JSONDecodeError:
continue
print() # Ensure the next prompt starts on a new line
return content
else:
result = response.json()
if “choices” in result and len(result[“choices”]) > 0:
return result[“choices”][0][“message”][“content”]else:
return “”
# Function to run the chatbot
def chatbot(
server_url: str,
system_instructions: str = “”,
temperature: float = 0.7,
top_p: float = 0.9,
max_tokens: int = 4096,
stream: bool = True,
):
messages = [{“role”: “system”, “content”: system_instructions}]while True:
prompt = input(“User: “)
if prompt.lower() in [“exit”, “quit”]:
break
messages.append({“role”: “user”, “content”: prompt})
print(“Assistant: “, end=“”)
response = get_response(
server_url, messages, temperature, top_p, max_tokens, stream
)
messages.append({“role”: “assistant”, “content”: response})
if __name__ == “__main__”:
server_url = “http://localhost:8080”
chatbot(server_url=server_url)
Kết luận
framework MLX cung cấp giải pháp mạnh mẽ và hiệu quả để chạy các mô hình ngôn ngữ lớn trên silicon của Apple. Thiết kế thân thiện với người dùng, lấy cảm hứng từ các framework như NumPy và PyTorch, giúp các nhà nghiên cứu và nhà phát triển dễ tiếp cận. Bất chấp những hạn chế của nó, khả năng đào tạo và suy luận mô hình quy mô lớn của MLX khiến nó trở thành một công cụ có giá trị trong bối cảnh học máy.
Tài liệu tham khảo
https://github.com/ml-explore/mlx-examples/blob/main/llms/mlx_lm
https://github.com/ml-explore/mlx-examples/blob/main/llms/mlx_lm/SERVER.md
https://github.com/ml-explore/mlx?tab=readme-ov-file
https://huggingface.co/docs/hub/en/mlx
https://medium.com/@manuelescobar-dev/running-large-language-models-llama-3-on-apple-silicon-with-apples-mlx-framework-4f4ee6e15f31
Khung Nexa suy luận cục bộ trên thiết bị
Nexa SDK là một khuôn khổ suy luận cục bộ trên thiết bị cho các mô hình ONNX và GGML, hỗ trợ tạo văn bản, tạo hình ảnh, mô hình ngôn ngữ thị giác (VLM), mô hình ngôn ngữ âm thanh, khả năng chuyển giọng nói thành văn bản (ASR) và chuyển văn bản thành giọng nói (TTS). Có thể cài đặt thông qua Python Package hoặc Executable Installer.
https://towardsdatascience.com/running-local-llms-and-vlms-on-the-raspberry-pi-57bd0059c41a
https://github.com/NexaAI/nexa-sdk
Thiết lập máy chủ LLM của riêng bạn bằng MLX Server, Chainlit và Llama 3.1
Sau đây là bản demo về máy chủ LLM cục bộ chạy thành công trên MacBook Pro M2 2022 với RAM 16 GB và Python 3.12.4. Để chạy MLX Server trơn tru, thiết bị của bạn phải đáp ứng các yêu cầu sau:
Chip silicon của Apple (dòng M)
Phiên bản Python gốc >= 3.8
Phiên bản macOS >= 13.3 (Ventura)
https://github.com/flaviodelgrosso/mlx-chainlit-llama3
https://anakin.ai/blog/how-to-run-llama-3-3-70b-locally-mac-windows-linux/
Cài đặt
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
Máy chủ đang chạy
python -m mlx_lm.server –model mlx-community/Meta-Llama-3.1-8B-Instruct-4bit –log-level DEBUG
Thao tác này sẽ khởi động máy chủ MLX và sẽ tải xuống LLM nếu nó chưa được tải xuống từ Hugging Face. Kiểm tra liên kết này để biết thêm thông tin về MLX.
Ứng dụng đang chạy
chainlit run app.py
Thao tác này sẽ khởi động ứng dụng Chainlit.
llamafile cho phép bạn phân phối và chạy LLM bằng một tệp duy nhất
Cách dễ nhất để tự mình thử là tải xuống llamafile mẫu của chúng tôi cho mô hình LLaVA (giấy phép: LLaMA 2 , OpenAI ). LLaVA là một LLM mới có thể làm nhiều việc hơn là chỉ trò chuyện; bạn cũng có thể tải hình ảnh lên và hỏi nó các câu hỏi về chúng. Với llamafile, tất cả những điều này đều diễn ra cục bộ; không có dữ liệu nào rời khỏi máy tính của bạn.
Tải xuống llava-v1.5-7b-q4.llamafile (4,29 GB).
Mở terminal của máy tính.
Nếu bạn đang sử dụng macOS, Linux hoặc BSD, bạn sẽ cần cấp quyền cho máy tính của mình để thực thi tệp mới này. (Bạn chỉ cần thực hiện việc này một lần.)
chmod +x llava-v1.5-7b-q4.llamafile
Nếu bạn sử dụng Windows, hãy đổi tên tệp bằng cách thêm “.exe” vào cuối.
Chạy llamafile. Ví dụ:
./llava-v1.5-7b-q4.llamafile
Trình duyệt của bạn sẽ tự động mở và hiển thị giao diện trò chuyện. (Nếu không, chỉ cần mở trình duyệt và trỏ tới http://localhost:8080 )
Khi bạn trò chuyện xong, hãy quay lại thiết bị đầu cuối và nhấn Control-C để tắt llamafile.
chạy Ollama và thư viện Swift SwiftOpenAI
Tôi không ngờ việc có thể chạy các mô hình mã nguồn mở cục bộ trong ứng dụng Mac OS lại dễ dàng đến vậy, đây sẽ là hướng dẫn ngắn về cách thực hiện việc này bằng Ollama và thư viện Swift SwiftOpenAI.
Năm nay, Ollama đã xây dựng khả năng tương thích cho OpenAI Chat Completions API . Điều này cho phép bạn sử dụng các mô hình cục bộ với cùng API mà bạn sẽ sử dụng để tương tác với các mô hình OpenAI.
Bạn có thể sử dụng các mô hình mạnh mẽ nhưllama3hoặcMistraltrong ứng dụng của mình bằng cách làm theo các bước đơn giản sau!
Bước 1:
Để sử dụngOllama,trước tiên bạn cần tải xuống từ trang web chính thức của họtại đây.
Bước 2:
Bây giờ bạn cần tải xuống mô hình bạn muốn sử dụng. Ví dụ, điều này sẽ tải xuống Llama 3:ollama pull llama3
Bước 3:
Bây giờ bạn có thể sử dụng terminal của mình nếu bạn muốn tương tác với LLM. Bạn chỉ cần làm như sau:ollama run llama3
Bước 4:
Nếu bạn muốn sử dụng điều này trong một ứng dụng, bạn có thể sử dụngSwiftOpenAItrong máy khách của mình. Tất cả những gì bạn cần làm là thêm gói dưới dạng phụ thuộc vào dự án của bạn và sau đó…
import SwiftOpenAI
// Khởi tạo một dịch vụ và sử dụng URL localhost do Ollama cung cấp.
let service = OpenAIServiceFactory .service(baseURL: "http://localhost:11434" )
Sau đó, bạn có thể sử dụng API hoàn thành như sau:
cho lời nhắc = "Kể cho tôi một câu chuyện cười"
let prompt = "Tell me a joke"
let parameters = ChatCompletionParameters(messages: [.init(role: .user, content: .text(prompt))], model: .custom("llama3"))
let chatCompletionObject = service.startStreamedChat(parameters: parameters)
Đó là tất cả những gì bạn cần để chạy các mô hình cục bộ bên trong ứng dụng của riêng bạn! Để biết bản demo về cách sử dụng nó trong iOS, hãy kiểm tradự án ví dụ trong kho lưu trữ này.
https://www.llama.com/docs/llama-everywhere/running-meta-llama-on-mac/
https://github.com/huggingface/transformers.js-examples/tree/main/llama-3.2-webgpu
Chạy cục bộ LM Studio và Anything LLM Desktop
LM Studio: Công cụ đa năng này cho phép bạn khám phá và chạy các LLM khác nhau cục bộ trên máy của mình.
Anything LLM: Một ứng dụng máy tính để bàn giúp nâng cao khả năng của LM Studio, cung cấp một bộ toàn diện để tương tác với các tài liệu, trang web, v.v.
Cả hai công cụ LM Studio và Anything LLM đều là mã nguồn mở, cho phép bạn tự do sử dụng và thậm chí đóng góp vào sự phát triển của chúng.
Thiết lập LM Studio
LM Studio cực kỳ dễ để bắt đầu: Chỉ cần cài đặt, tải xuống một mô hình và chạy nó. Có rất nhiều hướng dẫn trực tuyến. Ngoài ra, nó sử dụng llama.cpp, về cơ bản có nghĩa là bạn phải sử dụng các mô hình có định dạng tệp .gguf. Đây là định dạng phổ biến nhất hiện nay và có hỗ trợ rất tốt. Đối với mô hình nào để chạy, nó phụ thuộc vào bộ nhớ GPU của bạn. Về cơ bản:
4GB VRAM -> Chạy Gemma 2B, Phi 3 Mini ở Q8 hoặc Llama 3 8B/ Gemma 9B ở Q4
8GB VRAM -> Chạy Llama 3 8B/ Gemma 9B ở Q8
16GB VRAM -> Chạy Gemma 27B/ Command R 35B ở Q4
24GB VRAM -> Chạy Gemma 27B ở Q6 hoặc Llama 3 70B ở Q2 (Số lượng thấp, không khuyến khích để mã hóa)
Lượng tử hóa Quantizations (Q2, Q4, v.v.) giống như phiên bản nén của một mô hình. Q8 có chất lượng rất cao (bạn sẽ không nhận thấy nhiều sự khác biệt). Q6 cũng khá cao, gần bằng Q8. Q4 ở mức trung bình nhưng vẫn khá tốt. Q2 ổn đối với các mô hình lớn cho các tác vụ không phải mã hóa nhưng nó khá tàn bạo và làm giảm trí thông minh của chúng. (Đối với các mô hình nhỏ, chúng bị ‘nén’ quá nhiều và mất đi rất nhiều trí thông minh)
Đối với vector hóa, LM studio cung cấp một số hỗ trợ cho việc nhúng mô hình: họ đề xuất Nomic Embed v1.5, nhẹ và khá tốt. Thêm vào đó, bạn có thể dễ dàng sử dụng vì nó cung cấp API cục bộ giống OpenAI.
Bước 1: Tải xuống và cài đặt
Đầu tiên, hãy tải xuống LM Studio cho hệ điều hành của bạn. Sau khi quá trình tải xuống hoàn tất, hãy cài đặt nó theo các bước thông thường.
Bước 2: Khám phá các mô hình
Sau khi cài đặt, hãy mở LM Studio. Bạn sẽ đến một trang khám phá giới thiệu các mô hình phổ biến khác nhau. Đối với hướng dẫn này, hãy tải xuống mô hình Mistal 7B Instruct, một phiên bản lượng tử 4 bit.
Việc tải xuống các mô hình có thể tốn thời gian, vì vậy hãy bắt đầu quá trình này sớm. Sau khi tải xuống, bạn có thể tìm thấy các mô hình của mình trong tab “Mô hình”.
Bước 3: Chạy mô hình
Để kiểm tra mô hình của bạn, hãy chuyển đến biểu tượng bong bóng trò chuyện và chọn mô hình bạn đã tải xuống. Bạn có thể đặt trước lời nhắc hệ thống và bật tính năng giảm tải GPU nếu máy của bạn hỗ trợ nó.
Tăng cường với Anything LLM
Nếu bạn biết LLM nào bạn muốn và tất cả các tùy chọn liên quan đến việc điều chỉnh hiệu suất mô hình, như chuyển tải GPU và các tùy chọn tương tự, thì bạn có thể sử dụng LMStudio + AnythingLLM cùng lúc. AnythingLLM dành cho RAG, Agents và tooling, và LMStudio chỉ để chạy mô hình bạn muốn với các thiết lập đã xác định của bạn. Nó tiên tiến hơn một bước so với AnythingLLM độc lập.
AnythingLLM hoạt động như thế nào
Một không gian làm việc được tạo. LLM chỉ có thể “xem” các tài liệu được nhúng trong không gian làm việc này. Nếu một tài liệu không được nhúng thì LLM không có cách nào có thể xem hoặc truy cập nội dung của tài liệu đó.
Bạn tải lên một tài liệu, điều này giúp bạn có thể “Chuyển vào không gian làm việc” hoặc “nhúng” tài liệu. Tải lên sẽ lấy tài liệu của bạn và biến nó thành văn bản – thế là xong.
Bạn “Di chuyển tài liệu đến không gian làm việc”. Thao tác này sẽ lấy văn bản từ bước 2 và chia thành các phần dễ tiêu hóa hơn. Sau đó, các khối này sẽ được gửi đến mô hình nhúng của bạn và chuyển thành một danh sách các số, được gọi là chuỗi số này được lưu. vào cơ sở dữ liệu vectơ của bạn và về cơ bản là cách RAG hoạt động. Không có gì đảm bảo rằng văn bản có liên quan sẽ ở cùng nhau trong bước này!
Bạn nhập câu hỏi vào hộp trò chuyện và nhấn gửi.
Câu hỏi của bạn sau đó sẽ được nhúng giống như văn bản tài liệu của bạn.
Sau đó, cơ sở dữ liệu vectơ sẽ tính toán vectơ đoạn “gần nhất”. AnythingLLM lọc bất kỳ đoạn văn bản “có điểm thấp” nào (bạn có thể sửa đổi phần này). Mỗi vectơ có văn bản gốc được lấy từ đó. Đây không phải là một ngữ nghĩa thuần túy. quá trình để cơ sở dữ liệu vectơ không “hiểu ý bạn”. Đây là một quá trình toán học sử dụng công thức “Khoảng cách Cosine”. Tuy nhiên, đây là nơi mô hình nhúng được sử dụng và các cài đặt AnythingLLM khác có thể tạo ra sự khác biệt lớn nhất. phần tiếp theo.
Bất kỳ đoạn nào được coi là hợp lệ sẽ được chuyển đến LLM dưới dạng văn bản gốc. Những văn bản đó sau đó sẽ được thêm vào LLM là “Thông báo hệ thống” của nó. Ngữ cảnh này được chèn bên dưới lời nhắc hệ thống của bạn cho không gian làm việc đó.
LLM sử dụng lời nhắc hệ thống + ngữ cảnh, truy vấn và lịch sử của bạn để trả lời câu hỏi một cách tốt nhất có thể.
Bước 1: Tải xuống và cài đặt
Tiếp theo, tải xuống Anything LLM cho hệ điều hành của bạn từ trang web chính thức. Cài đặt nó như bạn làm với bất kỳ phần mềm nào khác.
Bước 2: Cấu hình ban đầu
Khi bạn mở Anything LLM lần đầu tiên, bạn sẽ được nhắc cấu hình phiên bản. Chọn LM Studio làm LLM của bạn và nhập URL cơ sở cho máy chủ cục bộ của LM Studio.
Để tìm URL này, hãy chuyển đến tab Máy chủ cục bộ trong LM Studio. Khởi động máy chủ và sao chép URL được cung cấp.
Bước 3: Thêm tài liệu và trang web
Với Anything LLM, bạn có thể tương tác với nhiều tài liệu và trang web khác nhau. Tải lên tệp PDF, tài liệu văn bản hoặc quét trang web trực tiếp từ giao diện.
Cấu hình nâng cao
Nhúng vào cơ sở dữ liệu vector: Bất cứ điều gì LLM bao gồm mô hình nhúng và cơ sở dữ liệu vector của riêng nó, đảm bảo tất cả dữ liệu của bạn vẫn ở chế độ cục bộ và riêng tư. Trong quá trình thiết lập, bạn có thể chọn sử dụng các tính năng tích hợp sẵn này hoặc kết nối với các dịch vụ bên ngoài.
Không gian làm việc tùy chỉnh: Tạo không gian làm việc tùy chỉnh cho các dự án khác nhau. Ví dụ: tạo một không gian làm việc có tên là “Dự án X” và tải lên tất cả các tài liệu và dữ liệu web có liên quan. LLM sẽ sử dụng ngữ cảnh này để đưa ra câu trả lời chính xác hơn.
Ứng dụng trong thế giới thực: Ví dụ: Quét một trang web
Để thu thập thông tin từ một trang web cụ thể, hãy sử dụng tính năng cạo trong Anything LLM. Sau khi cạo, nhúng dữ liệu vào mô hình. Bây giờ, khi bạn đặt câu hỏi LLM liên quan đến nội dung của trang web đó, nó sẽ cung cấp các câu trả lời sáng suốt.
Cân nhắc về hiệu suất
Yêu cầu phần cứng
Mặc dù hướng dẫn này trình bày các mô hình đang chạy trên CPU, nhưng việc có GPU sẽ cải thiện đáng kể hiệu suất. Ví dụ, các mô hình như Llama 2 sẽ chạy nhanh hơn nhiều trên các máy được trang bị GPU.
Lựa chọn mô hình
Việc lựa chọn mô hình ảnh hưởng đến hiệu suất. Các mô hình nhỏ hơn như phiên bản 7 tỷ tham số của Llama 2 dễ quản lý hơn trên phần cứng kém mạnh mẽ hơn nhưng có thể cung cấp các phản hồi ít phức tạp hơn so với các mô hình lớn hơn.
Thêm tiện ích cho lập trình
Vô Extention của Visual Studio code thêm Cline (prev. Claude). Thêm model code, rồi xong.
Những Model
DeepSeek của Trung Quốc đã phát hành mô hình mã nguồn mở DeepSeek-v3, mô hình này đã vượt trội hơn tất cả các tên tuổi lớn như Claude3.5 Sonnet, GPT-4o, Qwen2.5 Coder và các tên tuổi khác. có kích thước ấn tượng là 685 tỷ tham số, 60 token/giây.Nếu bạn chỉ muốn trò chuyện, mô hình được lưu trữ miễn phí trên kênh trò chuyện chính thức của deepseek:https://www.deepseek.com/
Bài viết liên quan: