TTC Việt Nam
Page Header Background

Hướng dẫn chi tiết cách cài đặt và sử dụng Gemma 4 trong VS Code

Trang chủ»Hướng dẫn chi tiết cách cài đặt và sử dụng Gemma 4 trong VS Code
Hướng dẫn chi tiết cách cài đặt và sử dụng Gemma 4 trong VS Code

Mỗi nhà phát triển đều có cùng một câu hỏi: "Liệu tôi có thể có được một trợ lý lập trình AI thực thụ mà không cần trả 19 USD/tháng và không cần gửi code của mình lên máy chủ của người khác không?". Câu trả lời, tính đến giữa năm 2026, là có — và Gemma 4 chạy cục bộ thông qua Ollama bên trong VS Code là cách tốt nhất để làm điều đó. Không phải là một món đồ chơi. Không phải là một sự thỏa hiệp. Một người bạn đồng hành lập trình thực sự hữu ích, hoạt động hoàn toàn trên máy tính của bạn.

Hướng dẫn này là kết quả của việc sử dụng hàng ngày thiết lập toàn thời gian trên trong hơn một tháng, trên các dự án Flutter, Python và TypeScript — không phải là một thử nghiệm nhanh, mà là một quy trình làm việc thực tế được xây dựng dựa trên Gemma 4. Có nhiều cách khác nhau để kết nối Gemma 4 với VS Code, cung cấp cho bạn các thiết lập cụ thể giúp trải nghiệm nhanh chóng thay vì gây khó chịu. Nếu bạn chưa cài đặt Gemma 4, hãy bắt đầu với hướng dẫn dành cho người mới chạy Gemma 4 cục bộ và quay lại đây sau khi Ollama đã hoạt động.

Trước khi bắt đầu: Máy của bạn có đủ mạnh không?

Gemma 4 hoạt động hoàn toàn trên phần cứng của bạn — không có cơ chế dự phòng đám mây. Nếu máy của bạn không đủ mạnh, bạn sẽ gặp phải tình trạng hoàn thành chậm chạp, làm gián đoạn quá trình làm việc thay vì hỗ trợ nó. Đây là những yêu cầu phần cứng tối thiểu:

  • Windows hoặc Linux với GPU NVIDIA: 8GB VRAM là điểm khởi đầu thực tế cho gemma4:e4b (tag mặc định tốt nhất). Với GPU 4-6GB VRAM, hãy sử dụng gemma4:e2b.
  • Mac với Apple Silicon: Chip M1, M2, M3 hoặc M4 với tối thiểu 16GB bộ nhớ hợp nhất để chạy mượt gemma4:e4b. Với 24GB trở lên có thể dùng gemma4:26b, và 32GB trở lên cho mô hình gemma4:31b đầy đủ.
  • Không có GPU chuyên dụng: Bạn có thể chạy gemma4:e2b trên CPU, cần tối thiểu 8GB RAM (khuyến nghị 16GB). Lưu ý: Tốc độ hoàn thành sẽ chậm hơn, khoảng 2-5 giây/lần.

Kiểm tra phần cứng nhanh: Người dùng Windows sử dụng Ctrl+Shift+Esc vào Performance > GPU kiểm tra Dedicated GPU memory. Người dùng Mac kiểm tra tại About This Mac. Người dùng Linux chạy lệnh nvidia-smi trong terminal.

Cài đặt VS Code (Bỏ qua nếu bạn đã có)

Nếu VS Code đã có trên máy của bạn, hãy chuyển thẳng đến phần Ollama bên dưới.

1. Truy cập code.visualstudio.com và tải xuống trình cài đặt cho hệ điều hành của bạn.

  • Windows: Chạy file .exe, chọn Add to PATHRegister Code as an editor.
  • Mac: Giải nén, kéo vào Applications, khi khởi chạy lần đầu hãy nhấp chuột phải chọn Open.
  • Linux: Dùng file .deb qua lệnh sudo dpkg -i code_*.deb hoặc cài qua snap bằng sudo snap install code --classic.

2. Mở VS Code và nhấn Ctrl+` để mở terminal tích hợp.

Cài đặt Ollama — Công cụ đằng sau mọi thứ

Ollama đóng vai trò máy chủ cục bộ chạy ngầm, cho phép VS Code gửi prompt đến Gemma 4. Mọi phương pháp đều phụ thuộc vào công cụ này.

1. Tải Ollama tại ollama.com.

  • Windows: Chạy .exe, ứng dụng sẽ hiện ở khay hệ thống.
  • Mac: Chạy .dmg, ứng dụng sẽ nằm trên thanh menu.
  • Linux: Dùng lệnh curl -fsSL https://ollama.com/install.sh | sh để cài đặt.

2. Xác minh cài đặt: Gõ ollama --version trong terminal. Nếu thành công sẽ hiện phiên bản.

3. Kiểm tra trạng thái máy chủ: Truy cập http://localhost:11434. Nếu hiển thị "Ollama is running" là đã sẵn sàng.

Tải xuống Gemma 4 — Một lệnh, Tải xuống một lần

Bước này tải trọng số mô hình cục bộ. Các tag của Ollama được đặt tên theo quy ước: gemma4:e2b, gemma4:e4b, gemma4:26b, gemma4:31b.

1. Sử dụng terminal (hoặc Ctrl+`) để tải model.

2. Tải bản cân bằng (E4B): ollama pull gemma4:e4b.

3. Tải bản nhẹ (E2B) nếu máy yếu: ollama pull gemma4:e2b.

4. Tải bản mạnh (26B/A4B) nếu RAM/VRAM lớn: ollama pull gemma4:26b.

5. Tải bản tối đa (31B): ollama pull gemma4:31b.

6. Kiểm tra bằng lệnh ollama list.

7. Test nhanh bằng ollama run gemma4:e4b, gõ /bye để thoát.

Kiểm tra Gemma 4 trong ứng dụng Ollama desktop

Bạn có thể thử nghiệm mô hình trực tiếp qua giao diện GUI của Ollama thay vì CLI.

  1. Mở ứng dụng Ollama desktop.
  2. Chọn model (e2b, e4b, 26b, 31b) tại bộ chọn góc dưới bên phải.
  3. Nhập prompt bất kỳ để kiểm tra tốc độ phản hồi.
Đây là ứng dụng trò chuyện tích hợp sẵn của Ollama trên desktop với Gemma 4 được chọn. Nếu cách này hoạt động, mọi phương pháp VS Code bên dưới cũng sẽ hoạt động — tất cả đều truy cập cùng một máy chủ cục bộ.
Đây là ứng dụng trò chuyện tích hợp sẵn của Ollama trên desktop với Gemma 4 được chọn. Nếu cách này hoạt động, mọi phương pháp VS Code bên dưới cũng sẽ hoạt động — tất cả đều truy cập cùng một máy chủ cục bộ.

Góc nhìn chuyên gia từ TTC Việt Nam: Việc chạy AI cục bộ như Gemma 4 không chỉ giúp bảo mật dữ liệu nguồn (Source Code) tối đa — yếu tố sống còn trong các dự án doanh nghiệp — mà còn giúp các kỹ sư chủ động hơn trong môi trường hạn chế internet. Với các giải pháp hạ tầng mạng mạnh mẽ, TTC Việt Nam nhận định rằng xu hướng AI nội bộ (On-premise AI) sẽ là chìa khóa giúp doanh nghiệp tối ưu chi phí vận hành thay vì phụ thuộc vào các API đám mây đắt đỏ. Khi kết hợp với hạ tầng mạng tối ưu, độ trễ xử lý sẽ được giảm thiểu đáng kể, mang lại hiệu suất lập trình tương đương với các dịch vụ AI trả phí cao cấp.

Phương pháp 1: Extension Continue — Thay thế hoàn toàn Copilot (Được khuyến nghị)

Continue là giải pháp mạnh mẽ nhất, hỗ trợ trò chuyện, chỉnh sửa và tự động hoàn thành.

Thiết lập

  1. Cài đặt extension Continue trong VS Code.
  2. Chọn Ollama làm provider trong thiết lập.
  3. Cấu hình config.yaml để thêm model cho mục đích trò chuyện (chat, edit, apply) và mục đích tự động hoàn thành (autocomplete) riêng biệt để tối ưu tốc độ.

Cách sử dụng

  • Ctrl+L: Trò chuyện với đoạn code được chọn.
  • Ctrl+I: Chỉnh sửa trực tiếp code.
  • Phím Tab: Sử dụng tự động hoàn thành nội tuyến.

Phương pháp 2: Extension CodeGPT — Tốt nhất cho quy trình làm việc nhiều cuộc trò chuyện

Tập trung vào giao diện hội thoại chuyên nghiệp, quản lý lịch sử trò chuyện tốt. Phù hợp để gỡ lỗi và kiến trúc hơn là viết code nhanh.

Phương pháp 3: Extension Ollama — Tối giản và Nhẹ nhàng

Giải pháp đơn giản nhất, tích hợp cửa sổ chat, không cấu hình phức tạp, phù hợp cho cấu hình máy yếu.

Nếu bạn cần tư vấn kỹ thuật chuyên sâu về giải pháp mạng hoặc hỗ trợ tối ưu hóa quy trình làm việc với các hệ thống AI nội bộ, hãy liên hệ với đội ngũ chuyên gia của TTC Việt Nam qua website ttcvn.net để được hỗ trợ tốt nhất.

NỘI DUNG

  • Đang tải Mục lục...

ĐĂNG KÝ TRẢI NGHIỆM
DỊCH VỤ

HƠN 5.000+ DOANH NGHIỆP ĐÃ VÀ ĐANG ĐỒNG HÀNH CÙNG TTC VIỆT NAM ĐỂ XÂY DỰNG HỆ THỐNG

NHẬN TƯ VẤN MIỄN PHÍ