TTC Việt Nam
Page Header Background

Tối ưu hóa lập trình với Gemma 4 và Ollama trong VS Code

Trang chủ»Tối ưu hóa lập trình với Gemma 4 và Ollama trong VS Code
Tối ưu hóa lập trình với Gemma 4 và Ollama trong VS Code

Nhiều nhà phát triển thường băn khoăn về khả năng sở hữu một trợ lý lập trình AI hiệu quả mà không phải chịu phí hàng tháng hay lo ngại về việc mã nguồn bị gửi đi. Hiện tại, giải pháp đã có: Gemma 4, khi được triển khai cục bộ thông qua Ollama trong VS Code, mang đến một công cụ hỗ trợ lập trình đáng tin cậy. Đây không chỉ là một công cụ thử nghiệm, mà là một cộng sự làm việc thực thụ, hoạt động hoàn toàn trên hệ thống máy tính cá nhân của bạn.

Bài viết này được đúc kết từ kinh nghiệm thực tế sử dụng thiết lập Gemma 4 hàng ngày trong hơn một tháng, áp dụng trên các dự án Flutter, Python và TypeScript. Đây không phải là một đánh giá sơ bộ, mà là một quy trình làm việc đã được chứng minh về hiệu quả. Để tích hợp Gemma 4 vào VS Code một cách tối ưu, có nhiều phương pháp khác nhau nhằm đảm bảo trải nghiệm liền mạch. Nếu bạn chưa hoàn tất việc cài đặt Gemma 4, hãy tham khảo hướng dẫn chạy Gemma 4 cục bộ trước, sau đó quay lại đây khi Ollama đã sẵn sàng hoạt động.

Yêu cầu phần cứng: Thiết bị của bạn có đáp ứng đủ?

Gemma 4 vận hành hoàn toàn trên phần cứng của bạn, không sử dụng cơ chế dự phòng đám mây. Nếu máy tính của bạn không đủ mạnh, quá trình hoàn thành tác vụ sẽ diễn ra chậm chạp, gây gián đoạn thay vì hỗ trợ công việc. Dưới đây là những yêu cầu phần cứng thực tế bạn cần:

  • Windows hoặc Linux với GPU NVIDIA: 8GB VRAM là mức tối thiểu thực tế cho gemma4:e4b, phiên bản được khuyến nghị cho hầu hết các nhà phát triển. Nếu GPU chỉ có 4-6GB VRAM, hãy bắt đầu với gemma4:e2b và chấp nhận các gợi ý đơn giản hơn.
  • Mac với Apple Silicon: Mọi chip M1, M2, M3 hoặc M4 với 16GB bộ nhớ hợp nhất đều có thể xử lý gemma4:e4b một cách mượt mà. Với 24GB bộ nhớ hợp nhất trở lên, bạn có thể thử gemma4:26b, và từ 32GB trở lên sẽ mang lại cơ hội tốt hơn để sử dụng mô hình gemma4:31b đầy đủ.
  • Không có GPU chuyên dụng: gemma4:e2b vẫn có thể chạy trên CPU, nhưng dự kiến thời gian hoàn thành sẽ là 2-5 giây cho mỗi lần thay vì dưới một giây. Bạn cần tối thiểu 8GB RAM, lý tưởng nhất là 16GB. Cấu hình này có thể chấp nhận được cho các tác vụ trò chuyện, nhưng sẽ gây khó chịu cho tính năng tự động hoàn thành văn bản trực tuyến.

Kiểm tra phần cứng nhanh: Trên Windows, nhấn Ctrl+Shift+Esc để mở Task Manager, chọn Performance > GPU và tìm Dedicated GPU memory. Trên Mac, nhấp vào menu Apple và kiểm tra About This Mac để xem thông tin chip và bộ nhớ. Trên Linux, chạy lệnh nvidia-smi trong terminal.

Cài đặt VS Code (Bỏ qua nếu đã có)

Nếu VS Code đã được cài đặt trên máy, hãy chuyển đến phần Ollama bên dưới.

  1. Truy cập code.visualstudio.com và tải xuống trình cài đặt phù hợp với hệ điều hành của bạn.
    • Windows: Chạy file .exe. Trong quá trình cài đặt, chọn Add to PATHRegister Code as an editor for supported file types để tránh các vấn đề phát sinh sau này.
    • Mac: Giải nén file đã tải xuống, kéo VS Code vào thư mục Applications. Khi khởi chạy lần đầu, nhấp chuột phải vào biểu tượng và chọn Open để bỏ qua cảnh báo Gatekeeper của macOS.
    • Linux: Tải xuống gói .deb và chạy lệnh sudo dpkg -i code_*.deb, hoặc cài đặt qua snap bằng lệnh sudo snap install code --classic.
  2. Mở VS Code và nhấn Ctrl+` (phím dấu nháy đơn phía trên phím Tab) để mở terminal tích hợp. Bạn sẽ cần sử dụng nó cho các bước tiếp theo.

Cài đặt Ollama — Nền tảng quan trọng

Ollama là thành phần cốt lõi chịu trách nhiệm tải xuống và chạy Gemma 4 trên thiết bị của bạn. Nó hoạt động như một máy chủ cục bộ ẩn danh, sẵn sàng tiếp nhận các yêu cầu từ các extension của VS Code. Mọi phương pháp trong hướng dẫn này đều phụ thuộc vào Ollama.

  1. Truy cập ollama.com và tải xuống trình cài đặt.
    • Windows: Chạy file .exe. Sau khi cài đặt, Ollama sẽ tự động khởi động và hiển thị dưới dạng biểu tượng trong khay hệ thống (góc dưới bên phải, gần đồng hồ).
    • Mac: Mở file .dmg, kéo Ollama vào Applications và khởi chạy. Biểu tượng của nó sẽ xuất hiện trên thanh menu.
    • Linux: Chạy lệnh curl -fsSL https://ollama.com/install.sh | sh trong terminal. Ollama sẽ tự động cài đặt và khởi chạy như một dịch vụ nền.
  2. Xác minh cài đặt: Mở terminal và chạy lệnh:
    ollama --version

    Nếu bạn thấy số phiên bản, tức là quá trình cài đặt đã thành công. Nếu bạn nhận được thông báo "command not found", hãy khởi động lại terminal hoặc máy tính của bạn.

  3. Xác nhận máy chủ đang hoạt động: Truy cập http://localhost:11434 trong trình duyệt của bạn. Bạn sẽ thấy dòng chữ "Ollama is running". Nếu không, hãy khởi chạy lại ứng dụng Ollama từ menu Start hoặc thư mục Applications.

Tải xuống Gemma 4 — Thực hiện chỉ một lần

Bước này sẽ tải trọng số mô hình vào ổ đĩa cục bộ của bạn. Đây là thao tác chỉ cần thực hiện một lần; sau đó, mô hình sẽ được nạp từ bộ nhớ chỉ trong vài giây mỗi khi bạn bắt đầu lập trình.

Tại thời điểm cập nhật này, dòng Gemma 4 của Google bao gồm các phiên bản E2B, E4B, 26B, A4B và 31B. Các tag Gemma 4 của Ollama tuân thủ theo cách đặt tên này. Do đó, hãy sử dụng các tag cụ thể dưới đây thay vì các tham chiếu 12B hoặc 27B cũ hơn mà bạn có thể bắt gặp ở nơi khác.

  1. Mở cửa sổ dòng lệnh (hoặc sử dụng terminal tích hợp trong VS Code với tổ hợp phím Ctrl+`).
  2. Tải xuống mô hình E4B, phiên bản này cung cấp sự cân bằng tốt nhất giữa tốc độ và chất lượng cho phần lớn các nhà phát triển:
    ollama pull gemma4:e4b
  3. Nếu VRAM hoặc CPU bị hạn chế? Tải xuống tag Ollama chính thức nhẹ nhất: ollama pull gemma4:e2b
  4. Bạn có 16GB+ VRAM hoặc nhiều bộ nhớ hợp nhất? Tải xuống mô hình mixture-of-experts 26B A4B để có khả năng suy luận mạnh mẽ hơn đáng kể: ollama pull gemma4:26b
  5. Sở hữu 24GB+ VRAM hoặc 32GB+ bộ nhớ hợp nhất? Tải xuống mô hình 31B hàng đầu: ollama pull gemma4:31b. Nếu bạn muốn tag lượng tử hóa rõ ràng, hãy sử dụng ollama pull gemma4:31b-it-q4_K_M.
  6. Xác minh quá trình tải xuống: Chạy ollama list — mô hình của bạn sẽ hiển thị cùng với kích thước.
  7. Kiểm tra nhanh: Chạy lệnh ollama run gemma4:e4b để mở cửa sổ trò chuyện. Hỏi một câu đơn giản như "Write a hello world in Python". Nếu nhận được đoạn code hoạt động, mọi thứ đã được thiết lập đúng. Gõ /bye để thoát.

Góc nhìn chuyên gia từ TTC Việt Nam: Việc triển khai các mô hình AI tiên tiến như Gemma 4 cục bộ mang lại lợi thế vượt trội về bảo mật dữ liệu và quyền riêng tư, đặc biệt quan trọng trong các dự án phát triển phần mềm nhạy cảm. Thay vì phụ thuộc vào các dịch vụ đám mây bên ngoài, khả năng xử lý trên thiết bị đảm bảo mã nguồn và thông tin dự án của bạn luôn nằm trong tầm kiểm soát. Điều này không chỉ giúp giảm thiểu rủi ro về rò rỉ dữ liệu mà còn tối ưu hóa chi phí vận hành lâu dài, đồng thời cung cấp độ trễ thấp hơn, nâng cao hiệu suất làm việc cho đội ngũ kỹ sư. Tại TTC Việt Nam, chúng tôi nhận thấy xu hướng này là chìa khóa để xây dựng các giải pháp mạng và viễn thông an toàn, hiệu quả hơn, thúc đẩy sự đổi mới trong kỷ nguyên AI.

Kiểm tra Gemma 4 trong ứng dụng Ollama desktop (Không cần VS Code)

Các bản build Ollama gần đây đi kèm với cửa sổ trò chuyện trên desktop được tích hợp sẵn — đây là cách nhanh nhất để xác nhận cài đặt của bạn hoạt động trước khi kết nối bất cứ thứ gì với VS Code. Nếu ứng dụng dành cho desktop giao tiếp tốt với Gemma 4, mọi phương pháp bên dưới cũng sẽ hoạt động, vì tất cả chúng đều kết nối với cùng một máy chủ Ollama cục bộ tại localhost:11434.

  1. Mở ứng dụng Ollama từ menu Start (Windows), thư mục Applications (Mac) hoặc biểu tượng khay hệ thống.
  2. Bạn sẽ thấy giao diện trò chuyện tối giản với bộ chọn mô hình ở góc dưới bên phải. Nhấp vào đó và chọn biến thể bạn đã chọn, chẳng hạn như gemma4:e2b, gemma4:e4b, gemma4:26b hoặc gemma4:31b.
  3. Nhập một prompt nhanh như "Write a Python function that reverses a string" và nhấn Enter. Gemma 4 sẽ bắt đầu truyền phản hồi trong vòng một hoặc hai giây.
Giao diện ứng dụng trò chuyện tích hợp của Ollama trên desktop với mô hình Gemma 4 được chọn.
Đây là giao diện ứng dụng trò chuyện tích hợp của Ollama trên desktop, với mô hình Gemma 4 đã được chọn. Nếu chức năng này hoạt động, mọi phương pháp kết nối với VS Code bên dưới cũng sẽ hoạt động hiệu quả, vì tất cả đều truy cập cùng một máy chủ cục bộ.

Không thấy cửa sổ trò chuyện? Bạn có thể đang sử dụng phiên bản Ollama cũ. Hãy cập nhật lên phiên bản mới nhất từ ​​ollama.com — giao diện người dùng trò chuyện trên desktop hiện đã được tích hợp sẵn trong mọi bản cài đặt mới. Lệnh CLI ollama run gemma4:e4b (đã đề cập ở trên) vẫn hoạt động trên mọi phiên bản nếu bạn muốn sử dụng terminal.

Phương pháp 1: Extension Continue — Thay thế Copilot hiệu quả (Được khuyến nghị)

Đây là phương pháp được khuyến nghị cho đa số nhà phát triển. Continue cung cấp các tính năng trò chuyện, chỉnh sửa mã trực tiếp và tự động hoàn thành bằng phím Tab — về cơ bản là mọi thứ mà GitHub Copilot cung cấp, nhưng được định hướng đến mô hình Gemma 4 cục bộ của bạn. Nếu bạn sử dụng Android Studio cho các dự án Flutter, thiết lập Continue + Ollama tương tự cũng hoạt động hiệu quả tại đó.

Thiết lập

  1. Trong VS Code, nhấn Ctrl+Shift+X (Cmd+Shift+X trên Mac) và tìm kiếm Continue. Cài đặt phiên bản được phát hành bởi Continue.dev.
  2. Nhấp vào biểu tượng Continue ở thanh bên trái. Trình hướng dẫn thiết lập sẽ khởi chạy và tự động phát hiện Ollama — nó liệt kê mọi mô hình bạn đã tải về. Chọn Ollama làm nhà cung cấp của bạn.
  3. Nếu được yêu cầu đăng nhập, hãy nhấp vào Skip hoặc Use local models. Bạn không cần tài khoản để sử dụng các mô hình cục bộ.
  4. Chọn Gemma 4 từ menu thả xuống mô hình ở đầu bảng trò chuyện. Tính năng trò chuyện và chỉnh sửa trực tiếp sẽ hoạt động ngay sau bước này.

Kích hoạt tính năng tự động hoàn thành bằng phím Tab (quan trọng — tính năng này mặc định bị tắt)

Các chức năng trò chuyện và chỉnh sửa mã trực tiếp của Continue hoạt động ngay lập tức, nhưng tính năng tự động hoàn thành bằng phím Tab không được bật mặc định. Bạn cần cấu hình riêng:

  1. Mở file cấu hình của Continue. Nhấn tổ hợp phím Ctrl+Shift+P (Cmd+Shift+P trên Mac), gõ Continue: Open Config và chọn. Các phiên bản Continue mới hơn sử dụng config.yaml; những bản cài đặt cũ hơn có thể vẫn hiển thị config.json. File này nằm trong ~/.continue/ trên Mac/Linux hoặc C:\Users\YourName\.continue\ trên Windows.
  2. Trong file config.yaml, hãy thêm Gemma 4 vào mục models và bao gồm vai trò:
    name: Local Gemma 4
    version: 0.0.1
    schema: v1
    
    models:
      - name: Gemma 4 E4B Chat
        provider: ollama
        model: gemma4:e4b
        roles:
          - chat
          - edit
          - apply
    
      - name: Gemma 4 E2B Autocomplete
        provider: ollama
        model: gemma4:e2b
        roles:
          - autocomplete
        autocompleteOptions:
          debounceDelay: 350
          maxPromptTokens: 1024
  3. Nếu cài đặt Continue của bạn vẫn sử dụng config.json, kiểu tabAutocompleteModel cũ vẫn có thể hoạt động, nhưng hãy coi đó là đường dẫn cũ và chuyển sang YAML khi extension nhắc bạn.
  4. Lưu file. Continue sẽ tự động tải lại cấu hình — không cần khởi động lại VS Code.

Mẹo: Để tự động hoàn thành nhanh hơn, bạn nên sử dụng một mô hình nhẹ hơn như gemma4:e2b chuyên biệt cho việc hoàn thành bằng phím Tab. Trong khi đó, hãy dùng các mô hình mạnh hơn như gemma4:e4b, gemma4:26b hoặc gemma4:31b cho các tác vụ trò chuyện. Tốc độ là yếu tố then chốt cho các gợi ý nội tuyến.

Ba phím tắt bạn sẽ sử dụng thường xuyên

  • Trò chuyện về mã đã chọn: Bôi đen bất kỳ đoạn mã nào và nhấn Ctrl+L (Cmd+L trên Mac). Đặt các câu hỏi như "giải thích đoạn mã này", "tìm lỗi" hoặc "điều gì xảy ra nếu đầu vào là null?". Bạn cũng có thể gõ @file hoặc @codebase trong khung trò chuyện để tham chiếu các file khác mà không cần dán thủ công.
  • Chỉnh sửa mã trực tiếp: Bôi đen mã, nhấn Ctrl+I (Cmd+I trên Mac) và nhập lệnh — "thêm xử lý lỗi", "chuyển đổi sang async/await", "thêm kiểu TypeScript". Bạn sẽ nhận được một bản so sánh để xem xét trước khi chấp nhận thay đổi.
  • Tự động hoàn thành bằng phím Tab: Chỉ cần bắt đầu gõ. Văn bản mờ màu xám sẽ xuất hiện sau một khoảng dừng ngắn — nhấn Tab để chấp nhận đề xuất hoặc tiếp tục gõ để bỏ qua. Nhấn Esc để đóng.

Khắc phục sự cố

  • Không có đề xuất hoặc phản hồi trò chuyện: Mở http://localhost:11434 trong trình duyệt của bạn. Nếu không hiển thị "Ollama is running", hãy khởi chạy lại Ollama từ menu Start hoặc thư mục Applications.
  • Tính năng tự động hoàn thành tab không hiển thị: Đảm bảo mô hình config.yaml của bạn bao gồm vai trò autocomplete. Nếu không, chỉ có tính năng trò chuyện và chỉnh sửa trực tiếp hoạt động.
  • Đề xuất rất chậm: Chạy lệnh ollama ps trong terminal. Nếu cột bộ xử lý hiển thị cpu thay vì gpu, hãy chuyển sang mô hình nhỏ hơn như gemma4:e2b hoặc cập nhật driver GPU của bạn.

Phương pháp 2: Extension CodeGPT — Tối ưu cho quy trình làm việc nhiều cuộc trò chuyện

Nếu bạn dành nhiều thời gian để hỏi về mã hơn là trực tiếp viết mã — gỡ lỗi, giải thích mã cũ, lên ý tưởng kiến trúc — CodeGPT là một lựa chọn đáng cân nhắc. Extension này tập trung mạnh vào trải nghiệm trò chuyện và có giao diện hội thoại sạch hơn so với Continue, mặc dù tính năng tự động hoàn thành trực tiếp của nó có phần chậm hơn.

Thiết lập

  1. Nhấn tổ hợp phím Ctrl+Shift+X (Cmd+Shift+X trên Mac), tìm kiếm CodeGPT và tiến hành cài đặt.
  2. Nhấp vào biểu tượng CodeGPT trong thanh bên và chọn Ollama làm nhà cung cấp AI của bạn.
  3. CodeGPT sẽ tự động quét các mô hình có sẵn cục bộ. Chọn Gemma 4 từ menu thả xuống. Nếu mô hình không hiển thị, hãy xác nhận Ollama đang chạy bằng lệnh ollama list và nhấp vào nút làm mới.
  4. Tùy chọn nhưng được khuyến nghị: Đặt prompt hệ thống sau trong cài đặt của CodeGPT để điều chỉnh chất lượng đầu ra:
    You are an expert software developer. Write clean, well-structured code. When explaining, break it down step by step.
    Bạn là một nhà phát triển phần mềm chuyên nghiệp. Hãy viết code sạch, có cấu trúc tốt. Khi giải thích, hãy chia nhỏ từng bước.
  5. Kiểm tra: Hãy hỏi:
    Write a Python function that checks if a number is prime
    Viết một hàm Python kiểm tra xem một số có phải là số nguyên tố hay không

    Nếu bạn nhận được đoạn code hoạt động, quá trình thiết lập đã hoàn tất.

Cách sử dụng

Bôi đen mã trong trình soạn thảo của bạn, nhấp chuột phải và bạn sẽ thấy các tùy chọn menu ngữ cảnh của CodeGPT — "Giải thích mã này", "Tìm lỗi", "Tái cấu trúc", "Tạo kiểm thử". CodeGPT cũng lưu giữ lịch sử hội thoại của bạn giữa các phiên VS Code, điều này rất hữu ích khi bạn đang giải quyết một vấn đề gỡ lỗi nhiều bước trong nhiều giờ.

Lưu ý: Tính năng tự động hoàn thành bằng phím Tab của CodeGPT với các mô hình cục bộ kém tin cậy hơn đáng kể so với Continue. Nếu các gợi ý trực tiếp theo thời gian thực quan trọng với bạn, hãy sử dụng Continue (Phương pháp 1) và chỉ dùng CodeGPT để trò chuyện.

Phương pháp 3: Extension Ollama — Tối giản và nhẹ nhàng

Nếu bạn chỉ muốn một cửa sổ trò chuyện đơn giản để hỏi Gemma 4 các câu hỏi mà không cần bất kỳ tính năng bổ sung nào, extension Ollama độc lập là cách nhanh nhất. Không cần tài khoản, không cần file cấu hình, không cần học hỏi gì cả.

Thiết lập

  1. Nhấn Ctrl+Shift+X, tìm kiếm Ollama và cài đặt extension có số lượt tải xuống cao nhất.
  2. Nhấn Ctrl+Shift+P (Cmd+Shift+P trên Mac), nhập Ollama và chọn Ollama: Chat.
  3. Chọn Gemma 4 từ danh sách mô hình. Nếu danh sách trống, Ollama không chạy — hãy khởi động lại.
  4. Kiểm tra: Hãy hỏi:
    What does the map function do in JavaScript?
    Hàm map trong JavaScript làm nhiệm vụ gì?

    ... — nếu nhận được câu trả lời mạch lạc, bạn đã hoàn tất.

Extension này không cung cấp gì ngoài một bảng trò chuyện — không có tự động hoàn thành nội tuyến, không có chỉnh sửa nội tuyến, không có lập chỉ mục không gian làm việc. Đó là sự đánh đổi cho sự đơn giản của nó. Nó hầu như không ảnh hưởng đến hiệu suất của VS Code, điều này làm cho nó trở thành một lựa chọn tốt cho các máy tính cũ hơn. Để có trải nghiệm đầy đủ, hãy sử dụng Continue (Phương pháp 1).

Nếu bạn cần tư vấn chuyên sâu về tích hợp AI trong môi trường phát triển hoặc các giải pháp mạng và viễn thông, đừng ngần ngại liên hệ TTC Việt Nam (ttcvn.net) ngay hôm nay. Đội ngũ chuyên gia của chúng tôi luôn sẵn sàng hỗ trợ bạn!

NỘI DUNG

  • Đang tải Mục lục...

ĐĂNG KÝ TRẢI NGHIỆM
DỊCH VỤ

HƠN 5.000+ DOANH NGHIỆP ĐÃ VÀ ĐANG ĐỒNG HÀNH CÙNG TTC VIỆT NAM ĐỂ XÂY DỰNG HỆ THỐNG

NHẬN TƯ VẤN MIỄN PHÍ