Ô tô nhỏ hơn 150 pixel. Tổ ong chỉ vỏn vẹn 15 pixel. Liệu các mô hình deep learning hiện đại có đủ tinh nhạy để “nhìn thấy” những gì mắt người gần như bỏ qua trên ảnh vệ tinh? Nghiên cứu mới nhất được công bố năm 2026 trên tạp chí Expert Systems with Applications đã trực tiếp trả lời câu hỏi này bằng cách đưa 6 kiến trúc deep learning hàng đầu vào một cuộc thử nghiệm toàn diện với ảnh viễn thám độ phân giải cao. Hãy cùng VSGA phân tích kết quả và tìm ra mô hình phù hợp nhất cho bài toán nhận diện đối tượng nhỏ trong thực tế.

Đối tượng nhỏ trong ảnh vệ tinh — nhỏ đến mức nào?

Định nghĩa dựa trên pixel: Cách tiếp cận mới từ nghiên cứu 2026

Thay vì sử dụng tỷ lệ tương đối so với kích thước ảnh, nghiên cứu xác định đối tượng nhỏ dựa thuần túy trên số lượng pixel, cụ thể là diện tích dưới 32 × 32 pixel. Cách định nghĩa này mang tính nhất quán cao, dễ áp dụng trong các pipeline xử lý ảnh tự động, và đặc biệt phù hợp với đặc thù của dữ liệu viễn thám — nơi độ phân giải không gian của ảnh ảnh hưởng trực tiếp đến kích thước biểu kiến của đối tượng.

Ô tô và tổ ong — Hai thách thức điển hình cho deep learning viễn thám

Hai đối tượng thực nghiệm được chọn đại diện cho hai lĩnh vực ứng dụng hoàn toàn khác nhau:

  • Xe hơi (đô thị): Dưới 150 pixel trong ảnh vệ tinh đô thị, dễ bị nhầm lẫn với các đối tượng hình chữ nhật khác như bóng đổ, mái nhà hay vệt đường kẻ.
  • Tổ ong (nông nghiệp): Chỉ khoảng 15 pixel hoặc ít hơn, gần như không thể phân biệt bằng mắt thường và là một trong những thách thức nhận diện khó nhất trong lĩnh vực deep learning ứng dụng viễn thám.
1 1
Minh họa đối tượng nhỏ trong ảnh viễn thám: ô tô đô thị (trái) và tổ ong nông nghiệp (phải)

6 Mô hình Deep Learning — 6 cách “nhìn” khác nhau

Nghiên cứu lựa chọn 6 mô hình đại diện cho 3 nhóm kiến trúc chính trong bài toán nhận diện đối tượng. Bên cạnh đó, hai mô hình được thiết kế đặc biệt cho đối tượng nhỏ cũng được đưa vào so sánh: FocusDet (kiến trúc hai tầng tương tự Faster R-CNN) và FFCA-YOLO — Feature Enhancement, Fusion and Context Aware YOLO (biến thể của YOLO).

Faster R-CNN & Cascade R-CNN

  • Cơ chế: Tìm vùng nghi vấn trước, phân loại sau (“nhìn hai lần”).
  • Đặc điểm: Định vị chính xác nhờ tinh chỉnh nhiều bước, nhưng tốc độ chậm và dễ làm mất chi tiết đối tượng cực nhỏ khi qua các lớp xử lý sâu.
2
Kiến trúc mô hình Faster R-CNN
Fig 2 1@6x 8
Kiến trúc mô hình Cascade R-CNN

SSD

  • Cơ chế: Dự đoán trực tiếp đối tượng dựa trên các khung hình học định sẵn.
  • Đặc điểm: Tốc độ xử lý nhanh là lợi thế rõ ràng, song SSD kém hiệu quả trong nhận dạng đối tượng nhỏ do thiếu cơ chế kết hợp thông tin xuyên suốt giữa các lớp bản đồ đặc trưng — điểm yếu so với các mô hình deep learning thế hệ sau.
4 scaled
Kiến trúc mô hình SSD

YOLOv11

  • Cơ chế: Dự đoán trực tiếp tọa độ mà không cần khung mẫu.
  • Đặc điểm: là mô hình deep learning đạt được sự cân bằng tốt nhất giữa độ chính xác nhận diện và tốc độ. Cơ chế chú ý giúp mô hình tập trung vào các vùng quan trọng, đặc biệt hữu ích khi đối tượng nhỏ xuất hiện trong bối cảnh nền phức tạp.
Kiến trúc mô hình YOLOv11 trong deep learning
Kiến trúc mô hình YOLOv11

RT-DETR

  • Cơ chế: Coi bức ảnh là một chuỗi thông tin và sử dụng cơ chế chú ý toàn cục.
  • Đặc điểm: nổi bật trong nhận dạng đối tượng bị che khuất nhờ khả năng suy luận ngữ cảnh mạnh mẽ. Tuy nhiên, chi phí tính toán rất cao khiến mô hình deep learning này đòi hỏi phần cứng mạnh khi triển khai ở quy mô thực tế.
Fig 4@6x 8 scaled
Kiến trúc mô hình RT-DETR

Deformable DETR

  • Cơ chế: Chỉ tập trung vào một số điểm lấy mẫu quan trọng để giảm tải tính toán.
  • Đặc điểm: Tương đối hiệu quả, song dễ bị nhầm lẫn (nhiễu) khi các đối tượng nhỏ nằm quá sát nhau.
7 scaled
Kiến trúc mô hình Deformable DETR

Bảng so sánh tổng hợp

Mô hình

Kiến trúc

Khả năng nhận diện đối tượng   nhỏ

Khả năng nhận diện đối tượng bị che khuất

Tốc độ

Yêu cầu tài nguyên tính toán

Faster R-CNN

Hai giai đoạn, dùng khung mẫu, mạng đề xuất vùng

Trung bình

Trung bình

Chậm

Trung bình

Cascade R-CNN

Đa giai đoạn, dùng khung mẫu, mạng đề xuất vùng

Trung bình

Khá tốt

Chậm

Cao

SSD

Một giai đoạn, dùng khung mẫu, đa quy mô

Yếu

Yếu

Nhanh

Nhẹ

YOLOv11 *

Một giai đoạn, không khung mẫu, kết hợp CSP & FPN

Tốt

Tốt

Nhanh

Trung bình

RT-DETR

Transformer, cơ chế chú ý đa quy mô

Tốt

Rất tốt

Trung bình

Rất cao

Deformable DETR

Transformer, cơ chế chú ý biến dạng

Khá tốt

Khá tốt

Trung bình

Cao

* YOLOv11: cân bằng nhất giữa hiệu suất và chi phí tính toán trong thực nghiệm.

Kết quả thực nghiệm — những phát hiện đáng chú ý:

Ba tập dữ liệu viễn thám được sử dụng trong thực nghiệm:

  • xView: Ảnh đa phổ độ phân giải 0,3 m/pixel, gồm 60 lớp đối tượng.
  • SkySat: Độ phân giải 0,5 m/pixel, bao gồm tổ ong nuôi trong bối cảnh nông nghiệp.
  • DOTA: Tập hợp ảnh máy bay/UAV và ảnh vệ tinh đa nguồn.

Ảnh được chia thành các ô 512 × 512 pixel, tỷ lệ 70/30 cho tập huấn luyện và kiểm tra. Tối ưu siêu tham số được thực hiện bằng Optuna. Từ kết quả thực nghiệm, nhóm nghiên cứu rút ra một số phát hiện quan trọng có giá trị ứng dụng cao cho các bài toán deep learning viễn thám.

Figure 6
Kết quả nhận diện đối tượng nhỏ trên ba tập dữ liệu viễn thám: xView (trên), DOTA (giữa) và SkySat (dưới)
Figure 7
Kết quả nhận diện đối tượng nhỏ trên xView. Các ô màu xanh lá và đỏ lần lượt biểu thị dữ liệu tham chiếu và kết quả nhận diện

Vai trò then chốt của hộp neo (anchor box) và Feature Pyramid Network (FPN)

  • Kích thước hộp neo (anchor box) có ảnh hưởng quyết định đến hiệu suất của các mô hình. Các mô hình như Faster R-CNN sẽ thất bại hoàn toàn nếu dùng cấu hình mặc định. Hiệu suất chỉ tăng vọt khi điều chỉnh kích thước hộp neo về mức ~90 pixel và tỷ lệ hộp neo (0,75–0,95) sát với hình dạng thực tế của đối tượng trong ảnh viễn thám.
  • Feature Pyramid Network (FPN) là thành phần bắt buộc trong kiến trúc deep learning cho bài toán đối tượng nhỏ. FPN duy trì thông tin ở nhiều quy mô không gian khác nhau, ngăn mô hình “bỏ quên” các đối tượng cực nhỏ trong quá trình xử lý.

Cơ chế chú ý

Với các mô hình Transformer, con số tối ưu là khoảng 8 đầu chú ý cho các tập dữ liệu viễn thám đặc thù, sử dụng nhiều hơn có thể gây ra hiện tượng quá khớp (overfitting).

Khoảng cách miền dữ liệu (Domain gap) — Rào cản lớn nhất khi triển khai thực tế

Thực nghiệm cho thấy các mô hình deep learning có thể chuyển đổi tương đối tốt giữa các bối cảnh địa lý khác nhau  với cùng một loại đối tượng (ví dụ: xe hơi ở các thành phố khác nhau). Tuy nhiên, hiệu suất giảm sút nghiêm trọng khi đối tượng thay đổi hoàn toàn về hình thái (ví dụ: từ xe hơi sang tổ ong). Khoảng cách miền dữ liệu (domain gap) vẫn là rào cản lớn nhất khi triển khai các hệ thống nhận diện deep learning trong ứng dụng viễn thám thực tế.

Kết luận: phương pháp Deep Learning nào phù hợp cho bài toán viễn thám?

YOLOv11 — Lựa chọn thực tiễn cho dữ liệu viễn thám độ phân giải cao

Trên cơ sở đánh giá tổng thể, nghiên cứu cho thấy YOLOv11 có thể là lựa chọn tốt cho các bài toán nhận diện đối tượng nhỏ từ ảnh viễn thám độ phân giải cao trong điều kiện tài nguyên tính toán thực tế. Mô hình deep learning này đạt được sự cân bằng tốt nhất giữa độ chính xác, tốc độ và chi phí vận hành — ba tiêu chí quan trọng khi triển khai hệ thống giám sát đô thị hoặc nông nghiệp từ ảnh vệ tinh.

Hướng phát triển tương lai

Để mở rộng khả năng ứng dụng của deep learning cho các bài toán viễn thám phức tạp hơn, nhóm nghiên cứu đề xuất ba hướng phát triển chính:

  • Kiến trúc lai (Hybrid Architecture): Kết hợp tốc độ xử lý của CNN với khả năng suy luận ngữ cảnh toàn cục của Transformer, khai thác thế mạnh của cả hai nhóm trong một kiến trúc thống nhất.
  • Foundation Model cho viễn thám: Tiền huấn luyện (pre-training) trên khối lượng dữ liệu không nhãn khổng lồ giúp mô hình deep learning có “tri thức nền” tốt hơn trước khi tinh chỉnh (fine-tuning) cho từng tác vụ cụ thể, giảm đáng kể nhu cầu dữ liệu nhãn tốn kém.
  • Học đa mô thức (Multi-modal Learning): Kết hợp ảnh quang học với ảnh radar (SAR) hoặc ảnh siêu phổ (hyperspectral) để tăng cường khả năng nhận diện trong mọi điều kiện thời tiết và ánh sáng — hướng đi được đánh giá là có tiềm năng lớn nhất cho deep learning viễn thám trong thập kỷ tới.

Nguồn: An empirical analysis of deep learning methods for small object detection from satellite imagery