Image Annotation Techniques
21Th2

Các kỹ thuật chú thích hình ảnh

Image Annotation Techniques

Thị giác máy tính (Computer Vision) là một trong những lĩnh vực “hot” nhất trong khoa học máy tính và nghiên cứu trí tuệ nhân tạo. Dù vẫn chưa thể cạnh tranh với sức mạnh thị giác của mắt người nhưng đã có rất nhiều ứng dụng hữu ích được tạo ra nhằm khai thác tiềm năng của chúng.

Hiệu suất của mô hình Computer Vision phụ thuộc rất nhiều vào chất lượng và độ chính xác của dữ liệu đào tạo, về cơ bản bao gồm việc chú thích về hình ảnh, video, v.v.

Để đào tạo các Model có thể xác định, phân loại đối tượng, người ta dùng đến các kỹ thuật chú thích (annotation) hình ảnh phù hợp với từng bài toán đặt ra. Tiếp nối các nội dung về Image Annotation, chúng ta hãy cùng tìm hiểu về những kỹ thuật này nhé!

Bounding box (Hộp giới hạn)

Là việc tạo một hình hộp bao quanh đối tượng mục tiêu, đặc biệt khi các đối tượng được chú thích tương đối đối xứng, ví dụ: xe cộ, người đi bộ, biển báo giao thông. Bounding box cũng được sử dụng khi hình dạng của đối tượng ít được chú trọng, hoặc không phải là ưu tiên. Bounding box có thể là hình 2D hoặc 3D (cuboid).

Bounding box là kỹ thuật chú thích hình ảnh phổ biến nhất hiện nay vì tiết kiệm chi phí hơn các phương pháp phân đoạn hình ảnh (image segmentation) khác.

2D Bounding box:

2d bounding box
(Photo by Pixta)
2d bounding box 1
(Photo by Pixta)

3D Bounding box (Cuboid):

3D Bounding box
(Photo by Pixta)

Key point (Điểm chính)

Đây một giao thức chú thích hình ảnh chi tiết hơn, được sử dụng để phát hiện các đối tượng nhỏ và các biến thể của đối tượng đó bằng cách đánh dấu vị trí của các điểm chính (key point) trên đối tượng. Các điểm này được đánh dấu theo một thứ tự đã xác định, tùy thuộc vào từng mô hình. Key point annotation được sử dụng với mục đích gắn nhãn một pixel trong hình ảnh để mô tả hình dạng của đối tượng. 

Đây là một kỹ thuật rất chính xác được sử dụng trong theo dõi và dự đoán chuyển động, phát hiện các bộ phận cơ thể con người, cảm xúc, cử chỉ và nhận dạng khuôn mặt. Nó thường được sử dụng trong nhận diện khuôn mặt, đặc biệt ở lĩnh vực thể thao và an ninh.

key point
(Photo by Pixta)
key point 2
(Photo by Pixta)

Phương pháp này rất hữu ích và phổ biến trong việc đào tạo mô hình Machine Learning, tuy nhiên cũng đòi hỏi nhiều thời gian, chi phí cho việc gắn nhãn chính xác và hiệu quả.

Masking (Mặt nạ)

Masking là kỹ thuật chú thích hình ảnh dạng phủ kín một hoặc các đối tượng nhất định, chỉ hiển thị các vùng cần thiết hoặc phân đoạn toàn bộ hình ảnh được chú thích thành các vùng khác nhau.

Bằng kỹ thuật này, chúng ta có thể dễ dàng mục tiêu hoá các khu vực cụ thể trong ảnh để tối ưu cho máy học.

masking
(Photo by Pixta)
masking
(Photo by Pixta)

Polygon (Đa giác)

Polygon  là chú thích bằng một chuỗi các toạ độ dọc các cạnh/men theo viền của đối tượng. Do đó, kỹ thuật polygon xác định vật thể với độ chính xác hoàn hảo, đồng thời rất linh hoạt và có thể thích ứng với nhiều hình dạng khác nhau.

Polygon thường được sử dụng để theo dõi các thay đổi của nhóm đối tượng nhất định (sự phát triển của vật nuôi hoặc cây trồng, nhận diện phần hỏng hóc của vật dụng hoặc phương tiện,…).

Polygon
(Photo by Pixta)
Polygon
(Photo by Pixta)

Polyline (Đa tuyến)

Kỹ thuật này được sử dụng để xác định cấu trúc tuyến tính trong hình ảnh và video. Nó sử dụng các đường (line) để theo dõi hình dạng của các cấu trúc như đường, đường ray và đường ống. 

Một số trường hợp ứng dụng:

– Phát hiện làn đường, phân biệt các ký hiệu, biển báo, giải phân cách trên đường.
– Theo dõi các đường ống trong nhà xưởng.

Polyline
(Photo by Pixta)

Transcription (Chép lại)

Image transcription là một kỹ thuật kép – kết hợp giữa bounding box và classification/data entry – để chú thích văn bản có trong hình ảnh, khi có cả hình ảnh và văn bản xuất hiện trong dữ liệu. Để có thể trích xuất được văn bản từ dữ liệu chứa đa phương tiện như vậy cho máy học, trước tiên annotator cần vẽ bounding box để khoanh vùng khu vực có văn bản; sau đó, nhập thông tin mẫu (ground truth) dựa trên kiến thức có sẵn và hiểu biết thực tế. Tệp dữ liệu đủ lớn, đa dạng  và được transcribe đủ tốt sẽ giúp model nhận diện được rất nhiều loại hình văn bản trong đời sống thực tế.

Transcription thường được sử dụng để xác định biển báo đường phố, mẫu đơn đăng ký, biên lai, ghi chú hoặc đơn thuốc của bác sĩ,…

83748366 04

Mỗi dự án đều có những yêu cầu khác nhau, vì thế việc chú thích, gán nhãn dữ liệu nhằm đào tạo các model cho mỗi dự án cũng có nhiều sự khác biệt. 

Trong khuôn khổ một bài viết, chúng tôi khó có thể giới thiệu với các bạn về toàn bộ những kỹ thuật gán nhãn dữ liệu hiện đang được sử dụng trên thị trường để đào tạo Model cho các dự án liên quan đến AI và ML.

Tuy nhiên, những kỹ thuật chúng tôi đã nêu trên là những phương pháp cơ bản và đang được sử dụng nhiều nhất. Mỗi phương pháp đều có mức chi phí và ưu, nhược điểm riêng. Do đó, thông qua bài viết này, chúng tôi hi vọng bạn sẽ có cái nhìn cơ bản về  những phương pháp gán nhãn dữ liệu phổ biến nhất trong kỹ thuật đào tạo Model cho các dự án liên quan đến AI và ML.

Tác giả: Minh Ngọc, Phương Thảo

Tìm hiểu thêm về Pixta Vietnam

🌐 Website: https://pixta.vn/careers

🏠 Fanpage: https://www.facebook.com/pixtaVN 

🔖 LinkedIn: https://www.linkedin.com/company/pixta-vietnam/