• Home
  • All about Japan
  • Data Labeling là gì? Hướng dẫn cơ bản Data Labeling cho Machine Learning

Data Labeling là gì? Hướng dẫn cơ bản Data Labeling cho Machine Learning


Hiểu biết về Data Labeling có hữu ích cho bạn?





Nếu bạn có một lượng lớn dữ liệu muốn sử dụng trong học máy (machine learning) hoặc học sâu (deep learning), bạn sẽ cần tới các công cụ và con người để làm giàu cho dữ liệu đó nhằm đào tạo, đánh giá và điều chỉnh mô hình của mình.





Hướng dẫn này sẽ hữu ích nhất nếu bạn có dữ liệu mà bạn có thể gắn nhãn và bạn đang đối mặt với một hoặc nhiều thách thức dưới đây.





1. Bạn có rất nhiều dữ liệu chưa được gắn nhãn





Hầu hết dữ liệu không được gắn nhãn và đó là thách thức đối với hầu hết các nhóm dự án AI.





Theo công ty phân tích Cognilytica, toàn bộ 80% thời gian dự án AI được dành cho việc thu thập, sắp xếp và gắn nhãn dữ liệu (data labeling), và đây là thời gian mà các nhóm không muốn bỏ ra vì họ đang trong cuộc chạy đua tới dữ-liệu-có-thể-sử-dụng được, tức là dữ liệu được cấu trúc và dán nhãn phù hợp để đào tạo và triển khai các mô hình.





Phân bổ thời gian cho các tác vụ dự án Machine Learning
Phân bổ thời gian cho các tác vụ dự án Machine Learning




2. Các nhãn dữ liệu của bạn có chất lượng thấp





Có rất nhiều lý do khiến dữ liệu được gắn nhãn của bạn có chất lượng thấp, nguyên nhân thường ở con người, quy trình hoặc công nghệ được sử dụng trong quy trình data labeling.





3. Quá trình gắn nhãn dữ liệu của bạn không hiệu quả hoặc tốn kém





Nếu bạn đang trả tiền cho các nhà khoa học dữ liệu (data scientist) để xử lý dữ liệu, thì tốt hơn bạn nên tìm cách thức khác.





Mức lương cho các nhà khoa học dữ liệu có thể lên tới 190.000 đô / năm. Thật phí phạm khi để những nhân sự được trả lương cao này dành thời gian vào công việc cơ bản, lặp đi lặp lại.





4. Bạn cần bổ sung QA (quality assurance) vào quy trình gắn nhãn dữ liệu của mình hoặc cải tiến quy trình QA đã thực hiện





Đây là nơi mà data labeling thường bỏ sót và có thể cung cấp giá trị đáng kể, đặc biệt là trong giai đoạn thử nghiệm và đánh giá mô hình học máy.










Dừng lại chút nào, nếu bạn đang #open_to_work, thử nghía qua các công việc đang tuyển trên Gamba nhé. Vào LINK NÀY để xem các job Data hoặc scan QR Code ở bên dưới nhé.





Xem và ứng tuyển các 'data' job
Xem và ứng tuyển các ‘data’ job









Dữ liệu được gắn nhãn (Labeled Data) và sự thật cơ bản





Dữ liệu được gắn nhãn là gì?





Trong học máy (machine learning), nếu bạn có dữ liệu đã được gắn nhãn, điều đó có nghĩa là dữ liệu của bạn được đánh dấu hoặc được chú thích, để hiển thị mục tiêu, là câu trả lời mà bạn muốn mô hình machine learning của mình dự đoán.





Nói chung, data labeling có thể hiểu là các tác vụ bao gồm gắn thẻ dữ liệu, chú thích, phân loại, kiểm duyệt, phiên âm hoặc xử lý.





Chú thích dữ liệu (data annotation) là gì?





Chú thích dữ liệu thường để nói về quá trình gắn nhãn dữ liệu. Chú thích dữ liệu và gắn nhãn dữ liệu thường được sử dụng thay thế cho nhau, mặc dù chúng có thể được sử dụng khác nhau tùy theo ngành hoặc tình huống sử dụng.





Dữ liệu được gắn nhãn làm nổi bật các đặc tính của dữ liệu – thuộc tính, đặc điểm hoặc phân loại – mà có thể được phân tích để tìm ra các hình mẫu giúp dự đoán mục tiêu.





Ví dụ: trong tầm nhìn máy tính dành cho xe tự hành, một người gắn nhãn dữ liệu có thể sử dụng công cụ gắn nhãn video từng khung hình để chỉ ra vị trí của biển báo đường phố, người đi bộ hoặc các phương tiện khác.





Data Labeling là gì?
Data Labeling là gì?




‘Human-in-the-Loop’ (HITL) là gì?





HITL (bán tự hành) tận dụng trí thông minh của con người và máy móc để tạo ra các mô hình học máy.





Trong cấu hình HITL, con người tham gia vào một vòng tròn cải tiến trong đó khả năng phán đoán của con người được sử dụng để đào tạo, điều chỉnh và kiểm tra một mô hình dữ liệu cụ thể.





Các nhãn trong học máy là gì?





Nhãn là thứ mà HITL sử dụng để xác định và gọi ra các đặc tính có trong dữ liệu.





Việc lựa chọn các đặc tính có tính thông tin, phân biệt và độc lập để gắn nhãn là cực kỳ quan trọng nếu bạn muốn phát triển các thuật toán trong nhận dạng hình mẫu, phân loại và hồi quy một cách hiệu quả.





Dữ liệu được gắn nhãn chính xác có thể cung cấp sự thật nền tảng để thử nghiệm và lặp lại các mô hình của bạn.





“Sự thật nền tảng” trong học máy là gì?





Trong học máy, “sự thật nền tảng” (ground truth) nghĩa là kiểm tra độ chính xác trong kết quả của các thuật toán ML so với thế giới thực. Về bản chất, đó là kiểm tra thực tế về độ chính xác của các thuật toán.





Thuật ngữ này được mượn từ khí tượng học, trong đó “sự thật nền tảng” đề cập đến thông tin thu được trên mặt đất nơi một sự kiện thời tiết xảy ra, dữ liệu đó sau đó được so sánh với các mô hình dự báo để xác định độ chính xác của chúng.





“Dữ liệu đào tạo” trong học máy là gì?





Dữ liệu đào tạo là dữ liệu đã được làm giàu (enriched data) mà bạn sử dụng để đào tạo mô hình hoặc thuật toán machine learning.





Ngày nay, các công ty thực hiện data labeling ra sao?





Các tổ chức sử dụng sự kết hợp giữa phần mềm, quy trình và con người để làm sạch, tạo cấu trúc hoặc gắn nhãn dữ liệu.





Nói chung, bạn có 4 phướng án đối với nhân sự làm data labeling:





  • Nhân viên – Họ thuộc biên chế của bạn, toàn thời gian hoặc bán thời gian. Mô tả công việc của họ có thể không bao gồm data labeling.
  • Các nhóm được quản lý – Bạn sử dụng các nhóm nhân viên gắn nhãn dữ liệu đã được kiểm tra, đào tạo và quản lý.
  • Nhà thầu – Họ là người lao động tạm thời hoặc tự do.
  • Crowdsourcing – Bạn sử dụng nền tảng của bên thứ ba để tiếp cận nhiều người lao động cùng một lúc.




Các phương án lực lượng lao động Data Labeling
Các phương án cho nhân sự Data Labeling




Data Labeling bao gồm một loạt các nhiệm vụ:





  • Sử dụng công cụ để làm giàu dữ liệu
  • Đảm bảo chất lượng cho việc gắn nhãn dữ liệu
  • Lặp lại quy trình, chẳng hạn như các thay đổi trong lựa chọn đặc tính dữ liệu, tiến trình tác vụ hoặc QA
  • Quản lý nhân viên gắn nhãn dữ liệu
  • Đào tạo thành viên mới trong nhóm
  • Lập kế hoạch dự án, vận hành quy trình và đo lường thành công




Dưới đây là 5 yếu tố cần thiết bạn cần xem xét khi cần làm data labeling cho machine learning:





1. Chất lượng và độ chính xác của dữ liệu – Điều gì ảnh hưởng đến chất lượng và độ chính xác?





Mặc dù các thuật ngữ thường được sử dụng thay thế cho nhau, nhưng chúng ta cần hiểu rằng độ chính xácchất lượng là hai thứ khác nhau.





  1. Độ chính xác đo lường mức độ sự sai biệt giữa việc gắn nhãn với sự thật nền tảng, hoặc các đặc tính được gắn nhãn trong dữ liệu nhất quán ra sao với các điều kiện trong thế giới thực. Điều này đúng cho dù bạn đang xây dựng mô hình thị giác máy tính (ví dụ: đặt các hộp giới hạn xung quanh các đối tượng trên cảnh đường phố) hay mô hình xử lý ngôn ngữ tự nhiên (NLP) (ví dụ: phân loại văn bản theo cảm tính xã hội).




  1. Chất lượng là độ chính xác trên toàn bộ tập dữ liệu. Công việc của tất cả nhân viên dán nhãn của bạn có giống nhau không? Việc gắn nhãn có luôn chính xác trên các tập dữ liệu của bạn không? Có chính xác dù bạn có 29, 89 hoặc 999 nhân viên gắn nhãn dữ liệu làm việc cùng một lúc không?




Dữ liệu chất lượng thấp có thể phản tác dụng hai lần: lần đầu tiên trong quá trình đào tạo mô hình và lần nữa khi mô hình của bạn sử dụng dữ liệu được gắn nhãn để thông tin cho các quyết định trong tương lai.





Để tạo, đánh giá và duy trì các mô hình học máy hiệu suất cao, bạn phải đào tạo và xác thực chúng bằng cách sử dụng dữ liệu đáng tin cậy và có thể tin cậy.





4 đặc điểm của Lực lượng lao động ảnh hưởng đến Chất lượng trong Data Labeling





Điều gì ảnh hưởng đến chất lượng dữ liệu trong việc gắn nhãn?





1. Kiến thức và bối cảnh





Trong data labeling, kiến ​​thức lĩnh vực cơ bản và hiểu ngữ cảnh là điều cần thiết để lực lượng lao động của bạn tạo bộ dữ liệu có cấu trúc, chất lượng cao cho học máy. 





Nhân viên gắn nhãn dữ liệu sẽ có chất lượng cao hơn khi họ hiểu ngữ cảnh hoặc biết về mục đích hoặc mức độ liên quan của dữ liệu mà họ gắn nhãn. 





Ví dụ: những người gắn nhãn dữ liệu văn bản của bạn phải hiểu khi nào một số từ nhất định có thể được sử dụng theo nhiều cách, tùy thuộc vào ý nghĩa của văn bản.





Để gắn thẻ từ “bass” một cách chính xác, họ sẽ cần biết liệu văn bản đó có liên quan đến cá hay âm nhạc. Họ có thể cần hiểu cách các từ có thể được thay thế cho những từ khác, chẳng hạn như “Kleenex” cho “khăn giấy”.





Để có dữ liệu chất lượng cao nhất, người gắn nhãn nên biết các chi tiết chính về ngành bạn phục vụ và công việc của họ liên quan như thế nào đến vấn đề bạn đang giải quyết. 





Thậm chí còn tốt hơn nữa khi một thành viên trong nhóm gắn nhãn của bạn có kiến ​​thức chuyên môn hoặc hiểu biết cơ bản về ngành mà dữ liệu của bạn phục vụ, vì vậy họ có thể quản lý nhóm và đào tạo các thành viên mới về các quy tắc liên quan đến ngữ cảnh, hoạt động kinh doanh hoặc sản phẩm và các trường hợp đặc thù. 





Ví dụ: từ vựng, định dạng và phong cách của văn bản liên quan đến chăm sóc sức khỏe có thể thay đổi đáng kể đối với ngành luật.





2. Linh hoạt (Agility)





Học máy là một quá trình lặp đi lặp lại.





Việc gắn nhãn dữ liệu phát triển khi bạn kiểm tra và đánh giá các mô hình của mình cũng như học hỏi từ kết quả của chúng, vì vậy, bạn cần chuẩn bị các tập dữ liệu mới và làm phong phú thêm các tập dữ liệu hiện có để cải thiện kết quả thuật toán của mình.





Nhóm data labeling của bạn phải linh hoạt trong việc kết hợp các thay đổi theo nhu cầu của người dùng cuối, các thay đổi trong sản phẩm của bạn hoặc bổ sung các sản phẩm mới.





Một nhóm data labeling linh hoạt có thể phản ứng với những thay đổi về khối lượng dữ liệu, độ phức tạp tác vụ và thời lượng tác vụ. Nhóm gắn nhãn của bạn càng dễ thích ứng, bạn càng có thể thực hiện nhiều dự án máy học hơn.





Khi bạn phát triển các thuật toán và đào tạo mô hình của mình, người gắn nhãn dữ liệu có thể cung cấp thông tin có giá trị (insight) về các đặc tính của dữ liệu – tức là thuộc tính, đặc điểm hoặc phân loại – sẽ được phân tích để tìm ra các hình mẫu giúp dự đoán mục tiêu hoặc trả lời những gì bạn muốn mô hình của mình dự đoán.





3. Mối quan hệ





Trong học máy, quy trình làm việc của bạn thay đổi liên tục.





Bạn cần những người gắn nhãn dữ liệu có thể phản ứng nhanh chóng và thực hiện các thay đổi trong quy trình làm việc của mình, dựa trên những gì bạn học được trong giai đoạn kiểm tra và đánh giá mô hình.





Để thực hiện loại công việc linh hoạt đó, bạn cần sự linh hoạt trong quy trình của mình, những người quan tâm đến dữ liệu của bạn và sự thành công của dự án và kết nối trực tiếp tới người lãnh đạo trong nhóm data labeling để bạn có thể lặp lại các đặc tính dữ liệu, thuộc tính và quy trình làm việc dựa trên những gì bạn học trong giai đoạn thử nghiệm và đánh giá.





4. Giao tiếp





Bạn sẽ cần trao đổi trực tiếp với nhóm gắn nhãn của mình.





Vòng phản hồi khép kín là một cách rất tốt để tạo dựng sự giao tiếp và cộng tác đáng tin cậy giữa nhóm dự án và những người gắn nhãn dữ liệu.





Người gắn nhãn có thể chia sẻ những gì họ rút ra được khi làm data labeling, vì vậy bạn có thể sử dụng thông tin này để điều chỉnh cách tiếp cận của mình.





Chất lượng được đo lường như thế nào trong data labeling?





Có bốn cách để đo lường chất lượng data labeling từ góc độ lực lượng lao động:





  1. Tiêu chuẩn vàng – Có một câu trả lời chính xác cho tác vụ. Đo lường chất lượng dựa trên các tác vụ đúng và sai.
  2. Đánh giá mẫu – Chọn một mẫu ngẫu nhiên của các tác vụ đã hoàn thành. Một nhân viên nhiều kinh nghiệm, chẳng hạn như trưởng nhóm hoặc quản lý dự án, sẽ xem xét độ chính xác của mẫu.
  3. Sự đồng thuận – Chỉ định một số người làm cùng một tác vụ và câu trả lời đúng là câu trả lời từ phần lớn các nhân viên gắn nhãn.
  4. IoU (Intersection over Union) – Đây là một mô hình đồng thuận thường được sử dụng để phát hiện đối tượng trong ảnh. Nó kết hợp con người và tự động hóa để so sánh các hộp giới hạn (bounding box) của hình ảnh thực được dán nhãn thủ công với các hộp giới hạn được dự đoán từ mô hình.




Hãy thoải mái lựa chọn một trong số các phương pháp đảm bảo chất lượng này thay vì bị bó buộc vào một mô hình đo lường chất lượng duy nhất.





2. Quy mô – Điều gì xảy ra khi khối lượng data labeling tăng lên?





Điều cần thiết thứ hai để gắn nhãn dữ liệu cho học máy là quy mô. Những gì bạn muốn là khả năng mở rộng hoặc giảm lực lượng lao động theo dự án và nhu cầu kinh doanh của bạn mà không ảnh hưởng đến chất lượng dữ liệu.





Gắn nhãn dữ liệu là một quá trình tốn thời gian và thậm chí còn nhiều hơn thế khi làm machine learning, đòi hỏi bạn phải lặp lại và phát triển các đặc tính dữ liệu khi bạn đào tạo và điều chỉnh mô hình của mình để cải thiện chất lượng dữ liệu và hiệu suất của mô hình. 





Khi độ phức tạp và khối lượng dữ liệu của bạn tăng lên, nhu cầu gắn nhãn của bạn cũng vậy. 





Chú thích video đặc biệt tốn nhiều công sức: mỗi giờ dữ liệu video được thu thập mất khoảng 800 giờ công (manhour) để chú thích. Một video dài 10 phút chứa khoảng 18.000 đến 36.000 khung hình, khoảng 30-60 khung hình mỗi giây.





Thời điểm cần mở rộng quy mô và thuê dịch vụ gắn nhãn dữ liệu?





Nếu tài nguyên đắt tiền nhất của bạn (nhà khoa học dữ liệu hoặc kỹ sư dữ liệu) đang dành thời gian đáng kể để xử lý dữ liệu cho machine learning hoặc phân tích dữ liệu, thì đó là lúc bạn nên xem xét mở rộng quy mô với dịch vụ gắn nhãn dữ liệu. 





Việc gia tăng khối lượng gắn nhãn dữ liệu, cho dù chúng xảy ra trong nhiều tuần hoặc nhiều tháng, sẽ ngày càng khó khăn hơn nếu tự quản lý.





Chúng cũng tiêu hao thời gian và sự tập trung của một số nguồn nhân lực đắt giá nhất : các nhà khoa học dữ liệu (data scientist) và kỹ sư machine learning. Nếu nhà khoa học dữ liệu của bạn đang gắn nhãn hoặc quấn dữ liệu, bạn sẽ phải trả tới 90 đô la một giờ.





Tốt hơn nên giải phóng một nguồn tài nguyên có giá trị cao như vậy cho các công việc phân tích và có tính chiến lược hơn, là trích xuất giá trị kinh doanh từ dữ liệu của bạn.





5 Bước mở rộng Data Labeling





1. Thiết kế cho năng lực của lực lượng lao động





Dịch vụ gắn nhãn dữ liệu có thể cung cấp quyền truy cập vào một nhóm lớn nhân sự. Crowdsourcing (nhân viên tuyển từ cộng đồng) cũng vậy, nhưng nghiên cứu của nhà phát triển công nghệ khoa học dữ liệu Hivemind cho thấy những nhân viên ẩn danh (từ crowdsourcing) cung cấp dữ liệu có chất lượng thấp hơn so với các nhóm được quản lý nếu so về các tác vụ gắn nhãn dữ liệu giống hệt nhau.





Tốt nhất là bạn nên làm việc với cùng một đội nhân viên gắn nhãn, vì khi mức độ quen thuộc của họ với các quy tắc kinh doanh, ngữ cảnh và các trường hợp đặc thù tăng lên, chất lượng dữ liệu sẽ cải thiện theo thời gian. 





Họ cũng có thể đào tạo khi có người mới khi họ tham gia nhóm. Điều này đặc biệt hữu ích với việc gắn nhãn dữ liệu cho các dự án machine learning, nơi chất lượng và tính linh hoạt để lặp lại là điều cần thiết.





2. Tìm sự linh hoạt





Hãy tìm kiếm sự linh hoạt trong việc mở rộng hoặc thu hẹp quy mô gắn nhãn. Bạn có thể phải gắn nhãn dữ liệu theo thời gian thực, dựa trên khối lượng dữ liệu đến được tạo ra.





Có thể doanh nghiệp của bạn có lượng mua hàng tăng đột biến theo mùa trong những tuần nhất định trong năm. Việc ra mắt sản phẩm có thể tạo ra lượng dữ liệu gắn nhãn tăng đột biến. Bạn hẳn sẽ muốn có một lực lượng lao động có thể điều chỉnh quy mô dựa trên nhu cầu của bạn.





3. Chọn dụng cụ thông minh





Cho dù bạn mua hay tự xây dựng, công cụ làm giàu dữ liệu bạn chọn sẽ ảnh hưởng đáng kể đến khả năng mở rộng gắn nhãn dữ liệu của bạn. 





Xin lưu ý rằng đó là một quá trình liên tục: các nhiệm vụ gắn nhãn dữ liệu của bạn ngày hôm nay có thể khác sau một vài tháng, vì vậy, bạn sẽ cần tránh các quyết định khiến bạn phải đi theo một hướng duy nhất có thể không phù hợp với nhu cầu của bạn trong tương lai gần.





Cho dù bạn đang phát triển hay đang hoạt động trên quy mô lớn, bạn sẽ cần một công cụ cho phép bạn linh hoạt để thực hiện các thay đổi đối với các đặc tính dữ liệu, quy trình gắn nhãn và dịch vụ gắn nhãn dữ liệu. 





Các công cụ có sẵn trên thị trường cung cấp cho bạn nhiều quyền kiểm soát hơn đối với quy trình làm việc, tính năng, bảo mật và tích hợp so với các công cụ được tích hợp sẵn. Chúng cũng cung cấp cho bạn sự linh hoạt để thực hiện các thay đổi.





4. Đo lường năng suất nhân viên





Năng suất có thể được đo lường theo nhiều cách khác nhau, có ba thước đo cụ thể cung cấp một cái nhìn hữu ích về năng suất của người lao động





  1. khối lượng công việc đã hoàn thành
  2. chất lượng công việc (độ chính xác cộng với tính nhất quán), và 
  3. sự gắn kết của nhân viên




Về phía người lao động, các quy trình mạnh mẽ dẫn đến năng suất cao hơn. Kết hợp công nghệ, công nhân và huấn luyện giúp rút ngắn thời gian gắn nhãn, tăng kết quả đầu ra và giảm thiểu thời gian chết. 





Chất lượng dữ liệu cao hơn khi đặt người gắn nhãn dữ liệu trong các nhóm nhỏ, đào tạo họ về các tác vụ và quy tắc kinh doanh của bạn, đồng thời cho họ thấy chất lượng công việc như thế nào.





Các trưởng nhóm khuyến khích cộng tác, học hỏi đồng đẳng, hỗ trợ và xây dựng cộng đồng. 





Các kỹ năng và điểm mạnh của người lao động được các trưởng nhóm của họ biết đến và đánh giá cao, những người này tạo cơ hội cho người lao động phát triển về mặt chuyên môn. 





Phương pháp tiếp cận theo nhóm nhỏ này, kết hợp với môi trường công cụ thông minh, đưa đến việc gắn nhãn dữ liệu chất lượng cao.





5. Giao tiếp hiệu quả giữa dự án của bạn và nhóm gắn nhãn dữ liệu





Giao tiếp có tổ chức, dễ dàng với nhóm gắn nhãn dữ liệu của bạn giúp mở rộng quy trình dễ dàng hơn. 





Dựa trên kinh nghiệm, chúng tôi đề xuất một vòng phản hồi khép kín để liên lạc với nhóm gắn nhãn của bạn để bạn có thể thực hiện các thay đổi có tác động nhanh chóng, chẳng hạn như thay đổi quy trình gắn nhãn hoặc lặp lại các đặc tính dữ liệu.





Khi việc gắn nhãn dữ liệu trực tiếp cung cấp cho các tính năng sản phẩm hoặc trải nghiệm khách hàng của bạn, thì thời gian phản hồi của người gắn nhãn cần phải nhanh và thông tin giao tiếp là chìa khóa.





Các nhà cung cấp dịch vụ gắn nhãn dữ liệu phải có thể làm việc trên các múi giờ và tối ưu hóa giao tiếp của bạn cho múi giờ ảnh hưởng đến người dùng cuối của dự án machine learning.





3. Định giá – Nên trả theo giờ hay theo tác vụ?





Dịch vụ gắn nhãn dữ liệu có giá bao nhiêu?





Thông thường, các dịch vụ gắn nhãn dữ liệu tính phí theo tác vụ hoặc theo giờ và mô hình bạn chọn có thể tạo ra các động cơ khác nhau cho các nhân viên gắn nhãn.





Nếu bạn trả tiền cho mỗi tác vụ, điều đó có thể khuyến khích họ thực hiện nhiều tác vụ nhất có thể, dẫn đến dữ liệu chất lượng kém sẽ làm trì hoãn việc triển khai và lãng phí thời gian quan trọng.





Ngược lại, những nhân viên được quản lý được trả lương cho thời gian của họ và được khuyến khích hoàn thành đúng nhiệm vụ, đặc biệt là những công việc phức tạp hơn và đòi hỏi tính khách quan. 





Sự khác biệt này có ý nghĩa quan trọng đối với chất lượng dữ liệu và tiếp theo, chúng tôi sẽ trình bày bằng chứng từ một nghiên cứu gần đây nêu bật một số điểm khác biệt chính giữa hai mô hình.





Nghiên cứu về chất lượng và chi phí gắn nhãn dữ liệu





Nhà phát triển công nghệ khoa học dữ liệu Hivemind đã tiến hành một nghiên cứu về chất lượng và chi phí gắn nhãn dữ liệu.





Họ đã tiến hành trên lực lượng lao động được quản lý, được trả lương theo giờ và nhân viên tự do hàng đầu của nền tảng dịch vụ hàng đầu, được trả lương theo tác vụ, để hoàn thành một loạt các tác vụ giống hệt nhau.





Mục tiêu của Hivemind là hiểu chi tiết hơn về những động cơ này – để xem nhóm nào phân phối dữ liệu chất lượng cao nhất và với chi phí tương đối.





Cùng một nhiệm vụ, hai nhóm gắn nhãn dữ liệu





Các công việc dựa trên văn bản và từ cơ bản đến phức tạp. Hivemind đã gửi các tác vụ cho các nhân viên tự do với hai mức hưởng khác nhau, trong đó một nhóm nhận nhiều hơn, để xác định xem chi phí ảnh hưởng như thế nào đến chất lượng dữ liệu.





Nhiệm vụ A: Phiên âm





Trong 7% trường hợp, nhân viên tự do đã phiên âm sai ít nhất một trong các số.





Khi họ được trả gấp đôi, tỷ lệ lỗi giảm xuống chỉ còn dưới 5%, đây là một sự cải thiện đáng kể.





Các nhân viên được quản lý chỉ mắc lỗi trong 0,4% trường hợp, một sự khác biệt quan trọng do hàm ý của nó đối với chất lượng dữ liệu.





Nhìn chung, đối với nhiệm vụ này, nhân viên tự do có tỷ lệ sai sót cao hơn 10 lần so với lực lượng lao động được quản lý.





Easy Transcription
Easy Transcription




Nhiệm vụ B: Phân tích cảm tính





Người lao động đã nhận được văn bản đánh giá của công ty từ một trang web đánh giá và phải xếp hạng tình cảm của bài đánh giá từ 1 đến 5. Xếp hạng thực tế, hay sự thật cơ bản, đã bị xóa. 





Nhân viên được quản lý có độ chính xác nhất quán, nhận được xếp hạng chính xác trong khoảng 50% trường hợp. 





Nhân viên tự do thì gặp vấn đề, đặc biệt là với những đánh giá kém.





Độ chính xác gần như là 20%, về cơ bản giống như phỏng đoán, đối với các bài đánh giá 1 và 2 sao. Đối với các đánh giá 4 và 5 sao, có rất ít sự khác biệt giữa các nhóm nhân viên.





Nhiệm vụ C: Trích xuất thông tin từ văn bản không có cấu trúc





Các nhân viên đã sử dụng tiêu đề và mô tả về đợt thu hồi sản phẩm để phân loại đợt thu hồi theo loại nguy cơ, chọn một trong 11 tùy chọn, bao gồm “khác” và “không đủ thông tin”.





Độ chính xác của nhân viên tự do là 50% đến 60%, bất kể số lượng từ. 





Nhân viên được quản lý đạt độ chính xác cao hơn, 75% đến 85%. Độ chính xác của nhân viên được quản lý cao hơn 25% so với độ chính xác của nhóm nhân viên tự do.





Định giá Gắn nhãn Dữ liệu: 3 Cân nhắc Quan trọng





Hãy tìm một dịch vụ gắn nhãn dữ liệu với các điều khoản và điều kiện thực tế, linh hoạt. Cụ thể:





  1. Cấu trúc chi phí có thể dự đoán, nhờ vậy bạn biết việc dán nhãn dữ liệu sẽ có giá như thế nào khi mở rộng quy mô và thông lượng tăng lên
  2. Định giá phù hợp với mục đích của bạn, chỉ trả cho những gì bạn cần để có được bộ dữ liệu chất lượng cao
  3. Linh hoạt thực hiện các thay đổi khi các tính năng dữ liệu và yêu cầu gắn nhãn của bạn thay đổi. Tránh các hợp đồng dịch vụ kéo dài nhiều tháng, phí nền tảng hoặc các điều khoản hạn chế khác.




4. Bảo mật – Dữ liệu của tôi sẽ được bảo vệ như thế nào?





Các rủi ro bảo mật của việc gắn nhãn dữ liệu thuê ngoài là gì?





Dịch vụ gắn nhãn dữ liệu có thể xâm phạm bảo mật của bạn khi nhân viên của họ:





  1. Truy cập dữ liệu của bạn từ một mạng không an toàn hoặc sử dụng thiết bị không có phần mềm bảo vệ
  2. Tải xuống hoặc lưu một số dữ liệu của bạn (ví dụ: ảnh chụp màn hình, ổ đĩa flash)
  3. Thực hiện gắn nhãn dữ liệu ở nơi công cộng
  4. Không được đào tạo, bối cảnh hoặc trách nhiệm liên quan đến các quy tắc bảo mật cho công việc
  5. Làm việc trong môi trường vật lý hoặc kỹ thuật số không được chứng nhận tuân thủ các quy định về dữ liệu mà doanh nghiệp của bạn phải tuân theo (ví dụ: HIPAA, SOC 2).




Bảo mật và nhân viên Data Labeling





Nếu bảo mật dữ liệu là một yếu tố trong quy trình machine learning, thì dịch vụ gắn nhãn dữ liệu phải có một cơ sở để công việc được thực hiện một cách an toàn, đào tạo chính sách và quy trình phù hợp – và phải có chứng chỉ để cho thấy quy trình của họ đã được đánh giá.





Quan trọng nhất là, dịch vụ gắn nhãn dữ liệu phải tôn trọng dữ liệu theo cách bạn và tổ chức của bạn làm. Họ cũng nên lập văn bản bảo mật dữ liệu cho cả 3 hạng mục sau:





  • Con người và Lực lượng lao động: Điều này bao gồm việc kiểm tra lý lịch đối với người lao động và có thể yêu cầu các nhà gắn nhãn ký thỏa thuận không tiết lộ (NDA) hoặc tài liệu tương tự nêu rõ các yêu cầu bảo mật dữ liệu của bạn. Lực lượng lao động có thể được quản lý hoặc đo lường mức độ tuân thủ. Nó có thể bao gồm đào tạo nhân viên về các giao thức bảo mật liên quan đến dữ liệu.
  • Công nghệ và Mạng: Người lao động có thể được yêu cầu sử dụng các thiết bị mà họ mang đến nơi làm việc, chẳng hạn như điện thoại di động hoặc máy tính bảng. Các tính năng tải xuống hoặc lưu trữ có thể bị tắt trên các thiết bị mà nhân viên sử dụng để gắn nhãn dữ liệu. Có khả năng an ninh mạng được nâng cao đáng kể.
  • Cơ sở vật chất và Không gian làm việc: Người lao động có thể ngồi trong một không gian ngăn người khác xem công việc của họ. Họ có thể làm việc ở một vị trí an toàn, với quyền truy cập chỉ cho phép những người được ủy quyền vào tòa nhà hoặc văn phòng nơi dữ liệu đang được dán nhãn. Giám sát video có thể được sử dụng để tăng cường an ninh vật lý cho tòa nhà và văn phòng.




Những lo ngại về bảo mật sẽ không ngăn bạn sử dụng dịch vụ gắn nhãn dữ liệu, dịch vụ này sẽ giúp bạn và nhóm của bạn tập trung vào phần chiến lược và sáng tạo nhất của machine learning là đào tạo mô hình, điều chỉnh và phát triển thuật toán.





5. Công cụ – Có cần một nền tảng công cụ để gắn nhãn dữ liệu không?





Điều cần thiết thứ 5 để gắn nhãn dữ liệu trong machine learning là công cụ, bạn sẽ cần công cụ cho dù bạn tự xây dựng hay mua từ bên thứ ba. Tại sao? 





Bởi vì việc gắn nhãn dữ liệu cấp độ sản xuất cho machine learning đòi hỏi các công cụ phần mềm thông minh và con người có kỹ năng. 





Một dịch vụ gắn nhãn dữ liệu phải có thể cung cấp các đề xuất và thực tiễn tốt nhất trong việc lựa chọn và làm việc với các công cụ gắn nhãn dữ liệu. Lý tưởng nhất là họ sẽ có quan hệ đối tác với nhiều nhà cung cấp công cụ khác nhau để cho bạn nhiều sự lựa chọn và làm cho trải nghiệm của bạn được mạch lạc.





Họ cũng sẽ cung cấp kiến ​​thức chuyên môn cần thiết để giao cho con người những tác vụ đòi hỏi bối cảnh, sự sáng tạo và khả năng thích ứng trong khi giao cho máy móc những nhiệm vụ đòi hỏi tốc độ, khả năng đo lường và tính nhất quán.





Tiến trình công việc





Giao việc cho con người và máy móc dễ dàng thực hiện hơn với các công cụ thân thiện với người dùng giúp chia nhỏ công việc gắn nhãn dữ liệu thành các tác vụ nguyên tử hoặc nhỏ hơn. 





Bằng cách chuyển đổi các nhiệm vụ phức tạp thành một loạt các thành phần nhỏ hơn, bạn có thể giao các tác vụ máy móc mà các công cụ đang thực hiện với chất lượng cao và để con người thực hiện các nhiệm vụ mà các công cụ này chưa thành thạo.





Việc chia nhỏ công việc thành các thành phần nguyên tử cũng giúp dễ dàng hơn trong việc đo lường, định lượng và tối đa hóa chất lượng cho mỗi tác vụ.





Mỗi loại nhiệm vụ có thể có lớp đảm bảo chất lượng (QA) riêng và quy trình đó cũng có thể được chia thành các nhiệm vụ nguyên tử.





Task Progression
Task Progression




Mọi tác vụ lập mô hình machine learning đều khác nhau, nên bạn có thể thực hiện vài lần chạy đơn giản để đưa ra các định nghĩa tốt và một bộ hướng dẫn, ngay cả trước khi bạn bắt đầu thu thập dữ liệu của mình.





Nếu bạn có thể chuyển đổi kiến ​​thức về mô hình của mình thành dữ liệu được gắn nhãn một cách hiệu quả, bạn đã giải quyết được một trong những vấn đề khó nhất trong học máy.





Sau một thập kỷ cung cấp các nhóm gắn nhãn dữ liệu, chúng tôi biết rằng đó là một quá trình cải tiến. Các nhiệm vụ gắn nhãn mà bạn bắt đầu có thể sẽ thay đổi sau một vài tháng. 





Đồng thời, bạn và nhóm gắn nhãn dữ liệu của bạn có thể điều chỉnh quy trình gắn nhãn của mình nhằm đạt được chất lượng cao và hiệu suất mô hình.





5 Bước chọn công cụ gắn nhãn dữ liệu





5 bước dưới đây rất quan trọng trong việc lựa chọn công cụ gắn nhãn dữ liệu để tối đa chất lượng dữ liệu và tối ưu đầu tư vào lực lượng lao động của bạn:





1. Thu hẹp công cụ dựa trên trường hợp sử dụng của bạn





Loại dữ liệu của bạn sẽ xác định các công cụ cần sử dụng. Các công cụ khác nhau ở các tính năng làm giàu dữ liệu, khả năng đảm bảo chất lượng (QA), loại tệp được hỗ trợ, chứng nhận bảo mật dữ liệu, tùy chọn lưu trữ, v.v.





Các tính năng để gắn nhãn có thể bao gồm hộp giới hạn, đa giác, điểm 2-D và 3-D, phân đoạn ngữ nghĩa, v.v.





2. So sánh lợi ích của tự xây và đi mua





Việc xây dựng công cụ của riêng bạn có thể mang lại những lợi ích có giá trị, bao gồm kiểm soát nhiều hơn quy trình gắn nhãn, thay đổi phần mềm và bảo mật dữ liệu.





Bạn cũng có thể dễ dàng giải quyết và giảm thiểu sự thiên vị ngoài ý muốn trong việc gắn nhãn của mình.





Tuy nhiên, việc mua một công cụ có sẵn trên thị trường thường ít tốn kém hơn về lâu dài vì nhóm của bạn có thể tập trung vào nhiệm vụ cốt lõi của họ hơn là hỗ trợ và mở rộng khả năng phần mềm, giải phóng nguồn lực quý giá cho các khía cạnh khác của dự án.





Khi mua, bạn có thể cấu hình công cụ cho các tính năng bạn cần và có sự hỗ trợ người dùng.





Có nhiều công cụ cho bất kỳ khối lượng công việc gắn nhãn dữ liệu nào và các nhóm luôn phát triển các công cụ mới và các tính năng nâng cao.





Khi bạn mua, về cơ bản bạn đang thuê quyền truy cập vào các công cụ, có nghĩa là:





  • Có các thực thể được tài trợ được trao cho sự thành công của công cụ đó
  • Có thể linh hoạt sử dụng nhiều hơn một công cụ, dựa trên nhu cầu của bạn; và
  • Nhà cung cấp công cụ hỗ trợ sản phẩm, vì vậy bạn không phải chi tiêu các nguồn lực kỹ thuật có giá trị cho việc tạo công cụ.




3. Xem xét quy mô và giai đoạn phát triển của tổ chức bạn





Chúng tôi nhận thấy giai đoạn công ty là một yếu tố quan trọng trong việc lựa chọn công cụ.





Bắt đầu





Có một số cách để bắt đầu trên con đường lựa chọn công cụ phù hợp. 





Đây là lúc mà câu hỏi quan trọng về việc xây dựng hay mua xuất hiện. Bạn sẽ muốn đánh giá các phương án có sẵn trên thị trường, bao gồm cả mã nguồn mở và xác định sự cân bằng hợp lý giữa các tính năng và chi phí để bắt đầu quy trình. 





Các nhà cung cấp rộng rãi cho cộng đồng thường bị tụt lại phía sau về mặt hoàn thiện tính năng so với các nhà cung cấp thương mại, những người tập trung 100% vào các công cụ gắn nhãn dữ liệu tốt nhất trong năng lực cốt lõi của họ. 





Ngoài ra, hãy nhớ rằng những người gắn nhãn dữ liệu có nguồn gốc từ cộng đồng sẽ không tiết lộ danh tính, vì vậy bối cảnh và chất lượng có thể là những điểm khó khăn.





Mở rộng quy trình





Nếu bạn đang trong giai đoạn phát triển, các công cụ thương mại có thể là lựa chọn tốt nhất của bạn. 





Bạn có thể tùy chỉnh, cấu hình và triển khai các tính năng một cách nhẹ nhàng với ít hoặc không cần tài nguyên phát triển. 





Nếu thích, các công cụ nguồn mở có thể cung cấp cho bạn nhiều quyền kiểm soát hơn đối với bảo mật, tích hợp và tính linh hoạt để thực hiện các thay đổi.





Lưu ý rằng, xây dựng một công cụ là một cam kết lớn: bạn sẽ đầu tư vào việc duy trì nền tảng đó theo thời gian và điều đó rất tốn kém.





Duy trì quy mô





Nếu bạn đang hoạt động ở quy mô lớn và muốn duy trì sự tăng trưởng đó theo thời gian, bạn có thể cân nhắc các công cụ thương mại, được tùy chỉnh đầy đủ và yêu cầu ít tài nguyên phát triển. 





Nếu bạn đi theo con đường mã nguồn mở, hãy đảm bảo tạo các quy trình dài hạn và tích hợp ngăn xếp sẽ cho phép bạn tận dụng bất kỳ lợi thế bảo mật hoặc linh hoạt nào mà bạn muốn tận dụng.





Quy mô và giai đoạn phát triển
Quy mô và giai đoạn phát triển




4. Đừng để sự lựa chọn lực lượng lao động của bạn khóa bạn vào một công cụ





Để có sự linh hoạt nhất và kiểm soát quá trình của bạn, đừng ràng buộc lực lượng lao động với công cụ.





Lựa chọn lực lượng lao động của bạn có thể làm giảm hoặc phá vỡ chất lượng dữ liệu, đây là trọng tâm của hiệu suất mô hình của bạn, vì vậy, điều quan trọng là phải giữ cho các lựa chọn công cụ của bạn luôn cởi mở. 





Các nhóm gắn nhãn dữ liệu tốt nhất có thể nhanh chóng áp dụng bất kỳ công cụ nào và giúp bạn điều chỉnh công cụ đó để đáp ứng tốt hơn nhu cầu gắn nhãn của mình.





5. Yếu tố trong yêu cầu chất lượng dữ liệu của bạn





Các tính năng đảm bảo chất lượng được tích hợp sẵn trong một số công cụ và bạn có thể sử dụng chúng để tự động hóa một phần của quy trình QA. 





Tuy nhiên, các tính năng QA này có thể sẽ không đủ, vì vậy, hãy tìm đến các nhà cung cấp lực lượng lao động được quản lý, những người có thể cung cấp nguồn nhân sự được đào tạo và có nhiều kinh nghiệm về các tác vụ gắn nhãn, để tạo ra dữ liệu đào tạo chất lượng cao hơn.





Cẩn thận với việc ký hợp đồng dài hạn





Một số nhà cung cấp dịch vụ gắn nhãn dữ liệu yêu cầu bạn ký hợp đồng nhiều năm cho lực lượng lao động hoặc công cụ của họ. 





Nếu nhà cung cấp dịch vụ gắn nhãn dữ liệu không đáp ứng các yêu cầu chất lượng của bạn, bạn cần sự linh hoạt khi kiểm tra hoặc chọn nhà cung cấp khác mà không bị phạt.





Nguồn: CloudFactory