Cách thành công với nghề Data Science


Có thể nói rằng lĩnh vực Khoa học Dữ liệu (Data Science) luôn được coi là công việc số 1 và là một trong số các công việc được trả lương cao nhất trên thế giới. Nhiều công ty đang chi hàng nghìn đô để thuê và nâng cao kỹ năng cho các data scientist tiềm năng.





Vì vậy, nhiều người cũng đang tìm hiểu và nâng trình trong lĩnh vực này. Nếu bạn là một người đam mê Data Science, đây là thời điểm thích hợp.





Tuy nhiên, bắt đầu sự nghiệp trong lĩnh vực này không đơn giản như những vai trò truyền thống khác vì nó còn khá mới mẻ. Nhiều người mắc sai lầm đáng tiếc do đi sai đường hoặc hiểu sai vì không có sự hướng dẫn.





Trong bài này, các nhà khoa học dữ liệu từ các công ty hàng đầu như IBM, American Express, Fractal Analytics, Myntra, Forbes sẽ chia sẻ và hướng dẫn bạn, một “tấm chiếu mới”, muốn bắt đầu sự nghiệp hoặc trở thành chuyên gia trong ngành khoa học dữ liệu.





1. Tại sao chọn Data Science?





Có rất nhiều nghề nghiệp với mức lương hấp dẫn ngoài thị trường việc làm và bạn có thể chọn để trở thành chuyên gia trong bất kỳ ngành nghề nào trong số đó, vậy tại sao lại chọn nghiên về ngành Khoa học dữ liệu?





Tại sao chọn theo nghề Khoa học dữ liệu?
Tại sao chọn theo nghề Khoa học dữ liệu?




1/ Tiến sĩ Chiranjiv Roy





Một trong 10 nhà khoa học dữ liệu hàng đầu của Ấn Độ | Phó chủ tịch cấp cao về Data Science của Forbes, Nissan Motors và Mercedes.





Đúng rằng có rất nhiều nghề nghiệp thú vị ngoài kia. Tuy nhiên lúc tôi mới bắt đầu thì “Data Science” có sự khác biệt rất lớn.





Tôi tốt nghiệp năm 2001 với chuyên ngành Xác suất Thống kê và Toán, hai chuyên ngành này là môn phụ của tôi và tôi đã làm trong lĩnh vực này trong 21 năm qua.





Trong thời gian đó, các lập trình viên Java là những người nhận được mức lương cao nhất và nếu bạn không phải là một lập trình viên Java thì mọi thứ trở nên khó khăn đối với bạn.





Hầu hết mọi người, bao gồm cả tôi, bị giới hạn trong Quản lý rủi ro vào thời điểm đó. Không có gì được gọi là Khoa học Dữ liệu hay Phân tích (mặc dù chúng tôi làm điều đó một cách vô tình).





Sau đó, với những tiến bộ công nghệ, các công cụ và định nghĩa của Data Science đã phát triển. Những người có kiến ​​thức về Xác suất Thống kê và Toán dễ dàng thích nghi với việc làm việc trong các dự án liên quan đến phân tích dữ liệu và cuối cùng chúng tôi phát hiện ra sức mạnh của những công cụ này và bắt đầu chú ý đến các tài liệu nghiên cứu khác.





Deep Learning và tất cả những thuật ngữ mà bạn nghe thấy ngày nay không phổ biến và thực sự hấp dẫn cho lắm vào thời điểm đó và bên cạnh đó hầu hết các công ty đều nghi ngờ về việc triển khai nó.





Tuy nhiên, phân tích dữ liệu vẫn bùng nổ do những kết quả trực tiếp và tức thì mà chúng ta có thể đạt được.





Vì vậy, tôi bắt đầu làm việc tại HSBC với tư cách là Chuyên viên Quản trị Rủi ro. Sau đó, tôi nghiên cứu thêm và 5 năm sau đó tôi tham gia nhóm Analytics tại Nissan Motors – nơi mà tôi bắt đầu tìm hiểu và làm khoa học dữ liệu chuyên nghiệp.





Nền tảng kiến thức mà tôi có trước đây đã giúp tôi phát triển niềm yêu thích trong lĩnh vực này và đó là lý do tại sao tôi có thể ở lại lĩnh vực này cho đến bây giờ.





2/ Saniya Jaswani –  Kỹ sư Machine Learning tại IBM





Tôi bắt đầu sự nghiệp của mình với tư cách là một .NET Developer. Đó là khỏi đầu cho việc theo đuổi nghề nghiệp tốt nhưng theo thời gian thì khoa học dữ liệu bắt đầu trở nên thông dụng và tôi quyết định tìm hiểu về nó.





Tôi thấy hứng thú hơn khi bắt tay vào thực hiện một hoặc hai dự án và thấy kết quả của tôi có tác động trực tiếp và tức thì như thế nào thông qua cái được gọi là khoa học dữ liệu.





Nó giống như khi bạn cố gắng đào sâu hơn vào dữ liệu, dữ liệu tự nó nói lên những ý nghĩa của các con số và điều đó làm tôi kinh ngạc.





Một lý do khác là ngành khoa học dữ liệu này khá rộng lớn và tôi có thể khám phá bất kỳ ngách nào tùy thích.





3/ Suraj Shukla – Data Scientist tại CIMB Lab





Thật không đơn giản để nói rằng tôi muốn trở thành một kỹ sư phần mềm (software engineer) hay một cái gì đó khác vì nó khá nhàm chán.





Tôi đã học kỹ sư phần mềm trong thời gian tốt nghiệp đại học, mặc dù tôi muốn làm một cái gì đó liên quan đến động vật vì tôi thích giao tiếp và tìm hiểu về động vật nhưng bố tôi phản đối niềm yêu thích của tôi, vì vậy tôi nghe lời ông và làm kỹ thuật.





Sau khi tốt nghiệp cử nhân, tôi may mắn được đầu quân cho một số công ty ở Nam Á.





Ban đầu, hầu hết công việc tôi tham gia là công việc mà chúng tôi thường gọi là “tìm hiểu nguyên nhân dẫn đến hậu quả”: về cơ bản là tìm kiếm những gì đã xảy ra trước đó.





Nhưng sau đó, tôi đã làm việc với các khách hàng từ Vương quốc Anh và hầu hết công việc là phân tích dự đoán, lập mô hình và lập bảng điều khiển.





Sau đó, tôi muốn tập trung và làm cái mình giỏi nhất nhưng mặc khác tôi cũng không muốn nghỉ việc.





Vì vậy, tôi bắt đầu với việc học một chương trình Executive dài 1 năm rưỡi và sau đó tôi tham gia CIMB Lab với vai trò Nhà khoa học dữ liệu.





Tôi gia nhập một công ty ở Malaysia, cách xa Ấn Độ và đó là một cơ hội lớn hơn cho tôi. Tôi trở lại Ấn Độ sau một vài năm và tham gia cùng 25 nhà khoa học dữ liệu khác ở Bangalore để thành lập một phòng thí nghiệm trí tuệ nhân tạo (A.I).





Kể từ đó, tôi đã làm việc với vai trò Nhà khoa học dữ liệu cho đến nay. Vì vậy, đó là cách tôi nhận ra rằng mình thật sự phù hợp trong lĩnh vực này.





4/ Kanav Anand – Data Scientist tại American Express





Lúc đầu, tôi rất phân vân trong việc lựa chọn giữa Khoa học dữ liệu và Kỹ thuật phần mềm vì khoa của tôi ở trường đại học được định hướng theo cả 2 hướng kỹ thuật phần mềm và khoa học dữ liệu.





Khi tôi bắt đầu làm việc với các dự án, tôi càng có xu hướng nghiêng về A.I (trí tuệ nhân tạo) và công việc đầu tiên của tôi là về Xử lý ngôn ngữ tự nhiên (NLP) và sau đó, tôi cũng thực hiện một vài dự án về thị giác máy tính (computer vision) giúp tôi có rất nhiều kiến thức.





Sau đó, tôi bắt đầu tìm hiểu thêm các khóa học trực tuyến về Trí tuệ nhân tạo (AI). Tôi cũng phát hiện ra rằng nó được liên kết với số liệu thống kê mà tôi rất thích làm và tôi có thể dễ dàng hiểu chúng thông qua những kiến thức tôi đã học trước đó.





Do đó, tôi nhận công việc thực tập trong lĩnh vực Data Science và mọi thứ bắt đầu mở ra từ đó, tôi quyết định gắn bó với lĩnh vực này cho đến bây giờ.





5/ Ranjeet Dhumal – Data Scientist tại Fractal Analytics





Mối quan tâm của tôi là về công nghệ và sau khi tốt nghiệp cử nhân, tôi bắt đầu xây dựng trang web. Tôi học Vật lý và chủ yếu là Cơ học lượng tử, là sự kết hợp giữa Toán và Vật lý.





Hầu hết những điều tôi đang làm trong Cơ học lượng tử tương tự như những gì chúng ta gọi là Machine Learning ngày nay nhưng vào thời điểm đó, chúng ta không gọi nó là Machine Learning.





Trong Cơ học lượng tử, chúng ta thường cố gắng tìm các giải pháp gần đúng cho một vấn đề và đó cũng là điều được thực hiện trong Machine Learning, cố gắng tìm ra con đường tối ưu nhất và giải pháp gần đúng cho các vấn đề trong thế giới thực.





Đó là điều hấp dẫn đối với tôi trong lĩnh vực Data Science và nền tảng thúc đẩy tôi tiếp tục trong lĩnh vực này hơn.





6/ Sajan Kedia – Data Scientist tại IBM, Myntra





Khi tôi hoàn thành khóa học thạc sĩ về khoa học máy tính vào năm 2013, không có gì giống như Khoa học dữ liệu, Máy học (Machine Learning) hoặc Trí tuệ nhân tạo.





Tuy nhiên, tôi may mắn được tham gia nhóm Thông tin Dữ liệu tại Phòng thí nghiệm Nghiên cứu của IBM, nơi tôi đã làm việc trong các dự án Khai thác Dữ liệu. Chúng tôi đã từng khai thác dữ liệu từ Twitter để tìm ra ai và ở đâu có khả năng xảy ra một cuộc biểu tình và bình luận có khả năng gây ra bất ổn xã hội.





Tôi phải nói rằng đó là một dự án rất thú vị. Tôi đã tham gia dự án này trong 2 năm và sau đó tôi bắt đầu khởi nghiệp với dự án riêng của mình.





Tôi khởi nghiệp trong lĩnh vực Adtech (quảng cáo – công nghệ). Ở đây, tôi và nhóm của tôi đã từng làm việc trên 20 terabyte dữ liệu mỗi ngày. Tôi đã học mọi thứ từ A-Z về Data Science.





Chúng tôi không có nhiều nguồn lực để thuê từ bên ngoài nên tôi phải làm hầu hết mọi việc một mình và đôi khi có sự giúp đỡ của đồng nghiệp. Chúng tôi đã từng xây dựng các mô hình để dự đoán liệu khách hàng có nhấp vào một quảng cáo cụ thể hay không.





Tôi đã làm điều đó trong khoảng 3 năm và sau đó tôi tham gia Myntra, một phần của nhóm Walmart và Flipkart với tư cách là Nhà khoa học dữ liệu. Tại Myntra, tôi hiện đang làm việc về tối ưu giá.





Vì vậy, đây là cách tôi tìm thấy chính mình trong Data Scienece và tôi yêu thích nó.





2. Kỹ năng nào có giá trị nhất đối với một nhà khoa học dữ liệu (data scientist)?





Nếu một người muốn bắt đầu sự nghiệp với tư cách là Nhà khoa học dữ liệu, người đó nên tập trung vào những kỹ năng nào nhất?





Các kỹ năng của nhà khoa học dữ liệu là gì?
Các kỹ năng của nhà khoa học dữ liệu là gì?




1/ Benjamin Skrainka – Nhà khoa học dữ liệu tại Galvanize





Các nhà khoa học dữ liệu cần có chuyên môn trong nhiều lĩnh vực.





Bạn cần phải giỏi về cơ sở dữ liệu. Bạn cần một ít kiến ​​thức về kỹ thuật phần mềm. Bạn cần biết một chút về học máy (Machine Learning). Và bạn cần biết một chút về thống kê.





“Đồng thời, tôi nghĩ rằng sự tò mò là rất quan trọng. Các nhà khoa học dữ liệu rất tò mò. Họ liên tục khám phá, đặt câu hỏi, thực hiện các phân tích điều gì-xảy ra (what-if analysis) cho các giả định và quy trình hiện có.”





Họ sẽ luôn học hỏi và suy nghĩ về những công nghệ mới sẽ giúp họ hoạt động hiệu quả và giúp doanh nghiệp thành công. Mặc dù có rất nhiều công cụ tuyệt vời có sẵn, nhưng không có gì thay thế được tư duy.





2/ Cliff Click – Giám đốc công nghệ tải Neurecular





Các nhà khoa học dữ liệu cần có sự kết hợp tốt giữa kiến ​​thức chuyên môn và hiểu biết về kinh doanh. Họ cần phải cực kỳ ham học hỏi và không ngừng tìm ra cách giải quyết một vấn đề cụ thể.





Điều đó có nghĩa là đào sâu vào các cách tiếp cận và lựa chọn thay thế khác nhau – không chỉ xây dựng mô hình và chạy các thuật toán, mà còn giải thích kết quả để thúc đẩy các cơ hội kinh doanh mới.





3/ Jorge Castañón – Data Scientist tại IBM





Sáng tạo là yếu tố then chốt của khoa học dữ liệu. Bạn cần phải có nền tảng kỹ thuật, nhưng bạn cũng cần đủ tò mò để khám phá ở mức độ sâu hơn.





Một nhà khoa học dữ liệu lành nghề khám phá và kiểm tra dữ liệu từ nhiều nguồn khác nhau.





Họ không đơn giản thu thập và báo cáo về dữ liệu, mà còn xem xét nó từ nhiều góc độ, xác định ý nghĩa của nó và sau đó đề xuất các cách áp dụng các phát hiện.





4/Jonathan Dinu – Phó Chủ tịch của Academic Excellence tại Galvanize





Một trong những thuộc tính chính giúp phân biệt nhà khoa học dữ liệu ngày nay là sự nhạy bén trong kinh doanh cùng với khả năng truyền đạt những phát hiện từ dữ liệu cho cả doanh nghiệp và các nhà lãnh đạo CNTT theo cách có thể ảnh hưởng đến cách một tổ chức tiếp cận một thách thức kinh doanh.





Các nhà khoa học dữ liệu thường trở thành người liên lạc giữa IT và giám đốc cấp C (C-level).





Do đó, họ cần có khả năng truyền đạt cả hai và hiểu hệ thống phân cấp của dữ liệu; họ không thể chỉ là chuyên gia dữ liệu.





Tóm tắt các kỹ năng cần thành thạo từ các chuyên gia





  • Kiến thức cơ bản về Toán học và Thống kê
  • Kiến thức vững chắc về Python, SQL, Cơ sở dữ liệu và Excel
  • Mạnh về Trực quan hóa dữ liệu
  • Kiến thức chuyên sâu về thuật toán học máy
  • Chọn một lĩnh vực và chuyên môn hóa (Natural Language Processing, Computor Vision, Big Data…)
  • Làm chủ nghệ thuật Storytelling
  • Thành thạo Kỹ năng Giao tiếp và Thuyết trình
  • Làm chủ kỹ năng làm việc nhóm và cộng tác
  • Phát triển kiến ​​thức chuyên môn.




3. Nguồn lực nào đã giúp bạn trở thành một nhà khoa học dữ liệu?





Khi bạn bắt đầu tìm hiểu lĩnh vực Data Science, bạn sử dụng những tài nguyên nào. Bất kỳ sách, blog, bài báo, khóa học hoặc bất kỳ thứ gì khác mà bạn có thể chia sẻ?





Tài liệu học Data Science
Tài liệu học Data Science




1/ Kanav Anand – Data Scientist tại American Express





Tôi nghĩ điều quan trọng nhất cần làm khi bạn bắt đầu hoàn thiện dần các thống kê và lập trình.





Điều đó có nghĩa là đảm bảo bạn phát triển một nền tảng vững chắc về toán và thống kê cùng với kỹ năng  lập trình. Đối với tôi, tôi đã sử dụng các video Youtube ngẫu nhiên để học viết code bằng Python.





Tôi đã có những kiến ​​thức cơ bản về thống kê nên tôi không cần phải lo lắng nhiều về thống kê và toán học nhưng tôi vẫn đọc một vài cuốn sách thống kê như “Practical Statistics For Data Scientist” của Peter Bruce và Andrew Bruce.





Đối với Python, bạn có thể dễ dàng bắt đầu với các video trên Youtube hoặc các khóa học Udemy như Python Crash Course.





Đối với Học máy (Machine Learning), tôi đã sử dụng khóa của Andrew Ng trên Coursera, đây là một khóa tuyệt vời để bắt đầu với Học máy (Machine Learning).





2/ Ranjeet Dhumal – Nhà khoa học dữ liệu tại Fractal Analytics





Tôi nghĩ rằng nguồn tốt nhất là có được trải nghiệm thực tế ngay từ ngày đầu tiên.





Trong trường hợp của tôi, tôi đã học được từ những người cố vấn của mình, những người đang hoạt động trong lĩnh vực Data Science.





Tôi không có bất kỳ chứng chỉ nào và cho đến nay, tôi không có một chứng chỉ nào về Data Science. Tôi tập trung làm việc với các vấn đề trong thực tế hơn là chọn các tập dữ liệu giả định.





Tôi đã từng chọn một vấn đề cụ thể xung quanh của mình và cố gắng tự mình thu thập dữ liệu, sau đó chuẩn bị và xây dựng mô hình để đưa ra dự đoán số liệu.





Điều đó đã cho tôi cảm nhận và hiểu hơn về khoa học dữ liệu trong thực tế và điều này giúp tôi tham gia và theo đuổi lĩnh vực này dễ dàng hơn.





Tôi đã từng tham gia Hackathons, một số từ Hackerank, Kaggle,… Tôi cũng đã từng đọc blog rất nhiều từ Medium.





Tôi đảm bảo rằng tôi đã tìm kiếm trên Google càng nhiều càng tốt về một chủ đề cụ thể.





Ví dụ, nếu tôi chọn Logistics Regression, tôi sẽ google rất nhiều tài nguyên về chủ đề đó và tìm hiểu chi tiết, đặc biệt là về mặt toán học đằng sau nó.





Đối với Deep Learning, tôi đã sử dụng ebook về Deep Learning của Ian Goodfellow và Yoshua Bengio.





Tôi tham gia một công ty khởi nghiệp và bắt đầu làm việc với các dự án liên quan đến Deep Learning, đặc biệt là các dự án về Computor Vision.





Vì vậy, đó là cách tôi học để trở thành một nhà khoa học dữ liệu.





3/ Sajan Kedia – Nhà khoa học dữ liệu IBM tại Myntra





Tôi thích hackathons hơn nên tôi đã theo dõi Kaggle rất nhiều. Tôi cũng đã từng đọc rất nhiều blog từ Medium, Analyticsvidya và KDNuggets. Những nguồn tài liệu này đã giúp tôi hiểu một số khái niệm cơ bản, cũng như cách mọi người triển khai các khái niệm lạ lẫm đối với tôi.





Tôi đặc biệt không tham gia bất kỳ khóa học Khoa học Dữ liệu nào vì chúng không có sẵn vào thời điểm tôi bắt đầu học tức vào năm 2013. Nhưng như tôi đã đề cập trước đó, tôi may mắn được tham gia nhóm Thông tin Dữ liệu tại Phòng thí nghiệm Nghiên cứu của IBM.





4/ Suraj Shukla – Nhà khoa học dữ liệu tại CIMB Lab





Tôi đã có một nền tảng kiến thức về lập trình nên tôi không gặp khó khăn. Tuy nhiên, ở thời của tôi, chúng tôi không biết ngôn ngữ lập trình nào tốt nên tôi bắt đầu với Java, sau đó chuyển sang lập trình R rồi sau đó là Python.





Nhưng bây giờ rõ ràng Python là tốt nhất khi nói đến Khoa học dữ liệu. Vì vậy, tôi đã bắt đầu với Python, nó cũng dễ học hơn so với tất cả các ngôn ngữ lập trình khác cho đến nay.





Đối với Python, tôi khuyên bạn chỉ nên bắt đầu với tài liệu Python hoặc nếu bạn là người mới bắt đầu thì hãy tham gia một số khóa học Udemy hoặc Coursera.





Tôi cũng đã từng đọc rất nhiều về chi tiết của các thuật toán khác nhau, chẳng hạn như toán học đằng sau một thuật toán cụ thể là gì và tại sao một thuật toán này tốt hơn thuật toán kia và theo những cách cụ thể nào.





Tôi cũng có đủ hiểu biết về một số khái niệm thống kê và toán học chính như đại số tuyến tính và giải tích, điều này đặc biệt hữu ích khi bạn đang cố gắng giảm thiểu chi phí trong machine learning. Tôi nghĩ rằng thuật toán không phải là một vấn đề, nó cần đi kèm với kinh nghiệm, khi bạn làm nhiều dự án, bạn sẽ biết phải sử dụng thuật toán nào cho vấn đề nào.





5/ Saniya Jaswani – Kỹ sư học máy tại IBM





Tôi chủ yếu tham gia một số khóa học Khoa học dữ liệu từ Coursera và Udemy.





Để luyện tập, tôi sử dụng Kaggle. Tôi nghiên cứu những gì mọi người đang làm và bắt đầu làm  dự án riêng của tôi với một số bộ dữ liệu và các cuộc thi.





Tôi cũng đã đọc rất nhiều blog hay từ Medium để hiểu các chủ đề nhất định. Ngày nay, hầu hết các khái niệm đều có trên Google và tìm kiếm về một chủ đề cụ thể nào đó thì trở nên rất đơn giản.





4. Thách thức bạn phải đối mặt hàng ngày là gì?





Các thách thức đối với Data Science
Các thách thức đối với Data Science




1/ Michael Schmidt – Data Scientist / Founder, Nutonian





Một trong những thách thức lớn nhất với tư cách là nhà khoa học dữ liệu là áp dụng kiến ​​thức chuyên môn để giải quyết vấn đề.





Chúng tôi có rất nhiều thuật toán và kỹ thuật để thu được giá trị từ dữ liệu, nhưng chúng tôi cần các giải pháp áp dụng và mang tính ứng dụng nhiều nhất – để liên kết ý nghĩa của số liệu thống kê với cơ hội  kinh doanh.





“Giải quyết vấn đề và dự đoán kết quả bằng cách sử dụng các mô hình phức tạp đòi hỏi cả sự hiểu biết về các khả năng, công cụ và kỹ thuật khoa học dữ liệu cũng như khả năng đặt câu hỏi để cung cấp thông tin cho xử lý dữ liệu.





Giải thích vấn đề cũng vừa khoa học vừa nghệ thuật.





2/ Andy Gants – Nhà khoa học dữ liệu tại Spare5





Một trong những thách thức lớn hơn mà tôi phải đối mặt trong công việc hiện tại là các công cụ ước tính xác suất và thống kê mà tôi đã sử dụng trước đây trong nghiên cứu khoa học trái đất là những công cụ giống nhau, nhưng chúng không nhất thiết phải thực hiện theo cùng một cách đối với những vấn đề mới chẳng hạn ước lượng người dùng và đáp án, ước tính chất lượng trong các vấn đề crowdsourcing.





Vì vậy, các công cụ là giống nhau, nhưng ứng dụng của các công cụ đó khác nhau. Học cách thực hiện với bộ phận phát triển phần mềm là một thách thức khá lớn – nhưng rất thú vị.





3/ Roman Schindlauer – Giám đốc chương trình tại Dato





Một trong những trở ngại lớn nhất đối với năng suất phân tích là tinh chỉnh và định dạng dữ liệu cần thiết cho phân tích chất lượng cao.





Việc thiếu ngôn ngữ lập trình chuẩn hóa hoặc mang tính đại chúng dành riêng cho khoa học dữ liệu sẽ làm cho việc này trở nên khó khăn hơn.





Ngay cả với các công cụ tốt nhất hiện nay, cũng không có cách nào tốt để làm sạch dữ liệu theo cách thủ công.





Đó là một chu kỳ liên tục thu thập và làm sạch dữ liệu và cố gắng tìm hiểu xem liệu nó có mang lại những phát hiện nào đáng kể hay không.





Hay bạn sẽ cần quay lại và thay đổi các thông số hoặc dữ liệu nhiều hơn? Tôi nghĩ rằng chúng ta đang đi tới vị trí mà ở đó sự hỗ trợ bằng công cụ sẽ giúp có đất dụng võ, nhưng nó vẫn đòi hỏi rất nhiều thao tác thủ công.





5. Tuyệt chiêu để đậu phỏng vấn Data Science?





Làm sao để đậu cuộc phỏng vấn Khoa học Dữ liệu dường như là mối quan tâm của nhiều ‘tấm chiếu mới’. Một người nên tiếp cận buổi phỏng vấn Khoa học Dữ liệu như thế nào?





Làm sao chắc đậu phỏng vấn Data Science
Làm sao chắc đậu phỏng vấn Data Science




1/ Sajan Kedia – Data Scientist tại IBM, Myntra





Tôi nghĩ điều khiến các cuộc phỏng vấn Khoa học Dữ liệu trở nên khó đoán một chút là vì nó rất khác nhau giữa các công ty.





Không giống như Kỹ thuật phần mềm, nơi bạn có thể nói rằng bạn có khả năng được hỏi về Cấu trúc dữ liệu, thuật toán và kỹ năng lập trình, trong Khoa học dữ liệu, mọi công ty đều có yêu cầu và kỹ năng nhất định mà họ tìm kiếm ở một ứng viên và điều đó khiến nó rất khó xác định .





Trước tiên hãy dành thời gian nghiên cứu về công ty. Nếu công ty có quy mô lớn, họ có thể sẽ hỏi bạn về kinh nghiệm của bạn trong việc xử lý các tập dữ liệu lớn.





Nếu công ty tập trung nhiều hơn vào tư vấn và định hướng dịch vụ, có khả năng họ sẽ quan tâm đến các kỹ năng như SQL, Excel, một chút về lập trình. Nếu công ty có lĩnh vực đặc thù như chăm sóc sức khỏe và tài chính, thì ngoài kỹ năng lập trình, họ có thể hỏi về kiến ​​thức về lĩnh vực đó.





Nếu bạn dành thời gian để thực hiện nghiên cứu cơ bản này, bạn sẽ biết những gì sẽ được hỏi trong các vòng phỏng vấn và điều đó sẽ không làm bạn ngạc nhiên. Bạn cũng có thể tìm kiếm một số công ty khi bạn bắt đầu làm việc và phát triển các kỹ năng phù hợp. Bằng cách đó, bạn có thể dễ dàng đáp ứng yêu cầu công việc của họ và có khả năng được tuyển.





2/ Suraj Shukla – Data Scientist tại CIMB Lab





Bạn sẽ rất có lợi thế khi chia sẻ trong buổi phỏng vấn Khoa học Dữ liệu về việc bạn có một số dự án đã từng làm trước đây. Điều quan trọng là phải có một nơi lưu trữ trên Github về những dự án của bạn.





Nó sẽ giúp bạn kéo cuộc trò chuyện về vùng an toàn và nằm trong sự hiểu biết của bạn. Người phỏng vấn có thể có trải nghiệm khác với những gì bạn có và nếu bạn để họ dẫn dắt cuộc trò chuyện, họ sẽ hỏi bạn những điều mà bạn có thể không quen. 





3/ Kanav Anand – Data Scientist tại American Express





Trong các cuộc phỏng vấn Khoa học Dữ liệu, bạn có thể sẽ có một vòng kỹ thuật và một vòng CV / Sơ yếu lý lịch.





Trong vòng kỹ thuật, hãy nắm thật vững các thuật toán, tức là không chỉ cách nhập và sử dụng chúng để xây dựng mô hình mà logic toán học đằng sau chúng cũng rất quan trọng. Bạn sẽ cần giải thích lý do tại sao bạn sử dụng thuật toán này thay vì thuật toán kia.





Bạn đã xem xét tối ưu hóa siêu tham số nào. Cuối cùng, cách bạn giải thích kết quả đầu ra kết quả cũng rất quan trọng.





Đối với vòng CV / Resume, tất cả phụ thuộc vào dự án bạn đã làm và bạn có thể giải thích chúng ở mức độ như thế nào để người phỏng vấn tin rằng bạn đã tự làm và bạn thực sự hiểu những gì bạn đã làm.





Nếu bạn không có bất kỳ dự án nào trên GitHub hay portfolio thì kiểu gì thảm họa cũng ập tới. Người phỏng vấn sẽ dội bom bạn với những câu hỏi mà bạn có thể không biết.





Nguồn: MrBriit