5 nguyên nhân chính vì sao các nhà khoa học dữ liệu rời bỏ công việc của mình
Giới thiệu
Hiện nay, biểu đồ của nhà khoa học dữ liệu đang ở mức đỉnh điểm. Hướng tới năm 2020, thực sự không có quá nhiều các chuyên gia ở ngoài kia có thể phân biệt trắng, đen hay tuân thủ các câu lệnh từ 1 nhà khoa học dữ liệu.
Mình đã từng thấy mấy ông ‘không phải là khoa học gia dữ liệu’ (hay các gã ‘không phải là kĩ thuật viên’) nhìn vào 1 nhà khoa hc dữ liệu như là 1 siêu nhân. Có hàng tá các lý do cho việc này (gồm cả việc cường điệu quá theo truyền thông) nhưng không cần phải bận tâm vì công việc của 1 nhà khoa học dữ liệu là 1 việc làm cao quý.
Hãy xem thử biểu đồ ‘Hype Cycle’ được xuất bản bởi Gartner cho Artificial Intelligence năm 2019 bên dưới:
Để ủng hộ, đây là “Báo cáo về các việc làm triển vọng của Linkedin” và mình chắc rằng bạn sẽ đoán ra ngay công việc đang đứng top danh sách là gì rồi:
Các con số này khá là ngạc nhiên. Từ các công ty ‘Fortune 500’ tới các của hàng bán lẻ, tổ chức vòng quanh thế giới đều muốn xây dựng 1 đội hình bao gồm các chuyên gia khoa học dữ liệu hàng đầu. Năm 2019 vốn đã phá mọi kỉ lục trước đó của việc đầu tư vào ngành khoa học dữ liệu và AI.
Nhưng mặc dù có bao nhiêu xu hướng tích cực này, mình vẫn có 1 cảm giác không thoải mái tiềm ẩn. Các nhà khoa học dữ liệu đang từ bỏ hay đổi nghề 1 cách nhanh chóng. Tại sao điều này lại đang xảy ra? Liệu có điều gì mà chúng ta chưa biết?
Hãy phân tích 5 lý do chính tại sao các nhà khoa học dữ liệu lại đang rời bỏ công việc gần như là ước mơ của họ. Nếu như bạn cũng đang đối mặt với điều này, hay muốn chia sẻ kinh nghiệm riêng của mình, hãy chia sẻ nó với cộng đồng trong phần bình luận cuối bài nhé !
-
Kỳ vọng và Thực tế – Góc khuất to lớn !
Đây là 1 trong những vấn đề phổ biến nhất trong lĩnh vực khoa học dữ liệu. Có 1 khuất mắt ngày càng lớn giữa việc các nhà khoa học dữ liệu mong đợi và việc họ thực sự làm trong ngành công nghiệp này.
Có nhiều nguyên nhân cho điều này và có thể đa dạng tùy theo trường hợp của mỗi người. Các cấp độ về kinh nghiệm cũng đóng vai trò lớn trong vực sâu của sự kỳ vọng này.
Hãy lấy ví dụ về các nhà khoa học dữ liệu đầy tham vọng. Thông thường, họ tự học và thu thập kiến thức thông qua sách vở và các khóa học online. Họ không có cơ hội nhiều để tiếp xúc với các dự án ngoài đời thực hay là dataset. Mình cũng đã gặp khá nhiều ‘các nhà khoa học dữ liệu đầy tham vọng’, những người mà hầu như không biết tí gì về:
- Cách 1 đường ống ‘machine learning’ hoạt động
- Vai trò của kỹ thuật phần mềm trong kỹ năng tổng thể về khoa học máy tính
- Việc đặt 1 model vào khâu sản xuất/ triển khai 1 model có ý nghĩa như thế nào, v.. v..
- Sự quan trọng của việc ‘dọn dẹp dữ liệu’ mà vốn nó đã ngốn khá nhiều thời gian của bạn
Cũng như tôi đã giới thiệu trước đó, cơ hội để chơi đùa với các bộ công cụ ‘machine learning hào nhoáng’ và các framework hiện đại nhất khá là quyến rũ cho các tân binh (và những người khác, thật sự!)
“ Đây chính là thực tế – ngành công nghiệp này không hoạt động như thế. Có quá nhiều yếu tố để tạo ra một dự án khoa học dữ liệu gần với những gì chúng ta trải nghiệm trong các cuộc thi khoa học dữ liệu online.
Làm cách nào để bạn thu thập và lưu trữ dữ liệu, cách để chúng thực hiện ‘version control’, cách để triển khai model vào khâu sản xuất – đây chỉ là vài khía cạnh chính mà các tổ chức mong rằng bạn sẽ biết.
Sự mong đợi lệch lạc này là thứ cản đường chính và dẫn tới việc các nhà khoa học dữ liệu từ bỏ công việc của họ. Mình luôn luôn muốn khuyên các tân binh và các nhà khoa học dữ liệu nghiệp dư có thể trao đổi liên tục với các senior và các cựu sinh viên tổ chức của họ để xóa góc khuất giữa kỳ vọng và thực tế.
2. Định hướng vai trò của các nhà khoa học dữ liệu tới mục đích kinh doanh
Đây cũng là 1 trong những vấn đề ít phổ biến hơn. Điều này chủ yếu là do sự cường điệu quá mức về ngành khoa học máy tính và trí thông minh nhân tạo (AI) trong những năm gần đây.
Giám đốc điều hành, CxO, C-Suite, nhà đầu tư – tất cả những người có tên tuổi trong giới kinh doanh của các doanh nghiệp đều muốn thể hiện rằng tổ chức hoặc dự án của họ luôn đi đầu trong những tiến bộ công nghệ mới nhất. Và AI ngay bây giờ chính là lĩnh vực để đầu tư.
Vấn đề là – chúng ta đã thấy hàng tá các ông senior tin rằng AI chính là mấu chốt cho các vấn đề kinh doanh của họ. Và nếu họ đầu tư vào AI cùng các chuyên gia phù hợp, họ sẽ tìm ra giải pháp nhanh hơn và tiết kiệm được 1 nửa thời gian.
Tuy nhiên, đó không phải là những gì sẽ diễn ra. Các dự án khoa học dữ liệu thông thường tương quan rất nhiều trải nghiệm, thử nghiệm, ‘error method’ và sự lặp đi lặp lại của cung 1 quá trình trước khi họ có thể với tới kết quả cuối cùng. Và đôi khi đòi hỏi hàng tháng trời để có thể đạt được kết quả mong muốn.
” Data Warehouse và cơ sở hạ tầng AI đều yêu cầu khoản đầu tư khủng (tùy thuộc vào quy mô của công ty) và các khám phá trong công việc có thể mất khá lâu cũng như việc hình thành ‘insight’ hoạt động từ những vùng dữ liệu rộng lớn cũng thường ngốn nhiều thời gian. Đây cũng là lý do tại sao các nhà khoa học dữ liệu đòi hỏi sự tiếp cận linh hoạt – 1 nơi mà họ có thể cống hiến thời gian và không gian để làm việc trên dữ liệu.
Điều này thường không đạt được thỏa thuận với các trưởng nhóm kinh doanh trong nhiều lĩnh vực. Các nhà khoa học dữ liệu cuối cùng cảm thấy khó chịu với khả năng lãnh đạo của các senior và những mong đợi không thực tế của bản thân, dẫn đến một cuộc di cư hàng loạt trong các dự án.
Làm cách nào để các nhà khoa học dữ liệu và trưởng nhóm kinh doanh có thể làm việc hiệu quả:
- Thiết lập sự liên lạc mật thiết giữa khoa học dữ liệu và các nhóm kinh doanh. Họ cần phải có sự gắn kết và phối hợp với nhau
- Khai thác trực giác kinh doanh và kiến thức từ các trưởng nhóm kinh doanh. Điều này có thể hoạt động 1 cách thần kỳ cho các nhà khoa học dữ liệu
- Cùng phát triển 1 ma trận hiệu năng có thể đo đạc được cho kinh doanh để đo đạc sự tiến triển hiệu năng của các nhà khoa học dữ liệu
- Sự linh hoạt đóng vai trò thiết yếu và là 1 trong những tố chất quan trọng cho 1 nhà khoa học dữ liệu
Tôi sẽ rất khuyến khích các chuyên gia khoa học dữ liệu và các trưởng nhóm kinh doanh xem thử series bên dưới của Tiến sĩ Om Deshmukh. Ông ta đã lập nên khuôn khổ cho việc vận hành thành công 1 dự án khoa học dữ liệu 1 cách rất chi tiết:
- A Data Science Leader’s Guide to Managing Stakeholders
- How can you Convert a Business Problem into a Data Problem? A Successful Data Science Leader’s Guide
- 4 Key Aspects of a Data Science Project Every Data Scientist and Leader Should Know
- Deployed your Machine Learning Model? Here’s What you Need to Know About Post-Production Monitoring
3. Sự thiếu hụt việc nâng cao kĩ năng cho các chuyên gia khoa học dữ liệu
Ai mà không thích những thử thách mới? Tôi sẽ tranh luận rằng lĩnh vực khoa học dữ liệu sẽ chín muồi hơn nhờ những gì thử thách mang tới, như việc tạo nên tiến độ nhanh hơn, dẫn đến sự tiến bộ. Hãy chọn tên miền Natural Launguage Processing (NLP) chẳng hạn. Số lượng các tiến triển đã xảy ra trong vòng 2 năm qua thật sự rất ấn tượng.
Hầu hết các khoa học dữ liệu sẽ rất thích làm việc với những kỹ thuật và framework mới. Ý mình là, ai mà tận hưởng được việc dựng lên rồi cứ lặp đi lặp lại trên cùng model đệ quy logistic (logistic regression model) suốt mấy năm trời đây chứ?
“ Vai trò của các nhà khoa học dữ liệu không tránh khỏi yếu tố trì trệ. Có 1 bức tường ngăn cản bạn sẽ gặp phải trong 1 thời điểm nhất định và cảm giác mong muốn các thử thách mới sẽ luôn sục sôi trong bạn.
Hãy thêm điều này, về 2 yếu tố chúng ta đã nhắc ở trên về việc lo liệu các mong đợi. Đây là một sự pha trộn mọi thứ khá nhức nhói, phải không nào? Không thể tránh được viêc bất cứ nhân viên nào cũng sẽ chịu đựng sự thiếu động lực sau 1 thời điểm nhất định.
Điều này đặc biệt đúng tại các công ty lớn nơi độ linh hoạt thấp. Mình chắc rằng rất nhiều trong số các bạn đã trải nghiệm điều này, nhất là với những người đã làm việc tại các công ty ‘blue-chip. Các startup và doanh nghiệp cỡ vừa vẫn tốt hơn về vấn đề này (nhưng họ cũng đưa ra một loạt các thử thách khác nhau).
Có 3 lý do chính mà mình đã gặp phải, vốn dẫn đến việc bào mòn nhân sự:
- Sự thiếu hụt cơ sở hạ tầng: Đây là trường hợp phổ biến với hầu hết các doanh nghiệp, họ thiếu hụt cơ sở hạ tầng như hệ thống máy tính, độ tiếp cận tới các bộ công cụ v..v.. để hỗ trợ vai trò của 1 nhà khoa học dữ liệu
- Phạm vi kinh doanh: năng lực hoạt động của doanh nghiệp có thể hơi hạn chế và hạn hẹp. Tới 1 thời điểm, nó có thể gây khó khăn cho 1 nhà khoa học dữ liệu để suy luận nhiều insight hơn từ dữ liệu
- Sự thiếu hụt nghiên cứu và phát triển: Là 1 nhà khoa học dữ liệu bạn sẽ thích khám phá nhiều lĩnh vực bên ngoài phạm vi công việc của bạn. Ví dụ: nếu bạn là 1 chuyên gia Thị giác Máy tính (Computer Vision) và muốn nghiên cứu thêm về NLP rồi tới vùng R&D sẽ là nơi tốt nhất cho bạn. Hầu hết các công ty điều thiếu sót điều này và dẫn đến việc hao hụt.
4. Không có quy chuẩn rõ ràng trong các khoản chi trả lương
À ha, mình có thể thấy ánh mắt chói lòa của bạn khi đọc tới tiêu đề này. Lương bổng là 1 trong những lý do chính khiến mọi người muốn nhảy vào ngành khoa học dữ liệu và làm việc như 1 sự nghiệp toàn thời gian.
Chúng ta thường thấy bảng các báo cáo từ McKinsey, Glassdoor v…v.. nơi họ giới thiệu mức lương trung bình cao vút dành cho các nhà khoa học dữ liệu. Hầu hết các tay mơ sẽ phải động lòng một khi thấy các con số được đưa ra trong các bảng báo cáo.
Lương của 1 nhà khoa học dữ liệu thì cao ngút trời. Mình đảm bảo rằng bạn đã đọc các bản tin trong năm nay. Và thấy các nhà khoa học dữ liệu hàng đầu đang được săn lùng bởi các công ty như Google và Apple (Ian Goodfellow là 1 ví dụ)
Điều này đang thường xuyên xảy ra. Các nhà khoa học dữ liệu, những người đang làm công việc đặc biệt trong lĩnh vực tương ứng của họ, thường được truy tìm bởi hơn 500 công ty Fortune, nơi đưa ra mức lương khá cao trong khi các công ty vừa và nhỏ thì lại không đưa ra được mức lương cao lắm (thường là vậy).
Mình cảm thấy đã đến lúc cần tiêu chuẩn hóa / quy chuẩn khi nhắc tới việc bù đắp xứng đáng. Ngay cả trong các công ty dạng vừa, nơi cần phân biệt rõ ràng khi so mức lương của 1 tân binh với kỹ năng cao đối với 1 nhà khoa học dữ liệu có kinh nghiệm với cùng cấp độ kỹ năng. Không quy chuẩn hóa mức lương có thể dẫn đến:
- Không hài lòng, ảnh hưởng hiệu năng làm việc ngay cả đối với 1 nhân viên có tiềm năng cao
- Nguyên nhân chính cho việc các nhân viên tiêm nhiễm nhau trong văn phòng, xem xét về các cơ hội làm việc tốt hơn ở các nơi khác
1 lần nữa – khía cạnh này thật ra không khác nhiều so với các công việc khác, phải không nào?
5. Tiếp xúc nhiều với các dự án khoa học dữ liệu khác nhau trên các nền tảng khác nhau
Bạn sẽ ước gì nhiều hơn giữa 2 sự lựa chọn này:
- Lựa chọn 1: 1 công việc nhẹ – lương cao nơi bạn có thể điều chỉnh các kỹ năng và kết quả để đạt được các mục tiêu công ty, hay là
- Lựa chon 2: 1 cuộc sống với công việc đầy linh hoạt nơi bạn có thể làm việc bất cứ đâu và đạt được sự tự trưởng thành cao?
Hầu hết các bạn đều chọn Lựa chọn 2. Ai mà không thích sự linh hoạt tại nơi làm việc và thoải mái tự chọn điều bạn muốn làm?
Ngày nay, có khá nhiều sự lựa chọn cho 1 nhà khoa học dữ liệu để lựa chọn:
- Họ có thể thử vận may của mình tại các cuộc thi trên các nền tảng như Kaggle, Analytics Vidhya v..v.. và thắng các khoản tiền thưởng thú vị và danh vọng trong cộng đồng
- Các freelancer được yêu cầu khá nhiều do những công ty ngày nay thường có hứng thú với các dự án ngắn hạn
- Các nhà khoa học dữ liệu freelance biết hầu hết về Spark, Hadoop, Hive, Pig, SQL, Neo4J, MySQL, Python, R, Scala, TensorFlow, NLP, Computer Vision hay bất kỳ thứ gì của machine learning bởi vì họ phải nhảy vào các vấn đề và khám phá ra cách giải quyết nó
- Viết blog và thương hiệu cá nhân cũng là sự lựa chọn đang khá ‘hot’ trong thời điểm này đối với các nhà khoa học dữ liệu. Chẳng hạn như là Grant Sanderson – ổng là 1 trong những người mà mình yêu thích !
Các tổ chức thường không thể đề nghị hết những điều này cho các chuyên gia khoa học dữ liệu thường trực về các lý do logistic hiển nhiên hay những lý do liên quan tới dự án.
Làm cách nào để các công ty có thể giữ được các Chuyên gia khoa học dữ liệu hàng đầu của mình?
Đây là 1 vài cách mình đã thử và kiểm nghiệm, thứ mà 1 doanh nghiệp có thể duy trì hầu hết các tài năng khoa học dữ liệu của mình:
- Tạo ra 1 môi trường học tập mạnh mẽ: Đây là điều thiết yếu cho sự phát triển cá nhân và chuyên nghiệp hóa của 1 cá thể. Lĩnh vực này đang bùng phát với nhiều thứ mới mẻ để khám phá hơn mỗi ngày và với tốc độ này sẽ rất quan trọng để cung cấp một môi trường học tập tiến bộ cho các nhà khoa học dữ liệu
- Xây dựng 1 đội ngũ Nghiên cứu và Phát triển mạnh mẽ: Tạo 1 đội ngũ R&D có thể tạo điều kiện cho việc nghiên cứu chất lượng và có thể thực hiện được trong lĩnh vực. Cho phép các nhân viên điều hướng nghiên cứu về các chủ đề chuyên sâu cũng là 1 công thức tuyệt vời
- Tiêu chuẩn hóa sự bù đắp của họ: Tiêu chuẩn sự bù đắp sẽ chiếm từ từ được lòng tin và cho các nhà khoa học sự đảm bảo rằng họ đang được hưởng thù lao xứng đáng dựa vào các tiêu chuẩn tốt nhất của ngành công nghiệp này (cũng dễ hiểu thôi, điều này khá khó để thực hiện được)
Lời cuối
Mọi thứ về lĩnh vực khoa học dữ liệu đều rất là năng động. Chúng ta vẫn đang cố tìm hiểu rất nhiều thứ nên việc sắp đặt trên 1 khía cạnh hay 1 quá trình hay cấu trúc vẫn cho thấy nhiều sự khó khăn cho các doanh nghiệp.
Ngày qua ngày, mình tin rằng chúng ta sẽ có những hệ thống và tiến triển mạnh mẽ đúng lúc, và các nhà khoa học dữ liệu sẽ có 1 môi trường làm việc trọn vẹn. Quan điểm này cần phải thực hiện, cả từ quan điểm kinh doanh cũng như của các nhà khoa học dữ liệu
Mình cũng rất muốn nghe về các quan điểm của bạn về điều này. Không biết bạn có đang làm việc về các vấn đề khoa học dữ liệu không? Liệu bạn đã từng trải nghiệm bất cứ vấn đề nào mình đề cập ở trên không? Hay bất kỳ vấn đề nào khác mà bạn muốn chia sẻ? Hãy cho chúng mình biết ở phần ‘bình luận’ bên dưới nhé!
Topdev via Analytics Vidhya
Đừng quên xem thêm:
Học ngôn ngữ gì cho Data Science?
Top các khóa học Computer Science, Programming, Data Science MIỄN PHÍ cần học ngay
Top 15 thư viện Python tốt nhất cho Data Science
Cơ hội việc làm Data science hấp dẫn tại TopDev đang chờ bạn!
- C Cách tích hợp ChatGPT vào Google Search siêu dễ
- G Gemini AI là gì? Tất tần tật những điều cần biết về Google Gemini
- A AI Chatbot là gì? Các nền tảng tạo AI Chatbot tốt nhất hiện nay
- T Tích hợp AI trong an ninh mạng: Mặt lợi và mặt hại
- A AI Chỉ Là Hư Vô Nếu Không Có Mã Nguồn Mở
- T Tác Động của AI Đến Ngành Bán Lẻ và Ngân Hàng tại Việt Nam
- C ChatGPT và những người bạn (Phần 3)
- C ChatGPT và những người bạn (Phần 2)
- C ChatGPT và những người bạn (Phần 1)
- P Prompt Engineer là gì? Cách viết Prompt Engineer đúng chuẩn