Cách xử lý dữ liệu trong quá trình làm việc với framework

Framework là một tập hợp chứa các thư viện phần mềm, các dữ liệu liên quan, các trình biên dịch, diễn dịch hoặc các API. Framework tạo ra một nền tảng, môi trường để công việc lập trình của các Data Scientist trở nên nhanh chóng và hiệu quả hơn.

  10 Java Web Framework tốt nhất
  Framework có đang giết chết sự sáng tạo trong thiết kế Web?

Về diễn giả

  • Anh Trương Bảo Duy hiện là Data Scientist Manager tại Công ty HEINEKEN Vietnam.
  • Anh đã từng làm việc với vai trò là một Academic Research, Data Scientist ở Tiki. Anh có bằng cử nhân về Công nghệ thông tin và thạc sĩ trong lĩnh vực kinh tế.

Framework dành cho ai và có thể làm được gì?

Những ai nên sử dụng framework?

Framework là sản phẩm chủ yếu dành cho những leader, manager và những bạn lần đầu tiên set-up data sciences, chưa có nhiều kinh nghiệm và không biết nên bắt đầu như thế nào cho hợp lí. Framework cũng hỗ trợ các team data sciences đã có finding và đang muốn apply nó vào sản phẩm.

Bên cạnh đó, framework cũng sẽ giúp cho những bạn làm Data Analyst, Data Scientist và những bạn lần đầu tham gia vào một start-up đang muốn tìm hiểu xem một Data Science Project nên vận hành như thế nào.

Framework có thể hỗ trợ những công việc nào?

Bạn đã từng làm việc ở vị trí manager, leader, và có background về data engineer, data scientist nhưng khi tham gia vào một công ty mới, một môi trường hoàn toàn mới thì sẽ có rất nhiều vấn đề phát sinh mà bạn cần phải giải quyết, những vấn đề mà đôi khi những kiến thức trước đó không thể hỗ trợ được.

framework
Tận dụng kỹ năng của bản thân giúp quá trình làm việc tốt nhất

Đó có thể là data thuộc về nhiều product, nhiều platform khác nhau, thuộc về nhiều team khác nhau cũng như có data owner khác nhau. Hoặc cũng có thể nó liên quan đến chất lượng data. Ngoài ra, đối với các start-up, framework cũng hỗ trợ rất nhiều trong quá trình xây dựng Data Science Project. Với các FMCG nhưng các metrics, KPI vẫn chưa thật sự quá tốt hay những người làm việc ở đó chưa có nhiều trust trong data hoặc các team làm việc độc lập với nhau, họ không quen với teamwork, framework cũng có ảnh hưởng khá lớn.

Điều đương nhiên là framework không thể giải quyết tất cả các vấn đề này nhưng chắc chắn nó sẽ giúp cho hành trình apply data science trở nên dễ dàng hơn. Mỗi người có một background khác nhau và nếu đó là lần đầu tiên bạn setup data science thì mình nghĩ các bạn nên tập trung vào giải quyết các bài toán, các vấn đề là thế mạnh của mình. Đồng thời trong quá trình đó, bạn cũng nên apply một framework để giúp bạn build trust trong việc sử dụng data ở công ty của mình nhiều hơn.

Quá trình làm việc với framework diễn ra như thế nào?

1. Power Decisions

Nếu đã có kinh nghiệm làm việc ở vị trí Data Scientist, bạn sẽ biết được tầm quan trọng của việc xác định được câu hỏi chính xác cần giải quyết có ý nghĩa quan trọng như thế nào. Đây cũng là bước đầu tiên mà bạn cần giải quyết – Power decisions. Trong bước này bạn sẽ kết nối các business owner lại với nhau và cùng brainstorm để xác định đâu là những vấn đề mà công ty đang gặp phải, và câu hỏi nên được đặt ra để giải quyết ở đây là gì.

Chẳng hạn như ở Heineken, mỗi năm Heineken có rất nhiều chương trình cho khách hàng của mình. Các business owner là đối tác với Heineken, thường là Head of a Function hay team, câu hỏi chính của họ sẽ liên quan tới các projects do họ đang quản lý. Các business owner thường rất giỏi trong việc planning và execution nhưng việc optimization lại không phải là chuyên môn của họ nên team anh sẽ tham gia vào project để support họ. Các data analyst hoặc data scientist sẽ thông qua việc phân tích câu hỏi để có thể dùng data giải quyết vấn đề. Khi bạn có thể nắm được vấn đề và hiểu được mình nên giải quyết chuyện gì cho khách hàng thì đó đã là một phần thành công trong project này rồi.

framework
Xác định chính xác câu hỏi cần giải quyết sẽ định hướng hướng đi đúng đắn nhất cho dự án

2. Analytics và modelling

Đây là bước làm việc thứ 2, công việc ở quy trình này chủ yếu do data analyst hoặc data scientist chịu trách nhiệm. Mục tiêu chính của quá trình này là để xác định đâu là nguồn data chính cần phải sử dụng và đâu là các data owner cần liên hệ với business owner để xin data cũng như có thể điều chỉnh data lại theo đúng nhu cầu mình cần để phân tích. Kết quả cuối cùng của bước này là làm sao để translate những data, finding thành actionable insights hoặc productive models. Từ đó chúng ta có thể tiếp tục thực hiện bước thứ 3.

3. Test & Learn

Đây là một bước rất phổ biến ở các công ty công nghệ nhưng đối với các công ty như FMCG thì test & learn vẫn còn là vấn đề khá mới. Theo cá nhân mình quan sát thì khi họ phân tích data xong sẽ tìm kiếm cách scale up data lên toàn thị trường. Mình nghĩ đây là một bước có tính rủi ro khá cao vì 2 lí do.

Thứ nhất việc insights không chính xác. Trong quá trình phân tích để tìm ra insight, mọi người có thể gặp những vấn đề liên quan đến coding, hiểu sai về data, và rất nhiều vấn đề khác có thể xảy ra trong quá trình phân tích data dẫn đến insight này có thể không chính xác. Nên nếu ngay lập tức scale up data lên toàn bộ thị trường thì kết quả cuối cùng vẫn không đạt được đúng kỳ vọng và yêu cầu đề ra. Và việc đi sai hướng ngay từ đâu sẽ khiến thời gian và công sức đầu tư vào đó bị lãng phí.

Thứ hai là khi làm việc với các công ty traditional – những công ty không phải công ty công nghệ, testing cho phép team business learn chuẩn bị cho quá trình scale up. Vì thường bên anh sẽ đề xuất quy trình mới hoặc thay đổi quy trình/cách làm việc. Điều này có thể khiến cho quy trình cũ bị đổ vỡ và cần thay thế. Nếu không lường trước được những tác động của việc đổ vỡ này và tìm cách khắc phục, có thể sẽ làm business bị gián đoạn.

Xem thêm Học ngôn ngữ gì cho Data Science?

4. Scale up

Đây là bước cuối cùng và thật ra khá đơn giản. Bạn sẽ không cần nhiều sự tham gia của Data Analyst hoặc Data Scientist mà phụ thuộc phần nhiều vào Business owner. Business owner cần phải hiểu được vấn đề là sau bước test & learn thì đâu là thứ họ phải test để khi scale up họ có thể rút ra các kinh nghiệm làm việc sau này.

Đây là 4 bước cơ bản mà bạn sẽ trải qua khi làm việc với framework, tuy nhiên nó không chỉ dừng ở 4 bước này. Vì đây là 4 bước khá technical – kỹ thuật, nên để nó có thể gắn liền với business, trở thành sản phẩm không thể thiếu với business thì cách làm việc của con người đóng vai trò cực kỳ quan trọng.

Tổ chức công việc ra sao để framework vận hành trơn tru nhất?

Để làm việc hiệu quả, chúng ta cần có một Core Team gồm Data Scientist và Coordinator.

Data Scientist sẽ tập trung vào việc phân tích data, các vấn đề liên quan đến technical. Trong khi đó, Coordinator sẽ tập trung làm việc với các business. Nếu bạn làm việc ở một công ty startup hoặc công ty hoàn toàn mới chưa được setup thì Data Scientist phải làm cả công việc của Coordinator. Nhưng cá nhân mình nghĩ nên có 2 vị trí riêng biệt vì nó sẽ giúp các Data Scientist tập trung hơn vào công việc và thế mạnh của mình, nhất là khi data vẫn chưa ổn định, không thật sự clean. Data Scientist sẽ phải dành rất nhiều thời gian cho việc clean data, hiểu data, tìm kiếm insight và hiểu model với gì mình đang có.

Core team nên gặp Business Owner ít nhất một tuần hoặc 2 tuần một lần. Đây là một vấn đề cực kỳ quan trọng với hai lý do sau:

Thứ nhất, business owner là người hiểu rõ nhất về business của họ. Họ sẽ là người đưa ra đề bài nên đóng vai trò định hướng lại vấn đề trong trường hợp bạn đi chệch hướng. Ngoài ra, họ cũng sẽ đưa ra những thông tin phụ sau khi bạn bắt đầu quá trình phân tích dữ liệu.

Thứ hai, bạn cần họ tham gia vào Data Science Project vì sự thực là Data Science Project mang nặng tính kỹ thuật và đôi khi các business sẽ không hiểu được những khó khăn mà bên bạn đang gặp phải. Trong quá trình làm việc nếu họ nhận ra những khó khăn mình đang gặp hoặc có vấn đề gì với business thì họ sẽ can thiệp ngay. Đồng thời khi biết quy trình làm như thế nào thì họ có thể hiểu được và cảm nhận được tính quan trọng của công việc hơn.

framework
Core team đóng vai trò cốt lõi trong Data Science Project

Bước cuối cùng là meeting với những người mà mình tạm gọi là Framework Angels. Ở Heineken thì đây là những người thuộc về MT hoặc director. Vậy tại sao lại cần họ? Đối với những công ty nhỏ và mới thì điều này không quá quan trọng nhưng ở những công ty lâu năm, mọi thứ đã ổn định rồi thì họ sẽ giúp cho bạn nhiều thứ. Thứ nhất là họ giúp bạn làm việc với business owner tốt hơn vì đôi khi business owner họ sẽ không hiểu được tầm quan trọng của data scientist team thì các Framework Angels sẽ giúp bạn làm việc tốt hơn, họ giảm những căng thẳng giữa các team khi làm việc với nhau. Thứ hai là bạn cần những người này trong quá trình hoàn thiện và đưa sản phẩm ra thị trường, nó sẽ đảm bảo framework và project vận hành trơn tru.

Một số kinh nghiệm làm việc với framework

Trong quá trình apply framework cho công ty Heineken năm vừa rồi, team Data Scientist đã hoàn thành khoảng hơn 4 power decisions và hơn 3 triệu đô đã được actionable. Con số thực tế sẽ thấp hơn và thậm chí là thấp hơn khá nhiều ở thời điểm hiện tại vì công ty cần có thêm thời gian để build trust, bắt đầu quen dần với câu chuyện test & learn và scale up nó như thế nào nên con số mà team có thể optimize được là khoảng 10% của 3 triệu đô này.

Bài học và kinh nghiệm ở đây như mình đã chia sẻ thì bắt đầu với một câu hỏi đúng – right question thật sự rất quan trọng. Khi MT hiểu được vai trò, khả năng của team Data Science thì họ rất muốn có sự giúp đỡ của team Data Science và đôi khi những yêu cầu của họ không thật sự mang lại quá nhiều giá trị so với scale của công ty. Hoặc khả năng scalable của project khá lớn nhưng nó bắt đầu với một câu hỏi, tức là không tập trung vào một kpi nhất định, không thể giải quyết được các bài toán với những data mà công ty đang có thì việc thất bại là rất dễ xảy ra.

Xem thêm Chuyện nghề: Data Scientist là gì? Và hành trình để trở thành Data Scientist

Đôi khi business sẽ không thể hiểu được những vấn đề mà Data Scientists đang gặp phải nên khi làm việc, chúng ta nên cố gắng tìm ra vấn đề cần phải giải quyết ngay từ đầu. Vì đây thật sự là việc vô cùng quan trọng và cần thiết. Bên cạnh đó, việc chọn một business owner phù hợp cũng quan trọng không kém. Trong quá trình mình làm việc ở Heineken, đã có trường hợp business owner khiến mình nhận ra không ít vấn đề. Họ rất thông hiểu về business của họ và vấn đề mà mình đang cố gắng giải quyết.

Nhưng vấn đề ở đây là business owner không phải là người đưa ra quyết định cuối cùng, dẫn đến việc người phải đưa ra quyết định onboard quá trễ, họ không thể hiểu được toàn bộ dự án là như thế nào và không đồng ý đưa ra quyết định cuối cùng. Chính điều này khiến cho project này bị đình trệ hoàn toàn và không mang lại nhiều giá trị cho công ty nữa. Vậy nên để làm việc hiệu quả, bạn nên cố gắng tìm một business owner vừa hiểu về business vừa có khả năng make final decision. Hoặc nếu không có người như vậy trong tổ chức của bạn thì bạn nên cố gắng kết hợp 2 người như vậy với nhau để đảm bảo là đến cuối project nó sẽ được scale lên.

Thứ 3 là vấn đề testing, với Data Scientist thì đây là việc phải làm. Nó sẽ giúp bạn hạn chế rất nhiều rủi ro trong quá trình làm việc và scale up.

Thứ 4 là MT endorsement. Như mình đã chia sẻ trước đó là khi organization càng lớn và càng có nhiều phòng ban thì khi đó Data Science Project sẽ cần sự phối hợp của nhiều phòng ban lại với nhau. Nếu bạn không có support từ những high manager thì việc team work khi làm việc không hiệu quả. Sự tương tác giữa các MT với nhau giúp cho cỗ máy làm việc hoạt động hiệu quả nhất.

Bài viết được trích dẫn từ phần trình bày của anh Trương Bảo Duy tại sự kiện Vietnam Web Summit 2020 LIVE do TopDev tổ chức

Có thể bạn quan tâm:

Xem thêm các việc làm Developer hấp dẫn tại TopDev