Chuyện Nghề

Cách đây 6 năm, mình được tham dự hội thảo tổ chức bởi một công ty công nghệ nổi tiếng của Đức trong lĩnh vực tự động hóa. Khi ấy mọi người bắt đầu bàn tán về cuộc cách mạng công nghiệp 4.0 dựa trên AI (Artificial Intelligence hay trí tuệ nhân tạo) và Big Data (dữ liệu lớn). Các màn trình diễn công nghệ và những bài thuyết trình ấn tượng đã truyền cảm hứng cho mình theo đuổi lĩnh vực này và tìm kiếm cơ hội ở nước ngoài. Lúc bấy giờ các trường đại học quốc tế cũng mới mở chương trình đào tạo Data Science được hai hoặc ba năm và thực sự đây là một lĩnh vực còn rất mới (mặc dù công nghệ đã vài chục năm tuổi). Sau khi học xong năm nhất ở Úc, mình bắt đầu công việc đầu tiên với vị trí thực tập sinh Data Science. Từ đó đến nay cũng đã gần 4 năm cùng công nghệ thay đổi với tốc độ chóng mặt, ngành Data Science cũng đã có nhiều bước phát triển rõ rệt với sự chuyển dịch từ Science (Khoa học) sang Technology (Công nghệ). Từ góc độ của một người chuẩn bị tham gia vào lĩnh vực này, bạn cần nắm bắt được xu hướng công nghệ và xác định mục tiêu mình muốn theo đuổi. Trong bài viết này, mình sẽ chia sẻ về xu hướng phát triển của ngành Data Science và những kỹ năng, kiến thức bạn cần chuẩn bị để bắt đầu công việc đầu tiên liên quan đến AI.

Các giai đoạn phát triển của ngành Data Science

Sự phát triển của lĩnh vực Data Science phần lớn dựa vào những đột phá trong nghiên cứu về AI. Mọi thứ bắt đầu từ ý tưởng của Alan Turing về việc liệu một Turing Machine có thể dự đoán được trạng thái của một Turing Machine khác hay không cho đến đột phá đầu tiên về xử lý ngôn ngữ tự nhiên, ELIZA, tiền thân của chatbot và Siri, Alexa ngày nay. Chúng ta cũng không thể không nhắc đến Yann LeCun trong lĩnh vực thị giác máy tính với Convolutional Neural Networks (ConvNets) và GPT3 từ OpenAI. Trong suốt hàng thập kỷ nghiên cứu, các nhà khoa học thường hay tự cho rằng những phát hiện của mình là đột phá giúp nhân loại tiến gần hơn đến giấc mơ trí thông minh nhân tạo, từ đó tạo nên những làn sóng quan tâm của dư luận và sự thổi phồng của truyền thông. Vì lý do này, lĩnh vực Data Science thường trải qua các giai đoạn phát triển theo chu kỳ bùng nổ và nguội lạnh mà mọi người còn gọi là AI Winter (Mùa đông AI). Tính đến thời điểm hiện tại, ngành Data Science đã trải qua 3 chu kỳ như vậy và chúng ta đang ở đỉnh của chu kỳ thứ 4.

AI Honeymoon

Vào khoảng từ những năm 2010 đến năm 2015, các công ty đang nắm giữ lượng dữ liệu khổng lồ từ thời kỳ bùng nổ của Internet cùng với sức mạnh xử lý vượt bật của máy tính hiện đại. Lúc bấy giờ, họ đã bắt đầu khai thác thông tin từ những dữ liệu này để hiểu rõ hơn về công ty và khách hàng của mình. Những công ty này luôn có một bộ phận với tên gọi Business Intelligence (BI) chuyên viết câu lệnh truy vấn (SQL Query) để trích xuất, xử lý dữ liệu và làm báo cáo. Thậm chí họ còn có thể lập mô hình thống kê để dự báo tương lai và phân tích tương quan giữa nhiều thành phần khác nhau trong dữ liệu. Công việc của họ rất vui vẻ và thú vị cho đến khi báo chí đưa tin về đột phá trong lĩnh vực Deep Learning với mạng thần kinh neuron “mô phỏng não bộ con người” có thể nhận diện vật thể trong hình với độ chính xác rất cao, điều mà trong vài thập niên trước chưa từng có mô hình học máy nào làm được. Không lâu sau đó, trí tuệ nhân tạo AlphaGo đã đánh bại con người trong trò chơi cờ vây (Go). Tất cả những điều này đã khiến mọi người cho rằng máy tính đang ngày càng trở nên thông minh (Intelligence) hơn và một ngày nào đó phiên bản đời thực của SkyNet (trong phim Terminator) sẽ xuất hiện đẩy nhân loại đến bờ diệt vong.

Tuy nhiên giới nghiên cứu khoa học lại hiểu rất rõ rằng AlphaGo hay mô hình nhận diện vật thể kia không hề sở hữu trí thông minh như con người mà chỉ đơn giản là mô phỏng lại một khả năng nhỏ của con người, hay nói đúng hơn là chỉ tỏ ra thông minh. Chẳng hạn AlphaGo thực sự chỉ là một thuật toán thuộc nhánh Path Finding (trong một tỷ nước cờ, tìm nước đi nào dẫn đến khả năng thắng cao nhất), còn mô hình nhận dạng vật thể chỉ là chương trình xử lý vector được tối ưu để ghi nhớ sự lặp lại tuần tự của những con số, hoàn toàn không liên quan gì đến cách não người nhận biết vật thể.

Nhưng cho dù sự thật đằng sau có là gì đi nữa, truyền thông vẫn đánh đồng tất cả là “Trí tuệ nhân tạo”, tạo nên một làn sóng công nghệ trên toàn thế giới. Thậm chí AI còn được gán với khả năng thần thánh dự đoán trước tương lai mặc dù dự đoán (prediction) chưa hề là trọng tâm nghiên cứu trong lĩnh vực này. Tất cả những sự thổi phồng trên khiến các công ty đứng ngồi không yên và đổ tiền đầu tư vào công nghệ này vì họ không hề muốn mình bị bỏ lại trong cuộc đua cùng với việc mất đi lợi thế cạnh tranh. Thế là một bộ phận mới được lập nên bên cạnh hoặc bên trong bộ phận Business Intelligence hiện hữu với những tên gọi mỹ miều như Advanced Analytics, Data Analytics, Data Lab, Data Science, v.v… Họ bắt đầu tuyển người cho các vị trí mới với tên gọi bóng bẩy: “Data Scientist” hay “Nhà khoa học dữ liệu”.

Lý do phía sau từ Scientist là vì thời điểm này vẫn chưa có một chương trình đào tạo chính quy cho lĩnh vực AI và vẫn chưa một ai có kinh nghiệm triển khai thực tiễn. Những người làm việc với công nghệ này chủ yếu là nghiên cứu sinh tiến sĩ áp dụng nó vào lĩnh vực họ đang nghiên cứu để hiểu được các dữ liệu thí nghiệm một cách dễ dàng hơn (vật lý, hóa học, sinh học, v.v…). Chính vì vậy ở thời kỳ đầu, bạn sẽ thấy hầu hết Data Scientist đều có bằng tiến sĩ (PhD) và vô hình chung PhD trở thành một yêu cầu bắt buộc cho vị trí này.

Quay lại với bộ phận vừa mới thành lập với hàng loạt tài năng trong lĩnh vực nghiên cứu. Họ thường tự ví nhóm mình như Area51 chuyên nghiên cứu và thử nghiệm các công nghệ hiện đại siêu tối mật. Có thể nói đây là giai đoạn trăng mật của các nhóm Data Science. Họ bắt đầu lập các mô hình Machine Learning và Deep Learning, thử nghiệm rất nhiều Proof of Concept (PoC) khác nhau nhằm trả lời cho nhà đầu tư một câu hỏi duy nhất: “AI có thể làm được gì cho công ty chúng ta”. Sau một vài năm trải qua vô số lần thất bại, nhóm cũng cho ra một vài PoC với ý tưởng thực sự thu hút các cấp lãnh đạo như dự báo doanh số, phân loại khách hàng, xác định nhóm khách hàng có thể rời bỏ công ty, số hóa tài liệu, phân tích rủi ro hay đánh giá tín dụng, v.v…

Đây là những ứng dụng đầy hứa hẹn với tiềm năng cung cấp trải nghiệm người dùng tốt hơn, giúp công ty tiết kiệm chi phí và cũng như hiểu rõ khách hàng của mình hơn. Tuy nhiên để thực sự mang lại giá trị cho doanh nghiệp thì những ý tưởng này phải được triển khai một cách có hệ thống ở quy mô lớn. Những nhà nghiên cứu với rất ích kinh nghiệm triển khai hệ thống phần mềm vốn chỉ quen làm việc trên máy tính cá nhân của họ và Jupyter Notebook (một công cụ giúp chạy code theo dạng tương tác) đã gặp phải rất nhiều thử thách ở giai đoạn này. Hai thử thách lớn nhất đó là việc thiếu một nền tảng giúp triển khai mô hình Machine Learning dưới dạng hệ thống phần mềm và việc thu thập, xử lý dữ liệu lớn cho mô hình Machine Learning. Và như vậy họ phải sẵn sàng bước sang giai đoạn tiếp theo của hành trình khám phá AI: Scale Up.

Scale Up

Để giải quyết những vấn đề nêu trên, các doanh nghiệp cần thêm vài nhóm nhân lực mới bên cạnh nhóm Data Scientist:

  • Kỹ sư triển khai mô hình Machine Learning (ML Engineer hay MLOps Engineer)
  • Kỹ sư xây dựng Data Pipeline và Data Warehouse, Data Lake (Data Engineer)
  • Kỹ sư phần mềm để xây dựng ứng dụng Machine Learning (Software Engineer)

Trước khi đi sâu vào từng vị trí cụ thể nêu trên, chúng ta cũng cần phải nhắc đến rằng bắt đầu từ những năm 2017, 2018, chuyển đổi số (Digital Transformation) đã trở thành một xu hướng phổ biến, nhất là từ khi đại dịch COVID bùng nổ. Điện toán đám mây (Cloud Computing) vì vậy cũng trở thành một công nghệ chủ chốt cho phép các công ty nhanh chóng triển khai sản phẩm đến tay người dùng và giảm thiểu rủi ro khi phát triển phần mềm. Điều này vừa hay lại phù hợp với yêu cầu của các ứng dụng Machine Learning khi doanh nghiệp cần triển khai dịch vụ đồng thời thử nghiệm các ý tưởng tiềm năng một cách nhanh chóng. Điện toán đám mây cũng cung cấp hạ tầng tính toán cực mạnh cho các ứng dụng Machine Learning vốn tốn rất nhiều tài nguyên và đặc biệt là GPU (Graphics Processing Unit – thành phần xử lý đồ họa dùng cho việc huấn luyện mô hình Machine Learning).

Trong bối cảnh điện toán đám mây và số hóa thì vai trò của Software Enginer và Data Engineer cũng khác đi rất nhiều so với trước kia. Chẳng hạn Software Engineer hiện nay phải có hiểu biết cơ bản về các nền tảng điện toán đám mây, microservice, và Cloud Native Application. Bên cạnh đó Software Engineer xây dựng ứng dụng ML hay AI cũng có phải môt ít kiến thức về Data Science.

Đối với Data Engineer, công việc của họ cũng khác rất nhiều so với trước kia vốn chủ yếu phải làm việc với các hệ thống nặng nề trên máy chủ công ty. Data Engineer hiện nay cần có hiểu biết về điện toán đám mây và đặc biệt là Cloud Native Data Platform, tức là giải pháp xử lý dữ liệu lớn trên nền tảng điện toán đám mây. Song song đó là yêu cầu xây dựng Data Pipeline để tải lượng dữ liệu khổng lồ mà doanh nghiệp tích trữ sau nhiều năm lên Cloud để phục vụ cho việc xây dựng ứng dụng Machine Learning ở quy mô lớn. Vai trò của họ cực kỳ quan trọng trong việc đảm bảo dữ liệu sẵn sàng cho các ứng dụng khác (downstream) tiêu thụ bao gồm cả mô hình Machine Learning.

Với Machine Learning Engineer, họ sẽ phải xây dựng hoặc triển khai một nền tảng giúp Data Scientist triển khai mô hình Machine Learning theo cách tương tự như Software Engineer triển khai các gói phần mềm. Những người này ngoài việc phải có hiểu biết về Data Science còn phải có kiến thức về việc xây dựng hệ thống điện toán đám mây và Machine Learning pipeline (tương tự như Data Pipeline nhưng bao gồm cả việc xử lý dữ liệu cho mô hình và huấn luyện mô hình).

Machine Learning Engineer và Data Engineer là hai vị trí phổ biến mà các bộ phận Data Science thường tuyển dụng khi họ đang ở giai đoạn này. Ngoại trừ những gã khổng lồ dẫn đầu về công nghệ như Facebook, Amazon, Netflix, Google,… đa số các tập đoàn và công ty lớn đang ở đầu hoặc giữa giai đoạn Scale Up. Đây cũng là một yếu tố cần phải cân nhắc khi bạn chọn mục tiêu phát triển sự nghiệp trong lĩnh vực này.

Operation at Scale

Giai đoạn tiếp theo và cũng là giai đoạn rất khó nói trước được vì đa phần các công ty vẫn đang Scale Up. Tuy nhiên nếu nhìn vào những tập đoàn công nghệ dẫn đầu thì chúng ta có thể thấy các vấn đề họ phải đối mặt là việc vận hành hệ thống Machine Learning quy mô lớn thế nào cho hiệu quả (ví dụ làm sao để tăng tốc độ phản hồi của mô hình Machine Learning) hay việc đảm bảo tính công bằng và minh bạch cho mô hình Machine Learning (Responsible AI). Mình gọi tên giai đoạn này là Operation at Scale. Nếu bạn hứng thú với việc làm người tiên phong và tìm ra giải pháp cho các vấn đề tương lai trong lĩnh vực Machine Learning, những gã khổng lồ không nghệ đầu ngành của Mỹ là nơi bạn nên nhắm đến.

Học Gì

Hi vọng bạn không bị quá tải bởi những thông tin trên vì mình nghĩ rằng việc hiểu rõ hành trình AI của các công ty sẽ giúp bạn xác định được thị trường lao động đang cần gì để chuẩn bị. Một điểm cần lưu ý nữa là không phải doanh nghiệp nào cũng đang ở giai đoạn Scale Up và có những doanh nghiệp thậm chí còn chưa bắt đầu với hành trình ứng dụng AI vào mô hình kinh doanh của mình nên cơ hội hầu như đều rộng mở cho tất cả mọi người. Để lựa chọn con đường phát triển cho mình, bạn cần xét 3 yếu tố sau: Quy mô, Vị trí, Bằng cấp.

Quy mô doanh nghiệp

Các công ty vừa và nhỏ sẽ có xu hướng tuyển nhiều Data Scientist còn các công ty và tập đoàn lớn hơn sẽ cần ML Engineer và Data Engineer. Cũng có trường hợp công ty mặc dù lớn nhưng bộ phận Data Science lại có quy mô rất nhỏ nên việc tìm hiểu xem công ty hoặc bộ phận đăng tuyển đang ở giai đoạn phát triển nào là rất quan trọng. Tham gia vào các công ty vừa và nhỏ sẽ cho bạn cái nhìn cụ thể về hành trình AI ở giai đoạn sơ khai và là một trong những thành viên chủ chốt đầu tiên của bộ phận. Bạn sẽ được dành nhiều thời gian đắm chìm vào việc xây dựng mô hình, phân tích xử lý dữ liệu và quan trọng nhất là tìm hiểu về mô hình kinh doanh của công ty.

Ngược lại ở những công ty lớn hơn, chính sách và độ ổn định công việc cũng sẽ tốt hơn. Các quy trình đã được thiết lập sẵn và mọi người đều đã định hướng được con đường phát triền của bộ phận Data Science, không còn mò mẫm như giai đoạn đầu. Bạn sẽ được học cách xây dựng giải pháp ở quy mô lớn và suy nghĩ mang tính chiến lược dài hạn hơn.

Ở giai đoạn nào cũng có cái vui của nó nên bạn có thể cân nhắc và lựa chọn môi trường làm việc mình muốn.

Vị trí thích hợp

Đối với vị trí Data Scientist, các bạn nên nhắm đến những công ty hoặc bộ phận còn non trẻ trong lĩnh vực này. Bạn cần tập trung vào các kỹ năng phân tích dữ liệu, xây dựng mô hình Machine Learning và khả năng phân tích bài toán, trình bày thông tin một cách hiệu quả.

Vị trí Machine Learning Engineer phù hợp với các bạn nhắm đến các doanh nghiệp vừa và lớn đang ở giai đoạn Scale Up. Để đảm nhận vị trí này trước hết bạn cần nắm vững các kỹ năng của một Data Scientist mặc dù công việc của bạn không phải là tạo mô hình Machine Learning. Sau đó bạn cần trang bị thêm kiến thức về lập trình pipeline (chương trình gồm nhiều bước chạy song song hoặc tuần tự), điện toán đám mây (Cloud Computing) và các phương pháp triền khai phần mềm dùng CI/CD (Continuous Integration và Continuous Delivery).

Tương tự với Data Engineer bạn có thể nộp đơn vào các công ty vừa và lớn để giúp họ giải quyết bài toán di chuyển dữ liệu lên Cloud và cung cấp dữ liệu cho mô hình Machine Learning. Bạn cần tập trung vào việc xây dựng kiến thức liên quan đến ELT pipeline (Extract, Load, Transform) hay Data Pipeline nói chung. Bên cạnh đó bạn cần nắm vững các giải pháp và nền tảng xử lý, lưu trữ dữ liệu trên Cloud như BigQuery, Snowflake, databrick, AWS EMR, v.v,…

Bằng cấp phù hợp khả năng

Hiện nay đa số các trường đại học đã có chương trình đào tạo chính quy (Cử nhân hoặc Thạc Sỹ) về lĩnh vực Data Science. Các chương trình này có thể gom lại thành ba nhóm chính: Công nghệ thông tin (IT), Khoa học dữ liệu (Data Science hoặc AI) và Phân tích thống kê (Statistics hoặc Analytics).

Bằng cử nhân hoặc thạc sỹ công nghệ thông tin với phân ngành (major) Data Science phù hợp với các bạn có khả năng lập trình tốt và định hướng làm việc với vị trí Data Engineer, Cloud Engineer hoặc Software Engineer trong bộ phận Data Science hoặc Machine Learning Engineer. Đặc điểm của chương trình này là rất nặng về lập trình và thuật toán nhưng lại cung cấp cho các bạn rất nhiều kiến thức chuyên sâu.

Ngược lại, chương trình phân tích thống kê phù hợp với các bạn thiên về phân tích và làm việc gần với Business hơn. Chương trình này cho phép bạn sau khi ra trường làm việc với vị trí Data Scientist nếu bạn có khả năng lập trình hoặc vị trí Data Analyst nếu bạn có khả năng phân tích nhạy bén. Với vị trí Data Analyst, bạn sẽ đóng vai trò là cầu nối giữa bộ phận kinh doanh và kỹ thuật (nhóm Data Scientist và ML Engineer), xây dựng PoC hoặc làm việc trực tiếp với bộ phận kinh doanh để hỗ trợ việc báo cáo dựa trên dữ liệu công ty (BI). Chương trình này thiên về việc phân tích, báo cáo và trình bày dữ liệu đồng thời xây dựng các mô hình Machine Learning cơ bản.

Chương trình Data Science và AI nằm giữa công nghệ thông tin và phân tích thống kê khi chia sẻ khá nhiều môn học chung với hai ngành này. Các chương trình này đi nhiều về lý thuyết Machine Learning cùng với yêu cầu viết code xây dựng mô hình. Mặc dù vậy bằng cử nhân và thạc sỹ Data Science lại không đi sâu vào lập trình phần mềm như công nghệ thông tin mà cân bằng giữa việc kết hợp kỹ năng phân tích của bên thông kê và lập trình thuật toán của IT. Bạn chỉ nên theo đuổi chương trình này nếu bạn có thể lập trình nhưng lại không muốn học quá sâu về phát triển phần mềm. Vì chương trình rất cân bằng và tập trung vào trọng tâm là AI và ML nên đầu ra cũng rất đa dạng khi bạn có thể đảm nhiệm nhiều vị trí khác nhau như Data Scientist, ML Engineer, Data Analyst.

Ngoại lệ

Mặc dù trong bài viết này mình đề cập rất nhiều đến khía cạnh kỹ thuật của ngành Data Science, các bạn thuộc non-tech background cũng có thể tham gia với các vị trí Data Analyst như mình đề cập ở trên hoặc Business Analyst làm cầu nối giữa team Data và Business. Việc nắm được kiến thức cơ bản bên Data Science và khả năng giao tiếp phân tích tốt sẽ là lợi thế giúp bạn phát triển mà không cần chuyên sâu về kỹ thuật.

Về mặt quy mô doanh nghiệp như mình đã phân tích thì các công ty Start Up lại là một ngoại lệ khi họ có thể tuyển cùng lúc nhiều vị trí như Data Scientist, Data Analyst, ML Engineer và Data Engineer cho dù còn khá non trẻ. Lý do là họ có thể thiết lập một mô hình kinh doanh hoàn toàn mới tập trung vào việc lấy AI là giá trị cốt lõi và bỏ qua giai đoạn phát triển của các công ty truyền thống. Cùng với việc có được sự đầu tư từ các đợt gọi vốn, họ có thể phát triển và mở rộng nhanh hơn cả về mặt công nghệ lẫn nhân sự. Tuy nhiên đó là câu chuyện với các Start Up thành công (như Canva và Rokt chẳng hạn). Làm việc với Start Up có nghĩa là bạn phải đánh đổi nhiệt huyết, thời gian với rủi ro công ty có thể sụp đổ bất cứ lúc nào. Đổi lại với mỗi Start Up thất bại bạn sẽ luôn có một chiếc Macbook mới để giữ xài.

Lời kết

Hi vọng sau khi đọc xong bài viết này, bạn đã có một cái nhìn tổng quan về lĩnh vực Data Science và chọn ra hướng đi phù hợp cho bản thân. Mình cũng đã cố gắng bao quát mọi khía cạnh trong bài, tuy nhiên sự thật là không hề có một công thức chung dẫn đến thành công và sẽ luôn luôn có những ngoại lệ cùng nhiều con đường khác nhau để tiến về phía trước chỉ cần bạn còn đam mê và tin tưởng bản thân mình.

Tin Tức Liên Quan