5 kênh thông tin chất lượng dành cho Data/Research Scientist
Jason Jung in a Deep Learning Summit.(Source)
Xin chào,
Bạn nghĩ mình đã trở thành một Data Scientist sau khi đọc tutorial “How to Data Science without a Degree” của mình? Ồ không, hành trình bây giờ mới thực sự bắt đầu. Hàng trăm nghiên cứu được công bố hàng năm và những tiến bộ công nghệ lớn đang xuất hiện trong mảng Deep Learning, thật khó để nắm bắt được hết tất cả các thông tin. Ngay cả khi yêu thích công việc của mình, thật khó để chúng ta giữ vững được phong độ nếu không liên tục cập nhật và học hỏi. Ngay cả khi những kiến thức cơ bản của bạn về toán, lập trình, và máy học là điều cần thiết, song những ý tưởng và công cụ mới vẫn đang được phát minh và công bố mỗi ngày. Điều bắt buộc bạn cần làm là không ngừng học hỏi!
Để hành trình học tập của bạn trở nên dễ dàng hơn, tôi muốn chia sẻ một vài mẹo và nguồn dữ liệu mà tôi thực sự yêu thích: Hội nghị, Twitter, Blogs công nghệ, Newsletters, các nghiên cứu và YouTube.
1. Hội nghị
Tôi muốn bắt đầu với các hội nghị vì tôi vừa tham gia vào tháng 1 năm 2019. Đây có lẽ là lựa chọn đắt nhất nhưng cũng là lựa chọn thú vị nhất theo quan điểm của tôi. Từ khi trở thành một nhà khoa học dữ liệu, tôi đã tham dự các hội nghị sau:
- 2018 Databricks Spark + AI Summit @ San Francisco
- 2019 Rework Deep Learning Summit @San Francisco
Thật sự tuyệt vời khi có mặt ở nơi quy tụ các chuyên gia, nhà lãnh đạo và những cá nhân đam mê tìm hiểu các chủ đề mà bạn đang thực hành và “hít thở” cùng chúng mỗi ngày. Bạn sẽ nghĩ thật không dễ dàng để bắt chuyện với những người lạ tại những buổi hội nghị này nhưng sự thật là tất cả mọi người ở đây đều hào hứng khi chia sẻ về sở thích và các dự án của họ. Tôi đã có cuộc trao đổi thú vị với những người ngồi cạnh trong bữa trưa về công việc và dự án của họ. Thật tuyệt vời khi được biết những người xung quanh và cả những ngành khác đang ứng dụng Deep learning như thế nào.
Tham gia hội nghị và những buổi diễn thuyết là cơ hội để bạn quan sát những người khác đang làm gì, cách họ cập nhật với các xu hướng và kỹ thuật mới. Theo dõi cách các nhà nghiên cứu hàng đầu như Google, Facebook, OpenAI đang làm việc thực sự mang lại nhiều cảm hứng và là nguồn động lực rất lớn cho bạn. Bạn cũng sẽ được biết các công ty như DropBox, eBay, Airbnb, Uber và Netflix đang nghiên cứu những gì. Sau hội nghị, tôi ấn tượng với công nghệ GAN và muốn thử học Pytorch – phiên bản 1.0 đã được phát hành vào tháng 1/2019.
Khi bạn tự học mọi thứ hoặc làm việc với các dự án tại công ty của bạn, tất cả những thay đổi và xu hướng trong ngành có thể không thật sự rõ để nhận ra. Nhưng tham gia các hội nghị thực sự giúp bạn mở rộng tầm nhìn và cho bạn cảm nhận được mọi người trong ngành đang sống và liên tục thay đổi như thế nào.
Có 1 vài cách để bạn tham dự các hội thảo:
- Đề nghị công ty chi trả và yêu cầu giảm giá nếu bạn đi theo nhóm. Ngay khi bạn không đi theo nhóm, họ cũng có các chương trình giảm giá. Vậy nên đừng ngại hỏi thăm về các ưu đãi.
- Đề nghị được làm tình nguyện viên tại hội nghị và tham gia miễn phí
- Tham gia với tư cách là sinh viên và bạn có thể được giảm giá.
Thời gian tới, tôi muốn thử đến NIPS (Hệ thống xử lý thông tin thần kinh) và ICLR (Hội nghị quốc tế về học tập) vốn tập trung hơn về mặt học thuật
2. TWITTER
Trước đây tôi không thực sự thích twitter nhưng tôi đã thử dùng lại để cập nhật các tin tức trong mảng Deep Learning. Tôi phát hiện ra rằng rất nhiều người gồm cả các nhà nghiên cứu và công ty thường xuyên cập nhật các thông tin có giá trị trên Twitter. Như bạn thấy phía trên, GoogleAI thường xuyên cập nhật các nghiên cứu của họ về Deep Learning.
Khi bắt đầu theo dõi những cá nhân và công ty nổi tiếng trong ngành (@GoogleAI, @OpenAI, @AndrewYNg, @KDNuggets, @Goodfellow_lan, @YLECun, @Karpathy), rất dễ để bạn tìm thấy thêm những tài khoản nổi tiếng khác cùng ngành.
Tài khoản của tôi hiện giờ rất nhàm chán nhưng bạn có thể theo dõi @jasjung_. Tôi dự định sử dụng để đăng các mẹo hoặc một vài thông tin mới, nhưng chủ yếu là để học hỏi từ các ngôi sao trong ngành khác.
3. Blogs kỹ thuật và email newsletters
Nếu bạn tìm kiếm với từ khóa “best data science newsletter”, bạn sẽ tìm thấy rất nhiều kết quả có giá trị. Đây là 1 trong những cách để thu thập thông tin.
3.1 Blog về kỹ thuật
Tôi nghĩ rằng những blog về kỹ thuật cũng giống như những hội nghị thu nhỏ mà các công ty thể hiện trên trang viết về những thành tựu mới và sáng giá nhất của họ. Những nghiên cứu, thử nghiệm và dự án thú vị thường được chia sẻ qua blog vì những trang này được quản lý bởi công ty nên chất lượng bài viết thường rất cao. Tôi nghĩ Medium bắt đầu đóng một vai trò lớn ở đây khi nhiều công ty bắt đầu lưu trữ blog kỹ thuật của họ trên Medium. Dưới đây là một vài trang web tôi thật sự yêu thích:
- Netflix Tech Blog on Medium
- Facebook Research Blog
- Uber Engineering Blog (Chuyên về Machine Learning)
- Airbnb Tech Blog on Medium (Chuyên về Machine Learning)
Những blog kỹ thuật này không chỉ chia sẻ về Machine Learning mà còn nhiều điều thú vị khác,
3.2. Thư tin
Bên cạnh những blog công nghệ truyền thống, bạn có thể subscribe thư tin (newsletters) từ các ấn phẩm trực tuyến như Medium hay các trang tin cá nhân. Bản thân tôi cho rằng chúng sẽ thiên về cá nhân hơn và dễ tiếp thu hơn vì nó có thể được viết bởi bất kỳ ai. Những newsletter dạng này thường chia sẻ về các project cá nhân nhỏ, do đó sẽ có lợi thế hơn với những dự án lớn được chia sẻ bởi blog của các công ty lớn bởi sự khó khăn trong việc tự trải nghiệm chúng.
Những ấn phẩm như Towards Data Science là một trong những ấn phẩm mà tôi không-thể-không-follow. Với tôi, đăng ký nhận thư tin hằng ngày thì hơi nhiều, vì vậy tôi đã chọn cách đăng kí nhận tin theo tuần. Một trong những thư tin cá nhân mà tôi rất thích chính là Machine Learning is Fun. Mỗi tuần, họ đều xuất bản những bài báo vui và bổ ích, vì vậy đừng quên subscribe nhé!
Tôi biết rằng ngoài kia còn rất nhiều nguồn tin hay ho nữa, tuy nhiên vẫn chưa có nhiều thời gian để khám phá hết. Nếu bạn biết thì hãy cùng chia sẻ dưới phần bình luận nhé!
4.Tài liệu nghiên cứu
Xếp hạng cuối cùng nhưng cũng quan trọng không kém chính là một sự lựa chọn tuy miễn phí nhưng cũng rất khó khăn. Ở phần này, tôi khuyên bạn đọc nên đọc qua post này ở Medium trước: “Bước đầu tiếp cận với đọc tài liệu Deep Learning: Tại sao và Như thế nào?”. Tác giả bài viết cung cấp nhiều thông tin hữu ích và những tips cần thiết để đọc các tài liệu nghiên cứu. Nói chung, nếu bạn có hứng thú và muốn tìm đọc những tài liệu về Machine Learning, bạn nên truy cập trang: Arxiv Sanity Preserver, một project được phát triển bởi Andrej Karpathy. Trang web này về cơ bản sẽ cung cấp những tài liệu nghiên cứu mới và phổ biến nhất để bạn chọn lọc và đọc theo sở thích. Andrej giải thích về project này như sau:
“Project này là một website đang nỗ lực để “thu gom” toàn bộ các tài liệu nghiên cứu trên Arvix. Nó cho phép các nhà nghiên cứu theo dõi các tài liệu mới và phổ biến nhất, tìm kiếm tài liệu, phân loại tài liệu dựa trên các tài liệu tương đồng, thêm tài liệu vào thư viện của chính họ và cuối cùng là sẽ nhận được những gợi ý về tài liệu Arxiv mà họ có thể yêu thích…”
Tôi cho rằng đây là sự lựa chọn khó khăn nhất bởi với chúng, bạn không chỉ đơn giản là mở ra và đọc. Bạn cần phải thực sự tập trung và cần rất nhiều thời gian nghiền ngẫm cho một tài liệu dạng này. Dẫu vậy, mặc dù là sự lựa chọn khó khăn nhất nhưng nó lại mang lại giá trị lớn nhất bởi kho kiến thức khổng lồ và sự thấu hiểu mà nó đem lại sau khi đọc xong. Tôi dự định sẽ có một thư mục Research Paper trong kho lưu trữ Machine Learning Github để lưu lại các tài liệu đã đọc. Tôi sẽ cố gắng update nó thường xuyên cho các bạn.
Nếu bạn không biết bắt đầu đọc từ đâu thì list tài liệu dưới đây sẽ dành cho bạn. Rất nhiều người cho rằng chúng là một trong những tài liệu phổ biến và truyền cảm hứng nhất trong mảng deep learning bởi sự thành công trong lĩnh vực convolutional neural network.
ImageNet Classification with Deep Convolutional Neural Networks (2012) bởi Alex Krizhevsky, Ilya Sutskever, và Geoffrey Hinton.
Đây là bản tóm tắt từ tài liệu đó để bạn tham khảo:
“Chúng tôi đã đào tạo một convolutional neural network lớn, sâu để phân loại 1,2 triệu hình ảnh có độ phân giải cao trong cuộc thi ImageNet LSVRC-2010 thành 1000 classes khác nhau. Trên dữ liệu thử nghiệm, chúng tôi đã đạt được tỷ lệ lỗi top-1 và top-5 lần lượt là 37,5% và 17,0%, tốt hơn đáng kể so với các công nghệ tiên tiến trước đây. Neutral network, với 60 triệu tham số và 650.000 nơ-ron, bao gồm năm convolutional layers, một số layer được theo sau bởi các max-pooling layer và ba full-connected layers với một final 1000-way softmax, (5 lớp convolutional, trong đó có một số lớp đi kèm với lớp max-pooling ngay sau. Ngoài ra mạng neural network này cũng có 3 lớp fully-connected và cuối cùng là lớp softmax có chứa giá trị cho 1000 class khác nhau).Để làm cho việc đào tạo nhanh hơn, chúng tôi đã sử dụng các nơ-ron không bão hòa và triển khai GPU rất hiệu quả cho hoạt động convolution ( sử dụng non-saturating neuron và sử dụng GPU cho các phép xử lý convolutional).Để giảm quá mức trong full-connected layers, chúng tôi đã sử dụng một phương pháp chính quy hóa được phát triển gần đây có tên là “dropout”, được chứng minh là rất hiệu quả (để giảm bớt tính overfitting trong lớp fully-connected, chúng tôi sử dụng các phương pháp regularization như dropout. Đây là phương pháp mà tính hiệu quả đã được kiểm chứng).Chúng tôi cũng đã nhập một biến thể của mô hình này trong cuộc thi ILSVRC-2012 và đạt tỷ lệ lỗi kiểm tra đứng đầu top 5 là 15,3%, so với 26,2% đạt được ở vị trí thứ 2”
5. YouTube
Tôi bổ sung thêm một phần này ở cuối bài vì tin rằng nó thực sự hữu ích. Nhiều người đồng ý rằng YouTube là một kho thông tin khổng lồ để học nhiều chủ đề khác nhau. Tôi rất thích theo dõi kênh Siraj Raval bởi sự cập nhập thường xuyên về các chủ đề AI và nhiều tutorials mà anh ấy đem lại. Bạn sẽ có cảm giác thú vị khi theo dõi video của anh ấy.
Kết luận
Giữ cho bản thân luôn cập nhật với cái mới là một nhiệm vụ khó khăn khi lượng thông tin đang không ngừng tăng lên. Đó cũng là điều tôi vẫn đấu tranh mỗi ngày. Nhưng tôi hy vọng những tài nguyên này có thể giúp đỡ bạn trong hành trình học thuật của mình. Nếu bạn biết bất kỳ nguồn tài nguyên hữu ích nào khác, xin vui lòng chia sẻ trong bình luận dưới đây.
Cuối cùng, đừng cảm thấy áp lực khi đọc và học mọi thứ bởi có lẽ học được hết mọi thứ là điều không thể. Hãy lựa chọn để học! Hãy lựa chọn điều mang tới niềm vui cho bạn bởi sẽ chẳng còn ý nghĩa nếu bạn không tìm thấy sự thú vị trong những điều bạn học mỗi ngày.
Chúc may mắn và cảm ơn bạn đã đọc!
Hãy like và follow Fanpage của Pixta Việt Nam tại https://www.facebook.com/pixtaVN/ để cùng đọc và cập nhật những tin tức công nghệ mới nhé!
Người dịch: Vân Phạm, Ly Nguyễn
Link bài viết gốc: Tại đây