IBM phát triển hệ thống phân tích dữ liệu kính thiên văn

In

 

 
IBM đang phát triển các công nghệ quản lý và phân tích dữ liệu mới cho kính thiên văn vô tuyến tương lai lớn nhất thế giới.

Kính thiên văn SKA (Square Kilometer Array) dự kiến sẽ hoạt động vào năm 2024, cung cấp nhiều dữ liệu đến nỗi ngay cả các máy điện toán sản xuất trong tương lai cũng khó có thể xử lý tất cả dữ liệu này, theo dự đoán của IBM.

 

 alt

 

Ton Engbersen, nhà nghiên cứu dự án của IBM cho biết đây là một dự án nghiên cứu để tìm cách xây dựng một hệ thống máy điện toán có thể xử lý hàng tỷ tỷ byte (exabyte) dữ liệu mỗi ngày.

Hà Lan đã cấp cho IBM và Viện nghiên cứu thiên văn vô tuyến ASTRON của nước này một khoản tài trợ 32,9 triệu Euro, tương đương 43,6 triệu USD trong 5 năm để thiết kế một hệ thống với công nghệ mới, có thể xử lý khối lượng dữ liệu khổng lồ mà kính thiên văn SKA cung cấp.

Được tài trợ bởi một tập đoàn tài chính gồm 20 cơ quan chính phủ, SKA sẽ là kính thiên văn vô tuyến nhạy nhất thế giới, có thể giúp các nhà khoa học biết rõ hơn về quá trình của vụ nổ Big Bang cách đây 13 tỷ năm. Kính thiên văn SKA thật ra gồm có 3.000 anten nhỏ, mỗi anten cung cấp một nguồn dữ liệu liên tục.

Một khi được đưa vào hoạt động, kính thiên văn này sẽ cung cấp hơn một exabyte dữ liệu mỗi ngày (1 exabyte = 1 tỷ gigabyte). Để so sánh, 1 exabyte bằng 2 lần tổng lưu lượng hàng ngày trên World Wide Web, theo ước lượng của IBM. Số dữ liệu này sẽ phải được tải xuống từ kính thiên văn, có thể sẽ đặt tại Úc hay Nam Phi, sau đó sẽ được tổng kết và gửi đến các nhà nghiên cứu trên toàn thế giới. Công tác xử lý dữ liệu sẽ gồm việc thu thập từng nguồn dữ liệu từ mỗi anten vào một bức tranh lớn hơn về cách vũ trụ lần đầu tiên hình thành như thế nào.

Ông Engbersen cho biết, ngay cả khi xét đến các máy điện toán sẽ hoạt động nhanh hơn đến cỡ nào vào năm 2024, IBM vẫn sẽ cần đến các công nghệ tiên tiến để xử lý tất cả số dữ liệu. Một máy điện toán như thế có thể sẽ dùng loại chip xếp chồng (stacked chip) để xử lý khối lượng lớn, các loại liên kết quang tử để kết nối nhanh với chip, các hệ thống băng từ tiên tiến để lưu trữ dữ liệu và các công nghệ bộ nhớ đổi pha để lưu giữ dữ liệu sẽ được xử lý.

Ông Engbersen cho biết, IBM sẽ phải cải tiến thiết kế hệ thống. Các nhà nghiên cứu chưa quyết định sẽ có một trung tâm dữ liệu hay sẽ dàn trải ra nhiều vị trí.

Vì hệ thống sẽ rất lớn, các nhà nghiên cứu phải tìm hiểu làm thế nào để sử dụng tối đa tất cả các thành phần phần cứng sử dụng càng ít năng lượng càng tốt. Họ cũng phải tùy biến các thuật toán xử lý dữ liệu để hoạt động được với cấu hình phần cứng đặc biệt này.

Sau khi được xử lý, bộ dữ liệu thu được dự kiến sẽ đạt khoảng 300 đến 1.500 petabyte mỗi năm. Số lượng này sẽ lớn hơn nhiều so với số dữ liệu cung cấp bởi máy gia tốc Large Hadron Collider của Tổ chức nghiên cứu nguyên tử châu Âu CERN. Đây là máy cung cấp dữ liệu khoa học lớn nhất cung cấp khoảng 15 petabyte dữ liệu mỗi năm.