Việc mở khóa thông tin sinh học từ dữ liệu gen đơn bào phức tạp vừa trở nên dễ dàng và chính xác hơn nhờ công cụ ‘scLENS’ cải tiến được phát triển bởi Nhóm Toán y sinh ở Trung tâm Khoa học Toán học và Tính toán IBS do Trưởng nhóm nghiên cứu Jae Kyoung Kim dẫn đầu ông là giáo sư của Học viện khoa học công nghệ tiên tiến Hà Quốc- KAIST. Phát hiện mới này thể hiện một bước nhảy vọt đáng kể trong lĩnh vực phiên mã tế bào đơn.
Phân tích bộ gen đơn bào là một kỹ thuật tiên tiến để đo biểu hiện gen ở cấp độ tế bào riêng lẻ, phát hiện những thay đổi và tương tác của tế bào mà các phương pháp phân tích bộ gen truyền thống không thể quan sát được. Khi áp dụng cho các mô ung thư, phân tích này có thể mô tả thành phần của các loại tế bào khác nhau trong khối u, cung cấp cái nhìn sâu sắc về cách ung thư tiến triển và xác định các gen chính liên quan trong từng giai đoạn tiến triển.
Bất chấp tiềm năng to lớn của phân tích bộ gen đơn bào, việc xử lý lượng dữ liệu khổng lồ mà nó tạo ra luôn là một thách thức. Lượng dữ liệu bao gồm sự biểu hiện của hàng chục nghìn gen trên hàng trăm đến hàng nghìn tế bào riêng lẻ. Điều này không chỉ tạo ra các tập dữ liệu lớn mà còn gây ra các biến dạng liên quan đến nhiễu, phát sinh một phần do các hạn chế đo lường hiện tại.
Tác giả Jae Kyoung Kim nhấn mạnh: “Đã có một tiến bộ đáng chú ý trong các công nghệ thử nghiệm để phân tích các bản phiên mã đơn bào trong thập kỷ qua. Tuy nhiên, do những hạn chế trong phương pháp phân tích dữ liệu, đã có một cuộc đấu tranh để sử dụng đầy đủ dữ liệu có giá trị thu được thông qua chi phí và thời gian lớn.”
Các nhà nghiên cứu đã phát triển nhiều phương pháp phân tích trong nhiều năm để phân biệt các tín hiệu sinh học từ tiếng ồn. Tuy nhiên, độ chính xác của các phương pháp này chưa được thỏa đáng. Một vấn đề quan trọng là việc xác định ngưỡng tín hiệu và nhiễu thường phụ thuộc vào quyết định chủ quan của người phân tích.
Công cụ scLENS mới được phát triển khai thác lý thuyết ma trận ngẫu nhiên và kiểm tra độ mạnh của tín hiệu để tự động phân biệt tín hiệu với nhiễu mà không cần dựa vào thông tin đầu vào chủ quan của người phân tích.
Tác giả đầu tiên Hyun Kim cho biết: “Trước đây, người phân tích phải tự ý quyết định ngưỡng tín hiệu và nhiễu, điều này làm ảnh hưởng đến khả năng tái tạo kết quả phân tích và gây ra tính chủ quan. scLENS loại bỏ vấn đề này bằng cách tự động phát hiện tín hiệu chỉ sử dụng cấu trúc vốn có của dữ liệu.”
Trong quá trình phát triển scLENS, các nhà nghiên cứu đã xác định được nguyên nhân cơ bản dẫn đến sự thiếu chính xác trong các phương pháp phân tích hiện có. Họ phát hiện ra rằng các phương pháp tiền xử lý dữ liệu thường được sử dụng làm biến dạng cả tín hiệu sinh học và nhiễu. Phương pháp tiền xử lý mới mà scLENS cung cấp không có những biến dạng như vậy.
Bằng cách giải quyết các vấn đề liên quan đến ngưỡng nhiễu được xác định bởi sự lựa chọn chủ quan của người phân tích và độ méo tín hiệu trong quá trình tiền xử lý dữ liệu thông thường, scLENS vượt trội hơn đáng kể so với các phương pháp hiện có về độ chính xác. Ngoài ra, scLENS tự động hóa quá trình lựa chọn kích thước tín hiệu tốn nhiều công sức, cho phép các nhà nghiên cứu trích xuất tín hiệu sinh học một cách thuận tiện và tự động.
Tác giả Kim cho biết thêm, “scLENS giải quyết các vấn đề chính trong phân tích dữ liệu phiên mã tế bào đơn, cải thiện đáng kể độ chính xác và hiệu quả trong suốt quá trình phân tích. Đây là ví dụ điển hình về cách các lý thuyết toán học cơ bản có thể thúc đẩy sự đổi mới trong nghiên cứu khoa học đời sống, cho phép các nhà nghiên cứu đạt được nhiều hơn trả lời nhanh chóng và chính xác các câu hỏi sinh học và khám phá những bí mật của sự sống mà trước đây bị che giấu.”
Hình: Tổng quan về scLENS (nhúng chiều thấp đơn ô bằng cách sử dụng tính năng trừ nhiễu hiệu quả)
(Phía trái) Các phương pháp giảm kích thước hiện tại cho dữ liệu scRNA-seq bao gồm các bước tiền xử lý dữ liệu thông thường, chẳng hạn như chuẩn hóa nhật ký, sau đó là chọn tín hiệu thủ công từ dữ liệu được chia tỷ lệ. Tuy nhiên, nghiên cứu này tiết lộ rằng mức độ thưa thớt và biến đổi cao trong dữ liệu scRNA-seq có thể dẫn đến biến dạng tín hiệu trong quá trình tiền xử lý dữ liệu, ảnh hưởng đến độ chính xác của các phân tích tiếp theo.
(Phía phải) Để giải quyết vấn đề này, các nhà nghiên cứu đã tích hợp chuẩn hóa L2 vào quy trình tiền xử lý thông thường, giảm thiểu hiện tượng méo tín hiệu một cách hiệu quả. Hơn nữa, họ đã phát triển một thuật toán phát hiện tín hiệu mới giúp loại bỏ nhu cầu can thiệp của người phân tích bằng cách tận dụng tính năng lọc nhiễu dựa trên lý thuyết ma trận ngẫu nhiên và kiểm tra độ mạnh của tín hiệu. Bằng cách kết hợp các kỹ thuật này, scLENS cho phép phân tích chính xác và tự động dữ liệu scRNA-seq, khắc phục những hạn chế của các phương pháp giảm kích thước hiện có.
Thuật ngữ____________________________________
* Giải trình tự RNA đơn bào (scRNA-seq): Một kỹ thuật dùng để đo mức độ biểu hiện gen trong từng tế bào, cung cấp cái nhìn sâu sắc về tính không đồng nhất của tế bào và các loại tế bào hiếm.
* Giảm kích thước: Một phương pháp để giảm số lượng tính năng hoặc biến trong tập dữ liệu trong khi vẫn giữ được thông tin quan trọng nhất, giúp việc phân tích dữ liệu trở nên dễ quản lý và dễ hiểu hơn.
* Lý thuyết ma trận ngẫu nhiên: Một khung toán học dùng để mô hình hóa và phân tích các thuộc tính của ma trận ngẫu nhiên lớn, có thể áp dụng để lọc nhiễu trong dữ liệu nhiều chiều.
* Kiểm tra độ mạnh của tín hiệu: Trong số các tín hiệu, thử nghiệm này chọn các tín hiệu mạnh đối với sự nhiễu loạn nhẹ trong dữ liệu vì các tín hiệu sinh học thực sẽ bất biến đối với những sửa đổi nhỏ như vậy trong dữ liệu.
Ngày 9/5/2024
PGS.TS. Tô Duy Phương
Nguồn: Công bố trên tạp chí quốc tế ‘Nature Communications’ ngày 27 tháng 4.