NVIDIA GeForce GTX480 và GTX470

NVIDIA mới chính thức công bố cho phát hành Card màn hình cao cấp GeForce GTX480 và GTX470 dựa trên cấu trúc Fermi , GT300 .

NVIDIA mới chính thức công bố cho phát hành Card màn hình cao cấp GeForce GTX480 và GTX470 dựa trên cấu trúc Fermi , GT300 .

Fermi là cấu trúc thế hệ tiếp theo của GT200 , khi mà NVIDIA lần đầu giới thiệu vào tháng Sáu 2008 , đã được chờ đợi rất lâu . Fermi hỗ trợ DirectX 11 trong khi đó AMD đã có trong tay hàng loạt sản phẩm DirectX 11 có mức giá từ 50 – 500$ kèm theo những lựa chọn mới cho những Game thủ như Eyefinity từ tháng Chín năm ngoái .

GeForce GTX480 và GTX470 được chính thức ra mắt cũng là khi mà họ sản phẩm AMD Evergreen , là loại đầu tiên hỗ trợ DirectX 11 , làm mưa làm gió trên thị trường với 2.15 tỉ Transistor và có tốc độ GPU 850MHz .

Bây giờ chúng ta quay trở lại với Chip GF100 của NVIDIA và nhắc lại những tính năng mới trong cấu trúc Fermi . Fermi không chỉ mang lại hiệu suất mạnh mẽ hơn trong Game cho tới những chất lượng hình ảnh mà NVIDIA còn đưa thêm những Đơn vị chức năng mới và có thể hỗ trợ cho cả những ứng dụng GPGPU .

 \"/\"

1 . Biểu đồ Logic của GF100 với 04 GPC , 16SM và 512 lõi CUDA ( Xanh lục )

Thiết kế của Fermi cho phép tạo ra chất lượng hình ảnh tốt hơn , hiệu suất hình học cao hơn , hỗ trợ Tessellation tốt hơn , hỗ trợ cho những ứng dụng Multi-Monitor và 3D Vision , tăng cường hiệu suất làm việc cho GPGPU .

Chip GF100 bao gồm , sắp xếp từ lớn nhất tới nhỏ nhất , 04 GPC ( Graphics Processing Cluster ) , 16 SM ( Stream Multiprocessor ) và 512 lõi CUDA . Lõi CUDA trong GF100 vẫn còn dựa trên những ý tưởng từ lõi CUDA của G80 và GT200 trước kia nhưng đã được thay đổi một cách linh hoạt .

\"/\" 

2. GPC

ALU là sự thay đổi chủ yếu , với những thế hệ GPU trước kia phần lớn nhiệm vụ của nó thực thi những bài toán dấu phảy động . Theo NVIDIA :

Trong GF100 thiết kế mới Interger ALU hỗ trợ tất cả những lệnh 32-bit mà phù hợp những ngôn ngữ lập trình chuẩn yêu cầu . Interger ALU cũng được tối ưu hóa để hỗ trợ 64-bit và những phép toán yêu cầu có độ chính xác lớn hơn . Những lệnh khác nhau được hỗ trợ như Boolean , Shift , Move ,Compare , Convert , lấy ra từng Bit , chèn từng Bit và những phép đếm thông dụng .

NVIDIA cũng làm cho GPU của họ có những đặc tình như CPU với việc thêm hỗ trợ tất cả những tính năng với số nguyên ( Interger ) . Điều này không tác động nhiều tới Game như tương lai xa sẽ giải phóng công việc của CPU để chuyển sang xử lí trực tiếp ở GPU hỗ trợ cho những ứng dụng GPGPU và GF100 có thể lập trình trực tiếp bằng ngôn ngữ C++ .

NVIDIA cũng có sự thay đổi lớn khác đó là 04 TEX Unit ( có màu Xanh Lam ) – Texture Unit -  trong mỗi SM . Sự thay đổi mang tính chất cải thiện hiệu suất tổng thế đó là TEX Unit có thiết kế gần với những Shader Unit . TEX Unit có hiệu suất làm việc cao hơn nhờ vào tốc độ của nó bằng một nửa so với lõi CUDA . NVIDIA đặt tốc độ lõi CUDA là 1.5GHz thì TEX Unit có tốc độ 750MHz , cao hơn so với những Card GT200 hiện thời có tốc độ 600 – 650MHz .

\"/\"

Cuối cùng và là phần quan trọng nhất trong việc cải tiến SM Unit đó chính là PolyMorph Engine . Điều này liên quan trực tiếp tới lượng Hình học và Tesselation . Với cấu trúc trước kia hiệu suất Hình học không theo kịp được với tốc độ tính toán của Pixel . NVIDIA đưa ra ví dụ , Hiệu suất Hình học chỉ tăng gấp ba từ GeForce FX5900 tới GTX285 trong khi đó tốc độ tính toán Pixel tăng lên gấp 150 lần .

Những bộ phận trong PolyMorph liên quan chặt chẽ tới những lõi CUDA và những SM bởi vì chúng tham gia vào những công việc của Tessellation . Nói chung những công việc tính toán Hình học và Tesellation yêu cầu những bộ phận trong SM làm việc nhiều và những dữ liệu này thường qua lại giữa SM và PolyMorph Engine , phụ thuộc vào tẩng làm việc tái tạo hình ảnh nào cần thực hiện .

\"/\"Mỗi PolyMorph Engine gồm có 5 tầng (Vertex Fetch, Tessellation, Viewport Transform, Attribute Setup, và Stream Output) , giữa những kết quả của mỗi tầng được quay trở lại SM mà ở đó công việc lại tiếp tục thực hiện hơn nữa và việc đó lại được gửi tới tầng tiếp theo trong PolyMorph Engine .

Nếu NVIDIA vẫn quyết định thiết kế bộ phận Tessellation riêng biệt như trước kia thì sẽ bị tình trạng thời gian trễ lớn . Vì thế việc kết hợp chặt chẽ PolyMorph Engine vào SM , cung cấp 16 SM trong mỗi Chip GF100 , NVIDIA cho rằng hiệu suất tăng Tessellation hơn 4 lần so với những Card màn hình Radeon HD 5870 hiện thời .

NVIDIA cũng thiết kế cho mỗi bộ phận trong Raster Unit liên kết chặt chẽ với mỗi SM . Sau khi PolyMorph Engine xử lí sơ bộ , chúng được gửi tới Raster Engine . Mỗi Raster Engine có 03 tầng : Edge Setup , Rasterizer và Z-Cull . Đó là những thành phần cơ bản nhất để tạo thành những điểm ảnh ( Pixel ) để được xem và và loại bỏ những gì không cần xem  .  Ngay khi công việc này hoàn tất thì tiếp theo quá trình tính toán là do những SM thực hiện .

Trong GF100 có 04 Raster Unit và mỗi Raster Unit phục vụ cho 04 SM .

\"/\"Mức tiếp theo trong cấu trúc chính là những GPC . Mỗi GPC bao gồm chứa 04 SM và một Raster Engine . 04 GPC lại được nối tới bộ nhớ  Cache L2 768KB . Bộ nhớ  Cache L2 của những GPU thế hệ trước kia được tạo ra chỉ phục vụ cho việc Đọc dữ liệu TEX .

Bộ nhớ  Cache L2 mới bây giờ hoàn toàn có khả năng Ghi từ những GPC , TEX và những phần của ROP . Điều này có thể giảm đáng kể việc truy cập tới bộ nhớ  chính để lấy những thông tin TEX và Lệnh / Dữ liệu thường dùng .

04 GPC chia xẻ 06 mạch điều khiển bộ nhớ  64-bit và như vậy GF100 có giao diện Bus nhớ là 384-bit tới VRAM GDDR5 . Giao diện chính cho Chip nối trực tiếp tới GigaThread Engine , để cung ứng những Lệnh và Dữ liệu tới những GPC .

Vùng cuối cùng mà NVIDIA dành tới nhiều sự chú ý đó chính là những ROP . Cho tới giờ vấn đề đổ bóng đồ họa bị giới hạn trong hầu hết những ứng dụng . Bây giờ GF100 có 512 lõi CUDA tính toán được số lượng lớn những Pixel và như vậy chúng ta lại thấy “nút cổ chai” hiệu suất mới , là vấn đề như đã từng xảy ra từ trước kia . Tốc độ lấp đầy những điểm ảnh ( Pixel ) có nhu cầu ngày càng cao khi mà sử dụng nhiều màn hình trong Game và 3D Vision của NVIDIA .

\"/\"Sản phẩm thế hệ mới nhất của NVIDIA và AMD có thể xử lí được tới độ phân giải 2560 x 1600 với Anti-Aliasing 4X tới 8X . Nhưng với việc đưa thêm hỗ trợ hiển thị nhiều màn hình trong Game ngày càng trở nên phổ biến , nhu cầu 3D Vision thì khả năng lấp đầy Pixel ngày càng được mở rộng trong những Card này .

Việc đưa thêm những Model hình học thực sự khá đơn giản . Vấn đề ở đây đó là làm sao có được hiệu suất tốt với những Model tính toán của nhiều triệu tam giác trên phần cứng hiện thời . Như vậy phải cần rất nhiều bộ nhớ cho những Model như vậy và đó cũng là nguyên nhân tại sao thường dùng những bản đồ bình thường cho những Model hình học đơn giản . Câu trả lời ở đây chính là Tessellation .

Tessellation là khả năng tạo ra những hình học phức tạp nhưng lại tốn ít bộ nhớ nhất có thể . Điều này được thực hiện bằng cách tăng cường tính toán cho hình học của những Model trong thời gian thực hơn là việc dựa vào việc thực hiện tính toán Model đầy đủ  vì điều đó sẽ tốn bộ nhớ và băng thông .

Như vậy bản chất của vấn đề ở chỗ Model “đơn giản” được tải tới Card nhưng nó đi kèm theo những công thức tính toán phức tạp . Những công thức này mặc dù phức tạp nhưng lại không chiếm nhiều bộ nhớ . Trong trường hợp gia tăng độ phức tạp hình học của Modle cố định những công thức này được thay thế bằng những công thức khác ( Map ) .

Những SM lấy những Model đơn giản  , và dùng PolyMorph Engine và những lõi CUDA , kèm theo những Map thay thế để từ những Model đơn giản tạo ra những hình học phức tạp . Do đó Model có 10.000 tam giác sẽ được tính toán để trở thành Model với 1 triệu tam giác mà không cần tăng bộ nhớ và băng thông mặc dù hình mới có độ phức tạp gấp 100 lần . Ví dụ trong trường hợp chất lỏng , bản đồ không được sử dụng mà thay vào đó là những công thức toán học phức tạp đại diện cho cách thức hoạt động của chất lỏng trong những tình huống rõ ràng .

\"/\"

Theo NVIDIA cách thức hoạt động của PolyMorph Engine với những SM cho tăng tăng gấp 4 lần trong hiệu suất Tessellation của đối thủ cạnh tranh . Tuy nhiên việc áp dụng Tesselation trong những Game DirectX 11 hiện thời còn giới hạn trong một vài tình huống , ví dụ xử lí Tessellation trong Dirt 2 chỉ dùng trong đám đông theo dõi cuộc đua xe và nước , nhưng nó sẽ trở nên thông dụng hơn để tạo ra những hiệu ứng trong những Game tương lai khi mà phần cứng hỗ trợ Tessellation ngày càng phổ biến .

Để hấp dẫn khách hàng , NVIDIA còn giới thiệu thêm những tính năng khác cho Game thủ như Multi-Monitor , tương tự như Matrox và AMD đã thực hiện .

Những Card màn hình mới không chỉ hỗ trợ 03 màn hình mà nó còn cho phép những màn hình phụ dùng công nghệ 3D Vision mà NVIDIA giới thiệu hồi năm ngoái .

GeForce GTX480 1.5GB

GeForce GTX480 là loại Card màn hình mới mạnh nhất của NVIDIA có GPU chứa 480 lõi CUDA , 60 Texture Unit và 48 ROP .

\"/\"

Như đã đề cập trên GF100 có 512 lõi CUDA nhưng điều đó đã không xảy ra chắc là liên quan tới công suất tiêu thụ điện năng và nhiệt lượng tỏa ra nên khiến cho NVIDIA phải vô hiệu hóa một SM trong trong số 16 SM . Trong khi đó mỗi nhóm GPC ( Graphics Processing Cluster ) có chứa 04 SM như vậy rõ ràng một GPC chỉ có 03 SM .

04 Texture Unit được liên kết trực tiếp tới mỗi SM và như vậy tổng số Texture Unit giảm từ 64 xuống còn 60 trong GTX480 .

Số lượng ROP trong GTX480 vẫn giữ nguyên so với GF100 do đó hiệu suất AA – Anti-Aliasing không bị ảnh hưởng .

GTX480 tiếp tục có 03 tốc độ riêng biệt đó là tốc độ lõi 700MHz , tốc độ Shader 1401 Mhz và tốc độ VRAM GDDR5 là 924MHz ( 3768 MHz DDR ) . Bộ nhớ đệm khung hình GDDR5 có dung lượng 1.5GB với giao diện Bus 384-bit cho phép băng thông bộ nhớ lên tới 177.4 GB/s . Điều này tốt hơn so với bằng thông 153 GB/s của Radeon HD 5870 mà chạy với Bus 256-bit .

Do số lượng Texture Unit giảm từ 64 xuống còn 60 nên GTX480 chỉ có sức mạnh 42 GigaTexel /s thấp hơn so với 68 GigaTexel / s của Radeon HD 5870 .

\"/\"

\"/\"

GTX480 yêu cầu hai đầu nối nguồn PCIe 8- và 6-chân . Nó có hai đầu ra Dual-Link DVI , một đầu nối mini-HDMI và như vậy nó chỉ nối được với hai màn hình trên cùng một Card .

GeForce GTX470 1.25GB

GeForce GTX470 dự kiến hướng tới thị trường Game cao cấp với mức giá 349$ .

GTX470 có 448 lõi CUDA , 56 Texture Unit và 40 ROP , thực tế bản chất là GTX480 nhưng gỡ bỏ một nhóm SM . Cứ mỗi nhóm 4 ROP liên kết với một Bus nhớ 32-bit do đó việc loại bỏ 8 ROP từ 384-bit GTX480 khiến cho GTX470 chỉ có 320-bit cho Bus nhớ 1250 Motherboard VRAM GDDR5 .

Tốc độ từng thành phần trong GTX470 cũng thấp hơn so với GTX480 : 607 MHz tốc độ lõi , tốc độ Shader 1215 MHz và tốc độ VRAM 837 MHz ( 3348 MHz DDR ) . Chính vì thế mà băng thông bộ nhớ VRAM giảm xuống còn 133.9 GB/s và  34 GigaTexel/s .

GeForce GTX470 yêu cầu hai đầu nối nguồn PCIe 6-chân . Nó có hai đầu ra Dual-Link DVI , một đầu nối mini-HDMI tương tự như GTX480 .

\"/\"