|
<!--插入廣告JS代碼--> |
DSP力求最佳表現(xiàn)
DSP程序員孜孜以求的是程序功能發(fā)揮到極致、盡善盡美。然而談何容易?在很多情況下,DSP程序員就象是導(dǎo)演,而DSP則是影星——由DSP登臺表演,它需要程序員即導(dǎo)演技藝超群,并與演員同心協(xié)力。
DSP程序員“權(quán)力欲望”極盛(當(dāng)然只是個比喻),予取予求,無盡無休,但是,也象好萊塢大牌導(dǎo)演和明星們一樣,表現(xiàn)仍然難以盡如人意。
DSP架構(gòu)相對復(fù)雜,以致DSP很難給出最佳表現(xiàn)。要隨時隨地都做得最好,就需要付出很多時間和努力,因為相關(guān)代碼的兼容性最為重要。
正在前進(jìn)
要提升DSP功能,決不象聽起來那樣簡單,特別是當(dāng)代碼兼容性為第一優(yōu)先時。它基本上排除了任何的架構(gòu)改變,除非這些改變在軟件結(jié)構(gòu)上暢通無阻。
歷史上,提高性能最容易的捷徑是縮減電路體積。TI就是這樣研制了TMS320C6416,它是該公司以90nm工藝制造的第一款DSP。它以1GHz速度運(yùn)行,是TI的90nm路線圖的重要組成部分,該路線圖在2003年1月從無線數(shù)字基帶器件開始啟動,一直延續(xù)到2005年引入內(nèi)嵌 FRAM(鐵電 RAM)的計劃。
按照TI歐洲D(zhuǎn)SP產(chǎn)品組意見,在最新技術(shù)開發(fā)中,擁有自己的晶圓廠,正在成為越來越重要的先決條件。大多數(shù)集成器件制造商(IDM)整合資源以滿足90nm工藝的昂貴成本需求時,用意也是如此。不過,TI是獨(dú)立經(jīng)營的少數(shù)ASIC供應(yīng)商之一,而其它就連IBM和LSI Logic等公司也只是結(jié)盟合作來分擔(dān)經(jīng)費(fèi)。
TI正努力成為保持芯片領(lǐng)先地位的主要半導(dǎo)體公司,為此而不惜血本。事實上,TI 投產(chǎn)90nm工藝已經(jīng)一年,至今仍在認(rèn)證,由此可見一斑。
當(dāng)前的工藝每月加工8400個晶圓,有1700個用于研發(fā),其中包括C6416 DSP 樣品。但該設(shè)備計劃在年底前達(dá)到預(yù)定產(chǎn)量。
再接再厲
最初的那些90nm DSP是用它們上一代的130nm“直接”縮減而來的,“直接”的意思是,不做涉及核心的結(jié)構(gòu)性改變,或者說,僅僅整合外圍,而沒有涉及到晶體管的結(jié)構(gòu)性改變。
按照TI的說法,所有事情都發(fā)生在130nm臨界點上。業(yè)界普遍認(rèn)為,從150到 130nm的進(jìn)步,比從130到90nm的進(jìn)步更富于挑戰(zhàn)性。縮減體積的工藝相對簡單,它避開了很多不利因素,使TI得以致力于工藝優(yōu)化。
90nm工藝意味著,無法在這個層級上“直接”縮減。如前所述,這個縮減需要改變微觀架構(gòu),實際上在前一個130nm工藝臨界點上制作720MHz器件時也是如此。
集中在提升效能上的那些修改,有可能避免頻率較高時流水線的匱乏。
特別是TI給8個寬VLIW指令添加了替代字SIMD(單指令/多數(shù)據(jù))擴(kuò)展,以便更能壓縮代碼,并且更有效地利用流水線功能單元。
大體上,這意味著TI力求改善VLIW架構(gòu)的固有問題—從內(nèi)存中取出超長的字,而由于功能單元的適用性,其中只有一部分字才用得上。
只改善VLIW架構(gòu)還不能提高DSP在理論上的速度——假定所有VLIW都被用于每個取出行程,因而被時鐘速度確定——但它確實提高了實際速度——在每個VLIW行程中可用指令的實際數(shù)量。
其他特別要在1GHz運(yùn)行時處理的問題有,減少信號在芯片長度上通過的時間延遲,和優(yōu)化主要速度路徑與內(nèi)存流水線。
看看價錢
這種方式將最終確保更快地提高90nm系列的產(chǎn)量,而與1GHz DSP的關(guān)聯(lián)可能不是那樣明顯。例如,在這個器件上若不增加第一級或第二級高速緩存,片上內(nèi)存能支持 1GHz的功能嗎?
代碼兼容性問題不應(yīng)當(dāng)成為問題,但速度兼容性呢?
TI說,為720MHz部分寫的運(yùn)行的程序,可移植到1GHz器件而無需修改。但這僅僅是說不需要做功能性修改,考慮到更快的核心運(yùn)行速度所產(chǎn)生的效應(yīng),它是否完全不需要修改還尚待觀察。
不增加片上內(nèi)存,內(nèi)核似乎需要更頻繁地訪問內(nèi)存。TI主張,保持外存接口可以在比1GHz更高的速度上操作,將不會造成瓶頸。但是可能會掛斷接口。
TI聲稱,將來的器件可能會包括,通常在其他高速處理器上才能找到的雙重或四聯(lián)組數(shù)據(jù)比率的SRAM接口。
未來發(fā)布的 TI編程工具將能模擬1GHz運(yùn)作,有助于清除某些不實的臆測。
工藝縮減降低了硅材料的需求量,導(dǎo)致整體成本的下降,這已經(jīng)是不爭的事實,C6416也確實如此。
1GHz/90nm器件帶來了價格優(yōu)勢,它們竟比720MHz/130nm器件還便宜。那些90nm 器件不是按速度(比 720MHz 快)定價——過去速度越快的產(chǎn)品越貴而不會越廉——售價大約只有720MHz/130nm部件的一半,顯示了真正的“直接”節(jié)省。
DSP性價比倍增
DSP市場在很大程度上由于手機(jī)需求而在2003年強(qiáng)烈反彈。2003年銷售收入勁增27%,高達(dá)62億美元,2004年增長率看來也不相上下。而數(shù)量增長率甚至還要更高——2003和2004年分別為55%和33%。并且,芯片廠商正在提供性價比更高的DSP產(chǎn)品。
大多數(shù)DSP產(chǎn)品非常廉價,一般說來單價還不到6美元。也有性能很高的,如 TI的C6000系列或ADI的TigerSharc芯片,運(yùn)行速度高達(dá)10~100倍以上。這些高端產(chǎn)品在整個DSP市場只是一個很小的塔尖,大約才占1%。但是,它們是并行程度逐漸增加的高性能架構(gòu)。高端DSP針對語音和話音識別、視頻和圖像處理,也用于手機(jī)基站、高端彩色打印機(jī)、醫(yī)學(xué)成像和很多其他用途。雖然技術(shù)開發(fā)時定位于高端應(yīng)用,但也開始向大眾市場挺進(jìn)。
2004年,無線通信特別是手機(jī)將繼續(xù)是DSP市場推動力。手機(jī)市場份額高達(dá)DSP銷售的68%。從一開始,TI就雄踞DSP市場首位,看來它在今年仍將繼續(xù)領(lǐng)先,為DSP技術(shù)潮流定調(diào),但肯定還會有其他廠商緊追不舍。
手機(jī)和新功能的需求,為DSP廠商營造了更富于挑戰(zhàn)性的環(huán)境。2004年將會看到手機(jī)功能向3G技術(shù)、智能電話和PDA過渡。通過這些改進(jìn)過的新性能,手機(jī)廠商正翹首以待大額訂單,服務(wù)提供商也在坐等缽滿盤滿。
為提供這些功能,手機(jī)用的大多數(shù)DSP內(nèi)核還需要與ARM CPU內(nèi)核協(xié)同工作,這在數(shù)字基帶芯片組及其配套產(chǎn)品、應(yīng)用媒體處理器中可以見到,F(xiàn)在,數(shù)字基帶使用 ARM7內(nèi)核和DSP內(nèi)核處理通信。應(yīng)用媒體處理器為圖像處理和視頻等高級性能提供計算能力。該處理器通常以ARM9內(nèi)核和DSP內(nèi)核或一些DSP功能為特色。
TI以其OMAP方案極其有力地推動了市場,OMAP方案是該公司路線圖的點睛之筆。 OMAP整合了基帶處理器(TI 的 C55x 內(nèi)核)和應(yīng)用處理器(ARM925 內(nèi)核),連同很多的外圍。OMAP與TI的基帶芯片組結(jié)合在一起。
在基帶市場挑戰(zhàn)TI的是Qualcomm。在基帶和媒體處理領(lǐng)域,其他勁旅還包括:STM、Freescale(前Motorola半導(dǎo)體部)、Philips(Nexperia)和Intel。手持式產(chǎn)品市場也并非 ARM 獨(dú)霸天下。Renesas 已經(jīng)取得了 SH-RISC 的成功,還有幾個具備 DSP 功能的 SH 版本。另有兩個較小的廠商各自致力于其媒體處理器在成像和視頻功能方面的改進(jìn),這兩個廠商是NeoMagic和在2003年并購了MediaQ的 nVidia公司。
軟件可配置的高并行DSP陣列處理器,代表了在市場崛起的另一股新生力量。十余家小廠商正在展示各種新架構(gòu),這些架構(gòu)能提供以前超級計算機(jī)才具備的強(qiáng)大功能。這些廠商包括Cradle Technologies、QuickSilver、Morphos、PACT等。
區(qū)別一個單機(jī) DSP 將會逐漸變得困難,因為集成整個系統(tǒng)于一塊芯片已是大勢所趨。它將仰賴芯片廠商如何選擇產(chǎn)品的類別歸屬。不過,無論名稱或工具如何,DSP在無線通信領(lǐng)域的重要性都與日俱增。
DSP更加多才多藝
DSP 技術(shù)在不斷提高,效益卓著,這在很大程度上歸功于半導(dǎo)體工藝的長足進(jìn)步,把更多的存儲器和各種計算資源集成在一塊芯片上,使處理器在每個時鐘周期內(nèi)勝任更多的工作。
雖然很多16位DSP內(nèi)核芯片仍在沿用Harvard風(fēng)格的基本架構(gòu),但絕大多數(shù)更高性能的解決方案采用更多并行的體系結(jié)構(gòu)——超長指令字(VLIW)方式或單指令/多數(shù)據(jù)(SIMD)方案。在極高端,一些公司已開始使用多指令/多數(shù)據(jù)(MIMD)架構(gòu),實現(xiàn)最高程度的并行計算,從而使功能最大化。
隨著并行計算愈演愈烈,編程并控制所有資源的挑戰(zhàn)已經(jīng)拉開了序幕。因此, 軟件工具和算法應(yīng)用程序庫將會扮演主角,促使系統(tǒng)能盡快投放市場。這些工具和程序庫的應(yīng)用是否得當(dāng),常常會成為某一DSP架構(gòu)運(yùn)行的成敗利鈍。
今天,普通MP3音樂播放器需要大約30 MIPS(每秒百萬條指令)的吞吐量,而更高級的音頻應(yīng)用程序,如,新的Windows Media Audio專業(yè)版軟件運(yùn)行,要求將近100 MIPS。數(shù)碼相機(jī)的圖像處理需要也隨著功能的增加而增加,把對DSP的需求提升到幾百M(fèi)IPS。但是,在提高DSP集成度的同時還要努力降低其成本。
最新一代的DSP芯片設(shè)計, 包括ADI的Blackfin系列和TI的TMS320C6412和320 F2801系列,售價每片僅為5美元,卻提供幾百M(fèi)IPS的吞吐量。那些芯片和 Freescale StarCore芯片,是很多消費(fèi)者、信息遠(yuǎn)程傳送和工業(yè)應(yīng)用的新寵。它們將為消費(fèi)類音視頻市場提供100~300 MIPS的主流功能。
采用SIMD和MIMD方法的十余家公司的DSP并行架構(gòu)現(xiàn)已可用。某些架構(gòu)已被固定為計算單元的陣列。
1GHz DSP 芯片樣品
由TI在2004年第二季度發(fā)布;90nm工藝設(shè)計的處理器將代替TI前一批性能最高的720 MHz處理器。
新 DSP 內(nèi)核的原型
由CEVA Inc.發(fā)布,它組合了VLIW和SIMD架構(gòu)方法。其內(nèi)核的16位版本提供的功能,是該公司前一個高端處理器內(nèi)核Teak DSP的12倍。
低成本的浮點 DSP
定位于信息遠(yuǎn)程傳送、音頻處理和流媒體應(yīng)用,將由ADI出品。該Sharc DSP芯片將會在300MHz內(nèi)核頻率操作,而且提供50億次操作/秒的吞吐量。
高度并行的第一批樣品
高度并行和配置計算架構(gòu)的第一批樣品,將由Freescale開發(fā),定于今年上半年發(fā)布。其陣列以Morpho Technology開發(fā)的核心計算單元為基礎(chǔ),并經(jīng)Freescale授權(quán)特許。
軟件庫和開發(fā)工具
將隨著 DSP 芯片日趨復(fù)雜,扮演越來越重要的角色。由于高度并行的新架構(gòu)的復(fù)雜性,設(shè)計人員需要更多的軟件支持,以節(jié)省編程時間,并盡快使系統(tǒng)投放市場。
DSP 內(nèi)核的功耗
將繼續(xù)下降,因為設(shè)計人員在給它添加功能的同時,也在力求延長系統(tǒng)電池的使用壽命。例如,下一代手機(jī)正在添加拍照、多媒體播放和其他功能,這些功能都要求 DSP 有更強(qiáng)的處理能力和速度,而電池的尺寸和重量將不會增加甚至反而減少。因此,低功耗十分必要。
DSP 核心技術(shù)正在普及中提高
SoC已是設(shè)計的大勢所趨。工程師們把DSP內(nèi)核同標(biāo)準(zhǔn)的 RISC處理器內(nèi)核、大容量內(nèi)存以及以太網(wǎng)端口、PCI總線接口和串行I/O端口之類的系統(tǒng)接口整合。
控制和 DSP 功能
同基于閃存的程序存儲器以及帶有外圍接口功能的陣列一起,正在合并到單一內(nèi)核。TI將于今年4季度推出下一代控制器/DSP芯片的樣品TMS320F28xx系列。
超過 20 GFLOPS 的計算吞吐量
將會被一些最新的高并行陣列處理器實現(xiàn)。這些軟件可配置的處理器將展現(xiàn)出色的功能。但是,若把陣列結(jié)構(gòu)優(yōu)化成算法,軟件工具將會是關(guān)鍵。
期待 FPGA
來扮演象DSP加法器或協(xié)處理器一樣的角色。把FPGA(現(xiàn)場可編程門陣列)配置到乘法器陣列中的能力或其他功能,將使系統(tǒng)能迅速移動大型數(shù)據(jù)表,或?qū)崿F(xiàn)其它高并行的操作。只需載入新位流,利用FPGA的可配置性,就能實現(xiàn)功能性改變。
國產(chǎn)DSP與IP登場
繼去年初首個DSP“中國芯”—“漢芯一號”誕生之后,今年初“漢芯二號”24位、“漢芯三號”32位DSP芯片也雙雙亮相,標(biāo)志著我國DSP技術(shù)研究取得重大突破。“漢芯”系列是由上海交通大學(xué)微電子學(xué)院研制成功的。
“漢芯二號”是具備0.18微米半導(dǎo)體工藝設(shè)計的24位高性能DSP的IP內(nèi)核,可執(zhí)行每秒1.5億次指令。而被我國列入“十五”國家863計劃重點項目的“漢芯三號”,運(yùn)算能力更加出色,每秒可處理指令6億次以上;平均低功耗指標(biāo)則低于預(yù)定標(biāo)準(zhǔn),已經(jīng)達(dá)到國際高端DSP設(shè)計水平。
從“漢芯一號”問世到“漢芯三號”誕生,在短短一年中,“漢芯一號”芯片已取得了150萬片的國際訂單;“漢芯二號”作為首顆以IP專利授權(quán)方式進(jìn)入國際市場的高端處理器芯片,已直接應(yīng)用于國際著名IC設(shè)計企業(yè)的系統(tǒng)集成芯片;“漢芯三號”則申請了6項專利,由于具有高速度、低功耗的特點,可應(yīng)在數(shù)據(jù)通信、雷達(dá)系統(tǒng)、數(shù)碼產(chǎn)品、指紋識別系統(tǒng)、圖像識別以及網(wǎng)絡(luò)等諸多領(lǐng)域廣泛應(yīng)用,正開始尋找與國內(nèi)外大廠商合作的機(jī)會。
DSP 是消費(fèi)業(yè)的救星嗎?
每年伊始,消費(fèi)電子都會更加流行,它正推動著半導(dǎo)體業(yè)勇往直前。隨著消費(fèi)電子產(chǎn)品越來越專業(yè)化,可以期待,DSP的應(yīng)用將會進(jìn)一步增加。
在行業(yè)銷售中,消費(fèi)電子產(chǎn)品正在繼續(xù)強(qiáng)勁增長, TI預(yù)言,專業(yè)化的處理器—DSP將在當(dāng)前應(yīng)用率的基礎(chǔ)上繼續(xù)增長,當(dāng)前的應(yīng)用在每項上都超過上百種,支持用于消費(fèi)電子設(shè)備的 PC、通信和數(shù)碼相機(jī)。
TI把上世紀(jì)90年代后期和本世紀(jì)初稱為繼(基于晶體管的)主機(jī)時代、(基于 TTL 和邏輯電路的)微機(jī)時代和(基于微處理器的)PC時代之后的基于模擬技術(shù)與DSP技術(shù)的“互聯(lián)網(wǎng)時代”。
從對便攜式設(shè)備的低售價、低功耗需求,又被今天的消費(fèi)者引領(lǐng)到高性能需求。TI預(yù)言,高性能DSP芯片會被繼續(xù)開發(fā)。融合意味著,集多種專用功能于一體,例如,具有拍照、錄音和播放功能的手機(jī)現(xiàn)已司空見慣,而這在幾年前連做夢也想不到。
在數(shù)碼相機(jī)中,DSP用于成像、壓縮并儲存圖像,也用來接通其他處理器并管理用戶界面。它們還為圖像傳感器、背光和顯示的電源進(jìn)行管理。消費(fèi)者要求整個產(chǎn)品又小又輕、電池又長壽。例如,TI的DSP就用在Logitech袖珍錄像機(jī)和 Nokia N-Gage 中。
另一個在歐洲勝出的市場增長是數(shù)碼收音機(jī)。其中,DSP運(yùn)行軟件解調(diào)無線電頻率、提取數(shù)碼資料,并把這些資料編碼成音頻輸出。TI DSP供應(yīng)用于Roberts Gemini 3和Gemini 5的數(shù)碼收音機(jī)。TI對轎車用DAB(數(shù)字音頻廣播)收音機(jī)也很感興趣,它要求較短的設(shè)計周期,而手機(jī)中的DAB也是一個切實可行的方案。
消費(fèi)者需要什么?
DSP具有高性能的全部優(yōu)勢,但是價格昂貴。直到十年前,才用ASIC設(shè)計出高產(chǎn)量低成本的DSP解決方案。但正如TI所指出的,這些DSP都基于多重標(biāo)準(zhǔn),并且不得不改寫或轉(zhuǎn)換。也有成本高達(dá)幾百萬美元的ASIC掩膜,對于單個用戶和單端用途,成本很高?紤]到某些產(chǎn)品(如數(shù)碼相機(jī)和數(shù)碼投幣式自動唱機(jī))逐漸要求量身定制,ASIC的適用性也會成為問題。
一個替****法是使用可編程邏輯,它是試驗設(shè)計理念的有效方法,但這會造成終端設(shè)計價格和功耗都將大為增加的后果。RISC 解決方案符合可編程性、功率和成本需求,但對于實時信號處理,TI相信,加上能夠提供標(biāo)準(zhǔn)產(chǎn)品的優(yōu)勢,DSP會給出最佳解決方案。
實時處理用于視頻錄像,例如,提供高分辨率、保持同步并避免畫面遺漏,以使播放錄像時動作連貫流暢。這些質(zhì)量標(biāo)準(zhǔn)也適用于音頻,CD質(zhì)量滿足消費(fèi)者的需求。
TI分析,DSP是融合技術(shù)的核心,無論是否包括視頻、ADC和DAC,融合都是必要的。例如,若沒有核心技術(shù),模擬接口電路就不能與頭戴式話筒會話。
功耗之戰(zhàn)
DSP廠商面臨的下一場戰(zhàn)役是降低DSP成本和功耗。這場戰(zhàn)役已經(jīng)打響,TI預(yù)言,在一年內(nèi),500 MHz版的C6412將從當(dāng)前標(biāo)價的40美元降到5~15美元。
TMS320C6412是C6000路線圖的最新產(chǎn)品。它從C5000 DSP平臺發(fā)展而來,后者用于便攜式錄像機(jī)、高清晰度音頻和壓縮音頻汽車頭戴耳機(jī)。新產(chǎn)品為高性能視頻錄像如HDTV和視頻電話,提供了軟件、支持和開發(fā)工具箱。
現(xiàn)在500和600MHz版本已有樣品。C64xx一般有32位寄存器和8個并行功能單元,可以計算每個時鐘周期內(nèi)4個16位MAC。TI宣稱,這個功能級別足以處理比競爭對手方案高8倍的同步遠(yuǎn)程通信頻道。
它包括由一個芯片上的EMAC(以太網(wǎng)媒體接入控制器)、PCI端口、HPI(主機(jī)端口接口)和288KB SRAM組成的外圍。
10/100Mb/s的EMAC節(jié)省了大量空間、系統(tǒng)成本和開發(fā)時間。和控制外圍或與任何 I2C 總線兼容設(shè)備的I2C模塊一樣,設(shè)計人員可以用這個DSP同內(nèi)部 66MHz PCI總線接口一起工作,或用于比較簡單的主機(jī)處理器連接性的16/32位 HPI。憑借這款芯片上的內(nèi)存容量,對于越來越高級的系統(tǒng)需求不應(yīng)當(dāng)造成I/O瓶頸。(潘曉宇)(注:文中插圖由TI提供)