c6678gtx1080浮点运算能力能力是怎么算出来的

关于6678的浮点计算性能 - C6000(TM)多核 - 德州仪器在线技术支持社区
关于6678的浮点计算性能
发表于3年前
<input type="hidden" id="hGroupID" value="32"
您好!&/p>
&p>& & &6678手册说它有20 GFLOP/Core的浮点运算能力,但我们在6678evm上运行如下程序:&/p>
&div>& float&a&=&0.2;&br>& int&i;&br>& for(i&=&0;&i&&&15000&*&15000;&i++)&br>& & & &a&=&a&*&0.3&+&0.8;&/div>
&div>& & 并采用CCS5.3&O3优化编译后测出来的计算时间为3秒左右,感觉和手册介绍的差别较大,请问&/div>
&div>是什么原因导致其峰值性能无法发挥,如何如何才能让它发挥出来。谢谢!&/div>&div style=&clear:&>&/div>" />
关于6678的浮点计算性能
此问题已被解答
All Replies
& & &6678手册说它有20 GFLOP/Core的浮点运算能力,但我们在6678evm上运行如下程序:
& float&a&=&0.2;& int&i;& for(i&=&0;&i&&&15000&*&15000;&i++)& & & &a&=&a&*&0.3&+&0.8;
& & 并采用CCS5.3&O3优化编译后测出来的计算时间为3秒左右,感觉和手册介绍的差别较大,请问
是什么原因导致其峰值性能无法发挥,如何如何才能让它发挥出来。谢谢!
You have posted to a forum that requires a moderator to approve posts before they are publicly available.
状元59975分
可以使用C66提供的浮点加速指令进行乘累加操作,并且需要充分利用C66的数据位宽,减少core对数据的不断读写,如C66支持对外128bit位宽,所以可以一次读进来128bit进行数据处理,之后再一次把128bit进行回写,总之是需要使用C66提供的intrinstrics进行数据的load/store及处理,充分利用L/D的数据位宽并充分利用运算单元,这样才能体现出性能优势。
You have posted to a forum that requires a moderator to approve posts before they are publicly available.
& & & & &谢谢您的回答。我想继续问下手册上的浮点运算性能数据是怎么得到?测试样例程序是什么?
You have posted to a forum that requires a moderator to approve posts before they are publicly available.处理器浮点运算能力数据在哪里可以查到啊?【显卡吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:2,498,753贴子:
处理器浮点运算能力数据在哪里可以查到啊?收藏
rt我想做一张类似下面这样的图,可是CPU的浮点计算能力,不知道在哪里查……求助各位大神
电工证,登高证快取
挽尊好有个什么opencl benchmark
求大神搭理啊^
求不秒沉……
求不秒沉……
求大神搭理啊!
求大神搭理啊!
求大神搭理啊!
求大神搭理啊!
求大神搭理啊!
在挽尊GPCBenchMarkOCL
这些都是理论计算能力,是根据规格算出来的。cpu: 需要查一下浮点单元的宽度 然后乘以频率再乘以核心数量。比如snb是一组256bit加和一组256bit乘,单核单精度吞吐量就是16flop/cycle,乘以8核,再乘以频率(这里似乎是3.4GHz 不应该这么高),得到435.2GFlops。推土机是每个模块里两组128bit乘加,所以每个模块也是16flop/cycle。老i系()是8,haswell是32,k10是8,k8是4gpu: shader频率*shader数量*2
wikipedia的FLOPS词条好像有。。。
找工人yoy vrzcz dwtfs ukbh!
登录百度帐号推荐应用

我要回帖

更多关于 显卡浮点运算能力排行 的文章

 

随机推荐