研一环境管理会计计方向,大数据环境下要不要学数据挖掘?未来发展怎样?

如何评价大数据的未来? - 知乎643被浏览79098分享邀请回答317 条评论分享收藏感谢收起8添加评论分享收藏感谢收起查看更多回答1 个回答被折叠()(window.slotbydup=window.slotbydup || []).push({
id: '4016716',
container: s,
size: '800,80',
display: 'inlay-fix'
如何通过自学,成为数据挖掘“高手”,且看本文详细介绍。
来源:爱数据
如果你阅读了以上内容觉得可以接受,那么继续往下看。
学习一门技术要和行业靠拢,没有行业背景的技术如空中楼阁。技术尤其是计算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司),一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合行业之后就能够独当一面了,一方面有利于抓住用户痛点和刚性需求,另一方面能够累计行业经验,使用互联网思维跨界让你更容易取得成功。不要在学习技术时想要面面俱到,这样会失去你的核心竞争力。
一、目前国内的数据挖掘人员工作领域大致可分为三类。
1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告。
2)数据挖掘工程师:在多媒体、电商、搜索、社交等相关行业里做机器学习算法实现和分析。
3)科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。
二、说说各工作领域需要掌握的技能。
(1)。数据分析师
需要有深厚的数理统计基础,但是对程序开发能力不做要求。
需要熟练使用主流的数据挖掘(或统计分析)工具如Business Analytics and Business Intelligence Software(SAS)、SPSS、EXCEL等。
需要对与所在行业有关的一切核心数据有深入的理解,以及一定的数据敏感性培养。
经典图书推荐:《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用 》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。
(2)。数据挖掘工程师
需要理解主流机器学习算法的原理和应用。
需要熟悉至少一门编程语言如(Python、C、C++、Java、Delphi等)。
需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好。
经典图书推荐:《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《 Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等。
(3)。科学研究方向
需要深入学习数据挖掘的理论基础,包括关联规则挖掘 (Apriori和FPTree)、分类算法(C4.5、KNN、Logistic Regression、SVM等) 、聚类算法 (Kmeans、Spectral Clustering)。目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点。
相对SAS、SPSS来说R语言更适合科研人员The R Project for Statistical Computing,因为R软件是完全免费的,而且开放的社区环境提供多种附加工具包支持,更适合进行统计计算分析研究。虽然目前在国内流行度不高,但是强烈推荐。
可以尝试改进一些主流算法使其更加快速高效,例如实现Hadoop平台下的SVM云算法调用平台&&web 工程调用hadoop集群。
需要广而深的阅读世界著名会议论文跟踪热点技术。如KDD,ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;还有数据挖掘相关领域期刊:ACM Transactions on Knowledge Discovery from Data,IEEE Transactions on Knowledge and Data Engineering,Journal of Machine Learning Research Homepage,IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。
可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力。如Sig KDD ,Kaggle: Go from Big Data to Big Analytics等。
可以尝试为一些开源项目贡献自己的代码,比如Apache Mahout: Scalable machine learning and data mining ,myrrix等(具体可以在SourceForge或GitHub.上发现更多好玩的项目)。
经典图书推荐:《机器学习》 《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》,英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。
关注中国IDC圈官方微信:idc-quan或微信号: 我们将定期推送IDC产业最新资讯
以中心地区带动发展已经成为我国目前培育经济新动能的主要方,向记者从多个部门了解到,以北京、上海等大城市为主,我国部署了多批国家大数据中心、国家科学中心、国家制造
落户贵州的iCloud主数据中心是苹果公司在中国建立的第一个数据中心,该项目的成功合作有利于提升苹果iCloud中国用户体验和服务质量,对加快贵州大数据综合试验区建设具有重
在云计算、大数据和AI这有望改变世界的“三剑客”中,云计算资格最老。早在2006年,亚马逊就推出了名为AWS的云计算服务,AWS的名字沿用至今。
最近,风险投资机构Vertex发表了一份生态研究报告,从业内、技术、政策和投资等角度预测了中国未来AI领域的发展。报告认为,中国将会很快成为全球人工智能技术的中心。
互联网金融已是一片“红海”,网贷平台发展进入下半场,而收益率普遍降低也成大趋势。
热门会议:
我们的服务:大数据环境下的数据挖掘课程教学探索--《计算机时代》2014年02期
大数据环境下的数据挖掘课程教学探索
【摘要】:近年来,大数据引起了各界相关部门的高度关注,中科院和各高校开始重视该方向的教学和研究。针对目前大数据带来的社会影响力,根据大数据具体特性以及数据挖掘学科交叉性强的特点,结合实际教学经验,分别从培养数据意识、加强理论体系、创新教学方法和深入科学研究等四个方面来探索如何设计高校数据挖掘课程,以解决大数据时代下数据挖掘课程因抽象而带来的问题,为培养优秀的大数据研究人才奠定理论基础。
【作者单位】:
【关键词】:
【分类号】:TP311.13-4;G642【正文快照】:
0引言近年来,随着科技进步和社会的发展,以数据为中心的各领域产生了越来越多的数据,引起了各界业内人士的高度关注。2012年初,美国政府投入2亿美元启动“大数据研究和发展计划”,使得大数据研究上升为国家意志,这意味着大数据对将来科学技术、经济发展,以至国家安全都有深远
欢迎:、、)
支持CAJ、PDF文件格式,仅支持PDF格式
【参考文献】
中国期刊全文数据库
王华秋;;[J];黑龙江教育(高教研究与评估);2011年06期
王珊;王会举;覃雄派;周烜;;[J];计算机学报;2011年10期
黄美丽;;[J];计算机时代;2012年12期
李国杰;程学旗;;[J];中国科学院院刊;2012年06期
刘建伟;;[J];科技信息;2013年23期
周森鑫;盛鹏飞;王夫芹;;[J];计算机技术与发展;2012年11期
【共引文献】
中国期刊全文数据库
杜玉辉;蒋姣丽;;[J];电脑知识与技术;2012年15期
李满意;;[J];保密科学技术;2012年09期
黄晓斌;钟辉新;;[J];图书与情报;2012年06期
李冯筱;罗高松;;[J];电信科学;2012年12期
成静静;喻朝新;;[J];广东通信技术;2013年01期
陈云海;黄兰秋;;[J];电信科学;2013年03期
孙玉玲;;[J];出版发行研究;2013年04期
王伟;;[J];计算机光盘软件与应用;2013年07期
王文超;石海明;曾华锋;;[J];国防科技;2013年02期
马建光;姜巍;;[J];国防科技;2013年02期
中国重要会议论文全文数据库
蔡津津;郜新鑫;付建俐;;[A];中国新闻技术工作者联合会2012年学术年会、五届四次理事会暨第六届“王选新闻科学技术奖”的“人才奖”和“优秀论文奖”颁奖大会论文集[C];2012年
周为钢;杨良怀;潘建;郑申俊;沈贝伦;沈俊青;;[A];第八届中国智能交通年会论文集[C];2013年
中国博士学位论文全文数据库
黄兰秋;[D];南开大学;2012年
何文娜;[D];吉林大学;2013年
王锋;[D];山西大学;2013年
刘灿由;[D];解放军信息工程大学;2013年
韩晶;[D];北京邮电大学;2013年
李韧;[D];重庆大学;2013年
韩海雯;[D];华南理工大学;2013年
楼巍;[D];上海大学;2013年
刘兵;[D];中国矿业大学;2013年
张金松;[D];大连海事大学;2013年
中国硕士学位论文全文数据库
翟永超;[D];东华大学;2012年
沈姝;[D];南京信息工程大学;2012年
周俊;[D];湖南大学;2012年
何伟岗;[D];西安电子科技大学;2012年
熊良;[D];南京邮电大学;2013年
卓安;[D];清华大学;2012年
周俊清;[D];湖南大学;2012年
张冬洁;[D];华中科技大学;2012年
陈沣;[D];大连理工大学;2013年
曹英;[D];大连海事大学;2013年
【二级参考文献】
中国期刊全文数据库
沈维政;孙红敏;张喜海;;[J];东北农业大学学报(社会科学版);2007年01期
肖胜阳;[J];电化教育研究;2003年10期
杨志耘;刘建宾;;[J];高等理科教育;2005年06期
韦艳艳;张超群;;[J];高教论坛;2011年01期
胡建军;;[J];广西科学院学报;2007年03期
王华秋;;[J];黑龙江教育(高教研究与评估);2011年06期
王晓燕;;[J];职业教育研究;2007年05期
朱家元;段宝君;张恒喜;;[J];计算机科学;2003年08期
王少刚;;[J];中国大学教学;2007年08期
徐金宝;;[J];计算机教育;2007年14期
中国硕士学位论文全文数据库
刘学;[D];大连海事大学;2008年
段永健;[D];山东大学;2010年
艾玲;[D];华东师范大学;2010年
谭维敏;[D];北京邮电大学;2010年
【相似文献】
中国期刊全文数据库
史秀璋;;[J];北京城市学院学报;2010年04期
徐远平;汪尤利;;[J];现代预防医学;2007年17期
王丽娜;康振华;;[J];中国科教创新导刊;2007年26期
李璐;;[J];科技情报开发与经济;2007年26期
连飞;万安;;[J];安庆师范学院学报(社会科学版);2009年09期
张宁;;[J];工业控制计算机;2010年06期
邱文教,潘晓卉;[J];安徽工业大学学报(社会科学版);2005年03期
潘锋;;[J];重庆科技学院学报(社会科学版);2008年04期
高晓;;[J];福建质量管理;2010年04期
陈秋杨;;[J];高教论坛;2009年07期
中国重要会议论文全文数据库
李萍;;[A];都市型高等农业教育教学改革论文专辑[C];2007年
曹相生;孟雪征;郑晓英;;[A];土木建筑教育改革理论与实践[C];2009年
王伟;许卫锴;;[A];土木建筑教育改革理论与实践[C];2009年
张晨燕;吕淑琴;孙成立;;[A];2004年电子技术学术研讨会论文集[C];2004年
陈国民;王涛;冯剑;;[A];重庆工程图学学会第十五次学术研讨会论文集[C];2006年
李炎锋;陈志东;;[A];土木建筑教育改革理论与实践[C];2009年
刘杰;;[A];高等学校土木工程专业建设的研究与实践——第九届全国高校土木工程学院(系)院长(主任)工作研讨会论文集[C];2008年
胡飞虎;张彦斌;陈文革;;[A];第五届全国高校电气工程及其自动化专业教学改革研讨会论文集(2)[C];2008年
付家才;郭明良;;[A];第6届全国高等学校电气工程及其自动化专业教学改革研讨会论文集(上册)[C];2009年
陈慧;苏馈足;袁守军;胡真虎;;[A];土木建筑教育改革理论与实践(第12卷)[C];2010年
中国重要报纸全文数据库
山西财经大学教师;[N];山西经济日报;2010年
本报记者  沈祖芸 唐景莉 杨晨光;[N];中国教育报;2006年
通讯员 罗颂平;[N];中国中医药报;2004年
上阿图什乡依克沙克中学教师
艾木热拉·赛来;[N];克孜勒苏报;2007年
本报首席记者
李雪林;[N];文汇报;2011年
西南大学教育学院博士研究生
叶通贤?西南大学教育学院教授
周鸿;[N];中国教育报;2008年
孙慧玲 黑龙江大学哲学学院;[N];中国社会科学报;2010年
孙思;[N];社会科学报;2007年
李雪林;[N];文汇报;2005年
徐一化;[N];中国新闻出版报;2006年
中国博士学位论文全文数据库
邵士权;[D];华中科技大学;2011年
王玲;[D];东北师范大学;2007年
石广盛;[D];复旦大学;2007年
龙琪;[D];南京师范大学;2006年
张梅俊;[D];武汉理工大学;2008年
王廷山;[D];河北大学;2007年
刘义;[D];华中科技大学;2010年
李亚平;[D];中南大学;2011年
张雪飞;[D];辽宁师范大学;2011年
陈国松;[D];华中科技大学;2012年
中国硕士学位论文全文数据库
李翼;[D];兰州商学院;2007年
陈珲;[D];华南师范大学;2007年
段立先;[D];东北师范大学;2009年
任平;[D];西南大学;2010年
曾铮;[D];西南大学;2010年
颜娟;[D];湖南师范大学;2007年
孙彦波;[D];华中科技大学;2008年
赵子田;[D];东北师范大学;2005年
徐红;[D];华南师范大学;2004年
Murari Lal K[D];哈尔滨工程大学;2011年
&快捷付款方式
&订购知网充值卡
400-819-9993
《中国学术期刊(光盘版)》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 大众知识服务
出版物经营许可证 新出发京批字第直0595号
订购热线:400-819-82499
服务热线:010--
在线咨询:
传真:010-
京公网安备75号查看: 13515|回复: 4
我是学Java的,想尝试大数据和数据挖掘,该怎么规划学习?
论坛徽章:0
谢谢大家的回答!感恩!
论坛徽章:0
去再读一个学位
要不然别人不不信任你 不给你机会
入个门 根本不可能深入
论坛徽章:0
这种东西基本自学很难,因为没有应用场景(当然基础知识可以自学,比如一些数学什么的),要么去读研究生,现在有些学校有相关专业,要么找好机会去公司实践。
没有实际经验,瞎回答,不对答案后果负责。
论坛徽章:0
语言只是工具。
数据的价值,数据能解决的问题,题主不知道有没有考虑过。数据是真实世界的某个时刻/时段的缩影,从数据中发掘出真实世界中各种事物的内在联系是数据分析与挖掘的目标。
如果题主还能问自己一个问题,然后想尽办法自行搜集数据,清洗数据,建立模型,尝试分析,这时你就会发现要学的多得学不过来。基础的话,需要学各种统计和概率知识,需要学机器学习和人工智能相关知识,光贝叶斯网络t检验回归分析神经网络svm就够学一阵了,特定情况下还需要写爬虫中文分词跑hadoop学数据库再写点R脚本等等,最后需要前端展示再学点可视化的库,很多很长的路要走。
但是其实也没有那么困难,很多人只走一两条路。把自己提的问题真正解决了,就算入门了吧。
希望有帮助。
论坛徽章:0
大数据有两个方向,一个是偏计算机的,另一个是偏经济的。你学过Java,所以你可以偏将计算机
基础
1. 读书《Introduction to Data Mining》,这本书很浅显易懂,没有复杂高深的公式,很合适入门的人。
另外可以用这本书做参考《Data Mining : Concepts and Techniques》。第二本比较厚,也多了一些数据仓库方面的知识。
如果对算法比较喜欢,可以再阅读《Introduction to Machine Learning》。
当然,还有《机器学习:实用案例解析》
2. 实现经典算法。有几个部分:
a. 关联规则挖掘 (Apriori, FPTree, etc.)
b. 分类 (C4.5, KNN, Logistic Regression, SVM, etc.)
c. 聚类 (Kmeans, DBScan, Spectral Clustering, etc.)
d. 降维 (PCA, LDA, etc.)
e. 推荐系统 (基于内容的推荐,协同过滤,如矩阵分解等)
然后在公开数据集上测试,看实现的效果。可以在下面的网站找到大量的公开数据集:UCI Machine Learning Repository/
3. 熟悉几个开源的工具: Weka (用于上手); LibSVM, scikit-learn, Shogun
4. 到 Kaggle: Go from Big Data to Big Analytics/ 上参加几个101的比赛,学会如何将一个问题抽象成模型,并从原始数据中构建有效的特征 (Feature Engineering).
到这一步的话基本几个国内的大公司都会给你面试的机会。
1. 读书,下面几部都是大部头,但学完进步非常大。
a.《Pattern Recognition and Machine Learning》
b.《The Elements of Statistical Learning》
c.《Machine Learning: A Probabilistic Perspective》
第一本比较偏Bayesian;第二本比较偏Frequentist;第三本在两者之间,但我觉得跟第一本差不多,不过加了不少新内容。当然除了这几本大而全的,还有很多介绍不同领域的书,例如《Boosting Foundations and Algorithms》,《Probabilistic Graphical Models Principles and Techniques》;以及理论一些的《Foundations of Machine Learning》,《Optimization for Machine Learning》等等。这些书的课后习题也非常有用,做了才会在自己写Paper的时候推公式。
2. 读论文。包括几个相关会议:KDD,ICML,NIPS,IJCAI,AAAI,WWW,SIGIR,ICDM;以及几个相关的期刊:TKDD,TKDE,JMLR,PAMI等。跟踪新技术跟新的热点问题。当然,如果做相关research,这一步是必须的。例如我们组的风格就是上半年读Paper,暑假找问题,秋天做实验,春节左右写/投论文。
3. 跟踪热点问题。例如最近几年的Recommendation System,Social Network,Behavior Targeting等等,很多公司的业务都会涉及这些方面。以及一些热点技术,例如现在很火的Deep Learning。
4. 学习大规模并行计算的技术,例如MapReduce、MPI,GPU Computing。基本每个大公司都会用到这些技术,因为现实的数据量非常大,基本都是在计算集群上实现的。
5. 参加实际的数据挖掘的竞赛,例如KDDCUP,或 Kaggle: Go from Big Data to Big Analytics/ 上面的竞赛。这个过程会训练你如何在一个短的时间内解决一个实际的问题,并熟悉整个数据挖掘项目的全过程。
6. 参与一个开源项目,如上面提到的Shogun或scikit-learn还有Apache的Mahout,或为一些流行算法提供更加有效快速的实现,例如实现一个Map/Reduce平台下的SVM。这也是锻炼Coding的能力。(转)
itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有    
 北京市公安局海淀分局网监中心备案编号:10 广播电视节目制作经营许可证:编号(京)字第1149号

我要回帖

更多关于 管理会计应用环境包括 的文章

 

随机推荐