找到相关内容 15
SSIS高级转换任务—渐变维度(Slowly Changing Dimension)
渐变维度(SCD)转换提供了一种维护渐变维度或渐变表的方法,渐变维度的分析处理是一个很大的话题。一般一个维度表通常包含一些描述其他信息的离散值,例如,价格,重量,销售地区。问题是如果随着时间的推移这些信息改变我们将如何维护这个表,特别是在数据转移的过程中。例如我们查看AdventureWorks中的product表,如图1 图1    通常在联机事务处理(OLTP)数据库中,我们会用一行的数据来
http://cyqdata.com/cnblogs/article-detail-41755 
SSIS高级转换任务—模糊分组
在模糊查找中我们提到脏数据是怎样进入到表中的事情,主要还是由于一些“Lazy-add”造成的。这种情况我们的肉眼很容易被欺骗,看上去是同一个单词,其实就差那么一个字母,变成了两个不同的单词。一个简单的例子是X-Ray Tech和xRey,我们很有可能认为他们是同一个职务,CT操作员,但是如果让计算机来处理的话,它们是两种截然不同的东西。    和模糊查找一样,模糊分组可以查
http://cyqdata.com/cnblogs/article-detail-41228 
我的VS2010+VAssistX
最近越来越觉得VAssistX好用,可能是以前没有去仔细研究过吧,也可能是因为我是个快捷键控吧,不管怎样,用或不用,方便或不方便,它就是那里,一动也不动,进入正题,给大家介绍下我的使用配置:(我只是引玉,你可以抛砖) VS2010开发C++程序: 1 安装好VAS打开VS2010之后,首先关闭VA outline与VA View窗口,个人感觉没啥用, 2 关掉VS的状态栏,感觉它最大的用处就是显示
http://cyqdata.com/cnblogs/article-detail-41104 
SSIS高级转换任务—模糊查找
BI项目中经常会有一些提取,转换,数据处理(ELT)的工作,其中最主要的是处理过赃数据。假设在项目中我们向数据库中注入了测试数据,但是通过一个外键从另外一个表中载入数据的时候没有对应的数据,那么这一行就是赃数据。这时候可以使用SQL中的Sound-Ex,full-text,相似度算法等方法查找。这种策略需要花费大量的时间和精力来设计算法,测试,维护,并且它们都是基于词汇的,复用的可能性很小。也可能
http://cyqdata.com/cnblogs/article-detail-40879 
SSIS高级转换任务—关键词查找
和关键词提取一样,关键词查找使用相同的算法和统计模型将输入流中的字符串按照名词或者名词词组进行统计,不同的是它参照一个已经存在的词汇表,输出的统计结果也仅限于这个词汇表中的关键词。关键词提取和关键词查找可以搭配使用。定期地使用关键词提取来产生关键词词汇表,也可以在这个词汇表中人为删除或添加想要统计的关键词,最后使用关键词查找来产生最终的统计结果。 在上一个章节中我们将统计结果中的“mo
http://cyqdata.com/cnblogs/article-detail-40735 
SSIS高级转换任务—关键词抽取
如果你曾经为网站做过单词或短语分析以便获得更好的搜索排名,你会对SSIS的这个任务很感兴趣。关键词提取任务是从文本流中查找并计算关键词的出现频率的工具。它可与接收任何形式的文本,输出两列:一列是关键词,另一列是这个关键词在文本中出现的频率的统计值。这个统计值可以是该关键词出现的次数,也可以是使用稍微复杂一点的计算公式(TFIDF)计算得出的几率值。缩写词TFIDF的全称是Term Frequenc
http://cyqdata.com/cnblogs/article-detail-40671 
SSIS高级转换任务—OLE DB命令
OLE DB Commond任务接受输入流中的行数据并执行一段SQL语句或自定义存储过程。这个转换和Execute Sql任务容易混淆,但是它非常类似于在ADO连接中循环接收一个结果集中的数据,创建,执行一个ADO命令。输入流中的参数数据可以提供给一个Sql命令或者存储过程。这里我们看到“循环”可能就会联想到另外一个词“性能”。这可能涉及到更新,插入
http://cyqdata.com/cnblogs/article-detail-40426 
SSIS高级转换任务—行计数
SSIS中的Row Count转换可以在数据流中计算数据源的行数。这种任务必须将行数保存在一个变量中。这种任务在你不想将数据行数保存在一个物理表中时会很有用。例如在ConditionalSplit任务中使用多个RowCount记录有多少行被分离出来,每个Row Count将使用变量记录分支中的数据行数,可以将这个变量值记录在数据库中,作为邮件信息发送出去,或者在下一个步骤中使用。 一样这个任务需
http://cyqdata.com/cnblogs/article-detail-40378 
SSIS高级转换任务—导出列
好久没有写SSIS了,接着上回的Import Column,这个随笔学习Export Column,这个转换任务用来从数据库中的blob类型的列转换成文件保存到文件系统中或者在Microsoft Word文件或者Microsoft Paint文件中浏览。执行这个task的关键是要有一列包含文件的数据和要导出文件的路径。Export Column会将数据列转换成物理文件,并按照完全限定的路径保存这些
http://cyqdata.com/cnblogs/article-detail-37671 
SSIS高级转换任务—导入列
在SQL Server 2005的beta版本中导入列任务命名为插入列转换,他和导出列任务是一对经常搭配使用的任务,在SQL Server 2005的beta版本中导出列任务命名为文件抽取。当我们搞清楚它们实现什么功能的时候会发现原来的名字更加贴切。这种转换将系统文件路径中的物理文件转化为数据库中的表数据,反之亦然。理解输入列任务的关键是输入源中至少有一列保存将要导入到数据库中的文件的路径,还需要
http://cyqdata.com/cnblogs/article-detail-36907 
SSIS高级转换任务—执行SQL语句
下面的随笔中将讲述SSIS中的高级转换任务,和老旧的SQL Server 2000 DTS相比,我们会发现现在以前的dark-arrow,data-pump任务没有了。在转换任务中隐藏ActiveX脚本和嵌入连接字符的方法也被去除了。在将Package指向不同的数据库的时候也不会忘记修改转换对象,在修改对象连接的时候也一样。现在新建全局连接。转换任务可以被更加容易的管理,使用便捷界面可以浏览任务的
http://cyqdata.com/cnblogs/article-detail-36841 
创建SSIS包—ETL中典型的数据清洗
前面我们熟悉了很多ELT任务,这一个节来讨论复杂点的数据清洗。这里我们要使用的数据源是.dat文件,这种文件在大型主机上,或者是比较老旧的应用系统中非常常见。这个例子的情景是一个信用卡公司,目前正着手于拓展Florida州新成立的一些公司的业务。市场部门每周都会向这些公司发送一些邮件,我们要为所有的邮件准备抽取数据。假设Florida州提供的一个上面这个dat文件,它是从老的计算机系统里面得到的,
http://cyqdata.com/cnblogs/article-detail-36578 
创建SSIS包—建立端到端的package
通过基本task和transforms的学习,现在可以转入到SSIS实际应用。建立端到端的package这个系列中首先讲解将一系列的文件数据导入到SQL Server中的方法,然后添加一些复杂转换,最后将看到如何在package中处理错误和动态地创建package。    创建一个项目 使用SSIS的首要目的是从数据源中读取数据,然后写入Destination中,这个向导介绍从平面文件中读取数据。
http://cyqdata.com/cnblogs/article-detail-36361 
再遇SSIS包与MSSQL问题
最近一直在制作SSIS包,又遇到两个问题,要怪就要怪到微软的头上。SSIS和MSSQL同是微软的产品,当中的原则却有细微差别,不一点一点调试,根本想不到问题会出在哪里... 1.系统函数DAY()在SSIS中使用时会出现多计算2天的情况,比如我的where条件语句如下: where iyear = 2011 and imonth = 3 and iday = DAY(?) “?&
http://cyqdata.com/cnblogs/article-detail-35303 
SSIS包中CASE与NVARCHAR的恩怨
今天在修改SSIS包时,遇到一个很莫名的情况: 将SQL语句 UPDATE [dbo].[Employee]   SET DateOfChange = CASE WHEN (? = ?) THEN ? ELSE GETDATE() END WHERE [SerialNumber] = ? 填入OLE DB Command 组件中,运行后一直报错 “ [
http://cyqdata.com/cnblogs/article-detail-32430