SEO外包平台,我们为您提供专业的企业网站SEO整站优化外包服务 SEO设置

SEO外包平台

专注于企业网站SEO整站优化外包服务

网站日志分析

作者:jcmp      发布时间:2021-04-14      浏览量:0
通过flume上传到hdfs的文件,如果

通过flume上传到hdfs的文件,如果不满足滚动条件的话,文件会一直处于tmp的状态的,需要进行控制。

解决方法:flume基于闲置时间的策略实现滚动

hdfs.idleTimeout: 默认是启动的,对应的是0.如果指定时间为30s的话,表示的是30s之内如果没有数据的话,即其他的滚动条件不满足的话,此时这个条件也是会触发文件的滚动的,避免文件一直处于临时状态。

数据预处理的操作逻辑:

1.前面文件已经全部上传到了hdfs中的,下面需要对于数据进行预处理操作,进行清理,填充和过滤操作实现的。

在正式处理数据之前,对于之前收集的数据进行预先处理的操作逻辑和实现操作。

将不干净的数据,不规则的数据通过预处理变成格式统一的规整的结构化数据。

mapreduce中的key相关的操作的

1)分区-------key 哈希,确定分区的个数,默认的分区是1个的,修改分区的话,需要修改默认的分区规则;

2)分组-------key相同的为一组,

3)排序--------:根据key的字典序排序操作。

mapreduce的阶段是可以没有reduce阶段的。job.setReduceTasks(0) 对应的是设置reduceTask的个数是0个的。

mapreduce的编程技巧:

1.设计多属性数据传递:通常采用javabean传递数据,需要实现hadoop的序列化机制,writeComparable的机制的。对应的使用javabean作为key,对应的nullwriteable作为value实现业务逻辑处理。

2.后面的数据需要使用hive进行处理操作的,对应的分隔的字段可以使用\001作为分隔的字段进行字段的切割操作,便于后续的数据的hive输入操作逻辑。

3.针对本地分析无效的数据,通常采用建立标记位的形式实现逻辑删除操作。

#  下面是显示空格以及制表符的快捷键的操作逻辑:

nodepad中判断字段的分隔符号时空格还是\t的制表符的操作逻辑:

notepad------>视图------>显示符号--------->显示空格与制表符。

mapreduce的关键对应的是需要确定key的内容是什么内容的。

点击流模型:对应的根据网站的用户的点击行为形成的点击流程的虚拟线路。主要的操作目标是分析用户的点击行为,对应的角度是站立于用户的角度上进行操作的。

点击流的线路时间范围识别:通常业界一前后2条记录的事件间隔是否在30分钟以内作为判断标准的,如果小于30分钟作为一个会话处理,大于30分钟作为一个新的会话进行处理操作。

点击流模型的模型分类:对应的都是根据业务指标统计而来的

1)点记录模型对应的和会话相关的模型的,需要找到不通过用户的数据的。

划分为同一个用户的操作逻辑如下:根据ip作为key实现区分操作;或者是根据用户id等作为key唯一区分同一个用户。

2)判断存在多少个会话:

首先需要根据时间的正序进行排序操作,以前后两条记录的时间差大于30分钟作为会话区分间隔的标准。

3)在每一个会话内进行步骤号的表示和计算每一步的停留时间进行处理。

1)对应的需要以session的session_id作为key进行会话区分操作实现。

企业中对应的生成的会话session是要求不能重复的,需要有一个底层的保证的uuid的。

维度建模:是设计数据库的基础的。维度建模对应的是创建数据库和表之间的关联关系的。

维度建模:以维度为标准,开展数据的分析需求,适用于面向分析的理论,比喻分析型数据库,数据仓库,数据集市(OLAP)。

维度建模:包括事实表(一个订单或者是一条日志),是对于分析主题的一个客观度量。往往是一堆主键的堆积。维度表:看待问题的角度,可以根据不同的维度取分析同样的一个事实表。维度表可以和事实表进行关联分析的。使用的较多的就是维度建模的概念的。

多维数据分析:通过不同维度的聚合计算出某种维度值。例如:统计来自于北京地区的24岁的未婚的过去3年购物进入最大的前面3个。

背景:地域,24岁:年龄维度;未婚:婚姻维度,过去三年:时间

度量值:sum(订单金额)-------> top 3

维度建模的3中模式:

1.星型模型模型:以事实表为中心,维度表围绕着事实表进行设计。适用于数仓发展的初期,建立的模型不多的情况下可以使用这个的。

2.雪花模型:在维度表的基础上扩展维度表进行操作的,不是很好维护和理解,很少使用。不要将数仓设计为这种模型的。

3.星座模式:拥有多个事实表。对应的是数据仓库发展的中后期使用的。多个事实表和多个维度表,某些维度表是可以共用的,维度表支撑事实表进行数据分析操作。

下面有如下的需求:分析公司订单的销售情况。

事实表:对应的是订单表

维度表:分析维度,1.地域维度进行分析;2.时间维度分析;3.商品维度进行分析;4.销售渠道;5.

需求:公司网站的访问情况

事实表:网站的访问日志表

维度表:1.时间维度;2.栏目维度(生鲜,军事);3.根据终端维度(手机端,pc端进行优化);

下面是网站的流量访问日志需求的,下面针对于这个需求开展分析操作。

事实表的数据:对应的是清洗完成(ETL)之后的网站的数据的。维度表是由业务来决定的。维度表一个需要和事实表进行关联操作的。根据业务决定分析的维度,需要和事实表关联上的。要以能够涵盖事实表为基准标准进行操作的。要求维度表的数据需要大于或者是等于对应的维度进行分析的。

点击流模型的数据表对应的是什么表:点击流模型既不是事实表也不是模型表,对应的是一个业务数据的。可以理解为一个事实表的业务延伸的。

ETL工作的实质就是从各个数据源提取数据,对数据进行转换,并最终加载填充数据到数据仓库维度建模后的表中。

数据仓库的核心:面向主题。1.首先需要确定分析主题;2.基于主题寻找与之关联的数据(事实表的数据);3根据业务确定分析的维度;4.采集收集数据,对数据进行预处理操作;5将数据填充到数仓建设好的表中,映射成功,开展后续分析;

数据入库(ETL):对应的是抽取,转换和加载操作。专业说法称之为ETL操作。经过抽取,转换加载将各个不同的数据源数据加载到数据仓库指定的主题下面。跟对应的事实表映射上,便于后续的数据分析操作。