自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

water Wang

每个人都会有觉醒期,只是来的晚或者早罢了。

  • 博客(96)
  • 资源 (12)
  • 论坛 (1)
  • 收藏
  • 关注

原创 datax(7):JobContainer源码解读

前面已经看了Engine,其中有一步就是判断container 是job还是taskGroup类型。本文就好好看看JobContainer。一,概述JobContainer: job实例运行在jobContainer容器中,它是所有任务的master,负责初始化、拆分、调度、运行、回收、监控和汇报,但它并不做实际的数据同步操作1、如果是job类型,则依次执行job的preHandler()、init()、prepare()、split()、schedule()、- post()、post.

2021-01-16 17:57:44 8

原创 datax(6):启动步骤解析

通过前面 datax(2): 通过idea搭建源码阅读+调试环境 已经知道了idea下阅读源码的步骤,现在看下 DataX启动步骤解析一,启动java类(主入口)/** * Engine是DataX入口类,该类负责初始化Job或者Task的运行容器,并运行插件的Job或者Task逻辑 */com.alibaba.datax.core.Engine二,启动的步骤 1、解析配置,包括job.json、core.json、plugin.json三个配置2、设置jobId到config.

2021-01-14 16:34:26 26

原创 Atlas(2):开源数据治理方案

数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要。而适合于Hadoop大数据生态体系的数据治理就非常的重要了。一,元数据管理系统市面上常见的元数据管理系统有如下几个:linkedin datahub: https://github.com/linkedin/datahubapache atlas: https://github.com/apache/atlaslyft amundsen: https://github.com/lyft/amunds.

2021-01-11 11:24:15 49

原创 Atlas(1):前言-从元数据到元数据管理

数据治理是大佬们最近谈的一个火热的话题。不管国家层面,还是企业层面现在对这个问题是越来越重视。数据治理要解决数据质量,数据管理,数据资产,数据安全等等。而数据治理的关键就在于元数据管理,我们要知道数据的来龙去脉,才能对数据进行全方位的管理,监控,洞察。“元数据管理是企业数据治理的基础”,在数据治理战略实施的时候,这是我们经常会听到看到的一句话。但是,数据治理的概念在国内还并未普及,如何打好数据治理的基础更是一头雾水。作为一名企业管理人员、一名IT人员、或者是一名数据行业从业者,理解数据治理的首要任务,.

2021-01-08 20:07:37 33

转载 Kerberos原理--经典对话

“ 读完这篇文章,大概会对Kerberos原理更了解一些吧”原文地址 https://mp.weixin.qq.com/s?__biz=MzU3MTc1NzU0Mg==&mid=2247483805&idx=1&sn=63a8910486a5dcbba011323269e7e190&scene=19#wechat_redirect这是MIT(Massachusetts Institute of Technology)为了帮助人们理解Kerberos的原理而写的一篇对话.

2021-01-06 19:22:57 2677

原创 datax(5):改造升级-自动识别py环境,执行datax任务

1 思考上篇文章已经研究过datax.py文件,产生2个问题:如果用户不是py2环境(datax默认要求环境)怎么处理;能不能有一个脚本自动识别用户的py环境,从而执行datax任务2 效果在py2或py3下执行下面命令>python datax.py ../job/job.json熟悉的配方,熟悉的味道。什么都没有变,但是背后却做了很多事情;3 改造过程3.1 编写py3的datax脚本共计3个文件===datax.py文件===#!/usr/bin/env pyt.

2021-01-05 16:45:05 2922

原创 datax(4): datax.py解读

datax 直接使用py文件进行任务提交,今天读一读它1 文件位置原始文件位置在 xx/DataX/core/src/main/bin/下,datax项目打包后会将文件拷贝到 xx/DataX\target\datax\datax\bin 下。 core模块的pom.xml 指定‘拷贝’datax.py文件的方式maven-assembly-plugin <plugin> <artifactId>maven-asse.

2021-01-05 15:43:36 2942

原创 System.nanoTime() 对比 System.currentTimeMills()

最近在看datax的源码,看到System.nanoTime() ,特地学习记录下;1,上源码 (System类)System.nanoTime() /** * Returns the current value of the running Java Virtual Machine's * high-resolution time source, in nanoseconds. * * <p>This method can only be.

2020-12-12 16:29:35 18

原创 datax(3): win环境cmd乱码

通过前面两篇文章,大家应该已经可以安装成功datax,但是在win的cmd下竟然中文乱码。解决它!!!一,环境win10datax 3.xcmdpy3.x二,现象运行 python \xxx\datax.py \xxx\job.json后控制台乱码三,解决1,临时解决命令:chcp (更改该控制台的活动控制台代码页)过程:cmd 下输入 chcp 65001 改变 当前代码页变为 utf-8编码常用的编码及对应的码值(10进制):十进制码值 对应编码名称950 .

2020-12-11 15:57:03 5194

原创 datax(2): 通过idea搭建源码阅读+调试环境

为了读datax源码,要在本地idea 上进行debug一,环境搭建本地已经按照上文,安装好dataxidea导入datax源码启动类Engine 上配置参数二,参数配置vm option 需要写上你用maven打包后生成的target目录 -Ddatax.home=/xxx/DataX/target/datax/dataxprogram args 写json文件目录-mode standalone -jobid -1 -job /xxx/job.json如下图所示最终效.

2020-12-11 14:11:02 5065

原创 datax(1):编译打包使用

阿里开源的datax默认只支持py2,我将datax进行fork然后修改,现在直接执行datax命令,脚本会检测本地py版本,选择对应的py文件进行处理;一. DataXDataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。二.FeaturesDataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据.

2020-12-11 13:53:38 5117

原创 Oracle 踩坑记录

在 做datax的一些功能测试,需要oracle,中间遇到的一些文件进行记录;1,下载目前10.2, 11.x, 12.x, and 18c已经不支持官网下载企业版;虽然在该页面 https://www.oracle.com/cn/downloads/ 还有11、12、18等连接,但是点击进入,已经不提供下载;我最终下载的是19c;2,安装安装过程中出现“【INS-30014】”谷歌有人说设置本机host,没有成功。最后将本机网络关闭,该文件得到解决,安装过程最后进度条部分会略慢;.

2020-12-05 14:59:55 5006

原创 基础面试3:内存溢出 vs 内存泄漏

一、基本概念内存溢出 out of memory:程序运行过程中申请的内存 > 系统能够提供的内存,导致无法申请到足够的内存;比如申请了一个integer,但给它存了long才能存下的数,那就是内存溢出。举个例子 需求> 供应,当欲望>工资 时候,就会发生 OOM;内存泄露 memory leak:内存泄漏指程序运行过程中分配内存给临时变量,用完之后却没有被GC回收,始终占用着内存,既不能被使用也不能分配给其他程序,于是就发生了内存泄漏。举个例子 油罐里的资源(石油)被人偷了部

2020-11-16 11:38:45 24368 2

原创 基础面试2:git vs SVN

Git 与 SVN 区别Git 不仅仅是个版本控制系统,它也是个内容管理系统(CMS),工作管理系统等。如果你是一个具有使用 SVN 背景的人,你需要做一定的思想转换,来适应 Git 提供的一些概念和特征。Git 与 SVN 区别点:1、Git 是分布式的,SVN 不是:这是 Git 和其它非分布式的版本控制系统,例如 SVN,CVS 等,最核心的区别。2、Git 把内容按元数据方式存储,而 SVN 是按文件:所有的资源控制系统都是把文件的元信息隐藏在一个类似 .svn、.cvs 等的文件

2020-11-14 11:40:54 1223

转载 服务端高并发分布式架构演进之路

看到不错的文章,所以转载到自己csdn原作者:huashiou链接:https://segmentfault.com/a/11900000186261631、概述本文以淘宝作为例子,介绍从一百个并发到千万级并发情况下服务端的架构的演进过程,同时列举出每个演进阶段会遇到的相关技术,让大家对架构的演进有一个整体的认知,文章最后汇总了一些架构设计的原则。2、基本概念在介绍架构之前,为了避免部分读者对架构设计中的一些概念不了解,下面对几个最基础的概念进行介绍。1)什么是分布式?系统中的多个模块在.

2020-11-14 11:29:10 3079

原创 Neo4J 踩坑记录

本文记录安装使用Neo4J过程中的踩过的一些坑一,下载软件官网的下载非常非常慢,建议 从国内下载地址,另外还有个中文学习网站二,安装如果不注意很容易选择最新版本的Neo4j(4.x),安装启动时候才发现,报错信息:警告: ERROR! Neo4j cannot be started using java version 1.8.0_271警告: * Please use Oracle(R) Java(TM) 11, OpenJDK(TM) 11 to run Neo4j Server..

2020-11-13 15:44:48 33340

原创 像yum 一样在windows下命令行管理软件

平常工作中经常会涉及到安装、升级、协助等软件,在linux下使用apt-get,mac下使用brew,win下有没有类似工具,结果还真让我找到了-Chocolatey(巧克力味);1.介绍Chocolatey:windows下的包管理工具1.1类似产品:ubuntu下的apt-getCentOS下的yummac下的brew1.2原理:Chocolatey 的哲学就是完全用命令行来安装应用程序, 它更像一个包管理工具(背后使用 Nuget );另外需要说明的是, Chocolate.

2020-11-10 16:46:42 2732

原创 开源项目贡献代码流程

原来在github上断断续续给许多项目提交过pr(pull requests),比较有成就感的是参与的datax-web项目,目前已近1.8k star。现将开源项目贡献代码流程成文,方便后续更多的同学参与到开源社区。一.整体流程如下图二.详细步骤1.fork作用:在GitHub(或gitlab,gitee)上,将别人项目引出一个新的分支到你的GitHub账号(fork字面意思“叉子”)操作:github项目右上角点击fork,如下图(因为我已经fork过,所以没有fork到waterWa.

2020-11-07 18:05:16 50642 2

原创 基础面试1:单点登录 vs 多点登录

原来做过SSO单点登录,但是在某次面试过程中,面试官问到“多点登录”当时没有回答出,遂记录之;SSO(单点登录)的概念:在一个多系统共存的环境下,用户在一处登录后,就不用再其他系统中登录,也就是用户的一次登录能得到其他所有系统的信任。SSO(单点登录)的应用场景:单点登录在大型网站使用非常频繁,例如阿里巴巴网站,在网站的背后是成白上千的子系统,用户的一次操作可能涉及到几十个子系统的协作,如果每个子系统都需要用户验证,不仅用户会疯掉,各系统也会为这种重复授权搞疯。需要解决的两点:解决如何产生和.

2020-11-04 21:09:39 11429 2

原创 线上CPU过高排查

记录工作点滴。环境linux。1.模拟问题重现/** * linux中写一个Test.java */public class Test { public static void main(String[] args) { int random = 0; while (random < 100) { random = random * 10; } }}#linux 中编译,运行该类>.

2020-11-04 19:33:44 56978 16

原创 谷歌网页存储为pdf或图片

分享发现。在很多的情况下,需要将chrome浏览器的整个网页保存为图片或pdf。一,网页-》pdf两种方式1,快捷键 ctrl+p(win系统,mac应该是cmd+p)调出打印设置界面2,鼠标点击 调出打印设置界面修改打印配置“另存为pdf”,点击"保存"即可将整个网页保存为pdf二,pdf-》图片直接打开PDF,选择“开始”—》“PDF转图片”...

2020-11-03 11:19:52 15415

原创 项目集成到nacos

本文只介绍其他项目集成到nacos,关于nacos基本概念,nacos项目地址,请自行查阅整体流程(假设nacos服务端已经部署),一添加pom依赖,二项目添加nacos配置,三 nacos服务端添加项目配置一,pom依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSche.

2020-11-02 19:32:52 19005 6

原创 markdown与富文本在线转换

背景:工作中已经习惯markdown,但是有的网站还是使用富文本编辑,就需要将原本的markdown修改为富文本;1,按照google插件在谷歌商店应用商店搜索“Markdown Here”并下载安装,如下图2,在线转换在富文本编辑窗口,选择需要转换的markdown内容,然后点击“markdown here”3,效果展示...

2020-10-24 10:28:53 20859

原创 大数据自定义函数udf

本文为工作中的一些小积累。一,udf含义&作用UDF指用户定义函数,即在hive中进行客户化的函数。在实际应用中,我们需要根据实际的业务需求自定义开发这种函数,自定义函数的例子参考文档: Hive PluginsUDF函数一共分为三种类型: ​UDF-一进一出,给定一个参数,输出一个处理后的数据 ​UDAF-多进一出,属于聚合函数,类似于count、sum等函数 ​UDTF-一进多出,属于一个参数,返回一个列表作为结果#在sql中可以show functions;展示目前系统已.

2020-10-23 17:30:30 26573

原创 uKey双向认证https

最终效果,插上uKey(专业术语叫uKey,长得像一个普通的u盘),可以访问某个web系统,拔掉uKey,web系统显示没有权限一 基础概念单向认证:当客户访问服务器的时候,客户方去校验服务器是否是自己想去访问的服务器;双向认证:不仅仅需要用户浏览器校验服务器数字证书,还需要服务器端验证用户是否是可信的;二 单向认证流程(springboot项目为例)1 制作证书直接利用keytools工具生成keytool -genkey -alias client -keyalg RSA.

2020-10-19 17:39:00 17105 2

原创 三方应用通过HTTP接入Linkis

三方应用通过HTTP接入DataSphereStudio

2020-09-17 13:48:55 22630

原创 设置superset可以匿名访问图表

目标:匿名(不需要登录)即可访问superset图表

2020-09-16 14:23:28 8999

原创 kafka入门

使用kafka有一段时间了,最近有点空闲。把kafka总结下。一.简介官网  Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制

2017-01-03 16:50:18 8017

原创 Git工作流记录

使用了很久Git,包括也给同事分享过Git的一些东西,今天偶尔看到一篇文章将Git工作流。感觉很好,摘出其中的一部分分享。原文地址 http://www.runoob.com/w3cnote/git-guide.html工作流你的本地仓库由 git 维护的三棵”树”组成。第一个是你的 工作目录,它持有实际文件;第二个是 暂存区(Index),它像个缓存区域,临时保存你的改动;最后是 HEAD,它指

2017-01-03 16:23:03 5384

原创 configure Spring Data JPA by using XML

if you want to configure Spring Data JPA by using XML configuration (and use the configuration described in the book), you have to follow these steps:Configure the data source bean.Configure the entit

2016-12-30 10:17:42 19469

原创 Spring Boot 动态数据源(多数据源自动切换)

本文实现案例场景: 某系统除了需要从自己的主要数据库上读取和管理数据外,还有一部分业务涉及到其他多个数据库,要求可以在任何方法上可以灵活指定具体要操作的数据库。为了在开发中以最简单的方法使用,本文基于注解和AOP的方法实现,在spring boot框架的项目中,添加本文实现的代码类后,只需要配置好数据源就可以直接通过注解使用,简单方便。一配置二使用 1. 启动类注册动态数据源 2. 配置

2016-12-30 10:15:32 19375

原创 Spring Boot 集成Swagger

Swagger 是一个规范和完整的框架,用于生成、描述、调用和可视化 RESTful 风格的 Web 服务。总体目标是使客户端和文件系统作为服务器以同样的速度来更新。文件的方法,参数和模型紧密集成到服务器端的代码,允许API来始终保持同步。Swagger 让部署管理和使用功能强大的API从未如此简单。更多关于Swagger的作用,相信大家百度一下能了解的更全面,本文以SpringBoot中集成Swa

2016-12-30 10:13:35 19472

原创 Spring注释与简化配置

在Spring 2.5及以后的版本中,提供了注释和命名空间来简化Spring的配置。下面是一些常用配置分享。1、@Autowired注释  以前给一个Bean配置属性时,Bean必须配置<property name="propName" ref="beanId"/>,然后在Java文件,还必须增加属性propname的getter和setter方法。 有了@Autowired注释后,我们可以简化

2016-12-30 10:10:50 19550

原创 spring-loaded 实现web项目热部署

github: ==https://github.com/spring-projects/spring-loaded==doc: ==http://docs.spring.io/spring-boot/docs/current/reference/html/howto-hotswapping.html==参考文档: ==http://www.2cto.com/os/201505/400895.

2016-12-30 10:08:01 18728

原创 pom.xml的元素标签

<project> <modeIVersion> <groupId> <artifactId> <packaging> <version> //之前用过了这些标签,这里提一下version: "0.0.0" ,第一位表示大版本号,第二位表示分支版本号,第三位表示小版本号。<name> //标签指项目描述名称<url> //项目地址<description> //项目描述<developers>

2016-12-30 10:06:05 19166

原创 spring整合rmi 如何使用安全策略

spring整合rmi 后,想要使用安全策略,之后是自己写一个rmi.policy文件,里面写着授权哪些IP有哪些权限,但是我要怎么导入到spring中呢? 这个问题真的木有人会吗? 我要限制连接RMI的IP,要如何限制,结合SPRING配置。如何弄?不用policy文件,用spring的interceptor试试:<bean class="org.springframework.remoting

2016-12-30 10:01:03 18864

原创 zookeeper搭建

先给一堆学习文档,方便以后查看 官网文档地址大全:OverView(概述)http://zookeeper.apache.org/doc/r3.4.6/zookeeperOver.htmlGetting Started(开始入门)http://zookeeper.apache.org/doc/r3.4.6/zookeeperStarted.htmlTutorial(教程)http://zookee

2016-12-30 10:00:08 18405

原创 spring boot 配置liquibase

java@Bean public SpringLiquibase liquibase(DataSource dataSource) { SpringLiquibase liquibase = new SpringLiquibase(); liquibase.setDataSource(dataSource); liquibase.setChan

2016-12-29 15:45:05 20851

原创 eclipse无法进入调试程序

菜单栏Window→Preferences→Java→Debug 去掉suspend execution on uncaught exceptions和Suspend execution on compilation errors前面两个勾勾,再把Debugger timeout(ms)设置为不少于15000ms

2016-12-28 14:32:45 25060

原创 jenkins安装

jenkins 配置https://my.oschina.net/u/260244/blog/318755http://www.cnblogs.com/gao241/archive/2013/04/08/3008380.html插件下载地址https://wiki.jenkins-ci.org/display/JENKINS/HomeEmail Extension Plugin (邮件通知) GI

2016-12-28 14:31:00 22924

kingbase8-8.2.0.jar

kingbase8-8.2.0.jar,是链接人大金仓数据库的jar文件

2021-01-13

ePass1000ND 开发包.rar

对ukey中双向认证的key进行正删查,ukey插上电脑后自动识别ukey中的证书

2020-10-14

https双向认证ukey管理软件

https双向认证ukey管理软件

2020-10-14

Navicat for MySQL绿色版

Navicat for MySQL绿色版

2016-09-01

mysql-5.5.20-winx64

mysql-5.5.20-winx64

2016-09-01

mysql_5.6.24_winx64

mysql_5.6.24_winx64

2016-09-01

测试驱动开发(中文完整版-带书签)

测试驱动开发(中文完整版-带书签)

2016-08-30

单元测试之道Java版:使用JUnit

单元测试之道Java版:使用JUnit

2016-08-30

Pragmatic Unit Testing

Pragmatic Unit Testing

2016-08-30

clean_code(中文完整版)

clean_code(中文完整版)

2016-08-26

sqlyog10绿色版

sqlyog10绿色版

2016-07-25

navicat for mysql破解版

先安装navicat,然后执行patch navicat指向navicat.exe

2016-07-25

water___Wang的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除