网络编程(network programming)
1、何为网络遍程
1.1 网络编程是网站、网页编程的底层基础,但与他们不相等、不同。
网络编程,对于高级开发语言面言,多是指基于socket的编程,
也就是面向tcp/udp的编程。
而网页编程,多是面向http协议编程。它是以网络编程为底层基础的。
通过网络编程的参考模型可知。
JavaSE学习笔记02--网络编程
JavaSE-网络编程
并发一高,会导致通讯变慢等情况。
解决这一问题,可以通过java nio编程,即非阻塞方式,即通道channel和选择器selector来搞定。
NetChartDemo_1
src
com.ztl.controler
SystemController();//系统启动器
com.ztl.iface.parser
IMessageParser();
com.ztl.iface.thread
IServerSocketThread();
com.ztl.impl.parser
MessageParserImpl();
大数据采集学习笔记01-实时热点
APP热点标签分析
需求分析
给定一批app名称及其描述信息,共52.9万条数据
其内容结构为,共包含6个字段,分别为(appId,app名称,一级分类,二级分类,三级分类,Tags描述信息),但并不一定完全规整,视实际情况可能做对齐包括4个或5个或6个字段。
通过大数据开发之hive数据仓库命令行形式,完成数据加载,udf/udaf/udtf函数,统计分析的任务,并演示项目效果即可。
主要思路
通过hive命令将数据加到数据仓库中
使用hql+udf/udaf/udtf完成统计分析
将统计分析结果插入到hive中自建的新表中
主要考点
hive及hiveSQL常用命令
系统函数+udf/udaf/udtf灵活使用
hive常见问题的解决
大数据日志分析学习笔记01--IP地址查找
IP地址查找
myhope365.com
大数据日志分析中,经常会根据访问的来源IP地址
来判定该访客的所属省,市,区甚至更精准的位置信息。从而对该访问打上相应的位置标签
现在各大搜索引擎或专门IP服务公司,均提供类似的服务
需求分析:
通过命令行来演示项目效果即可,查找用时要求再ms内完成
IP地址库思考:很多公司在提供相应的服务,说明这方面的服务是有相应的公开数据的,只是细节更新上各有差异
IP地址库开放位置:
https://pan.baidu.com/s/1Iu0FrjYIP1QtoL63_w48Ug
899x (失效)
通过相应的地址库搜索或是查找算法,实现给定IP地址,找到其对应位置信息的功能
信息收集网址大全01
一、查企业查信用 1、信用中国 http://www.creditchina.gov.cn/
2、全国企业信用信息公示 http://gsxt.saic.gov.cn/(导航) http://gsxt.saic.gov.cn/zjgs/(总局)
3、信用导航 http://www.creditchina.gov.cn/toNavigation
4、企信宝 http://www.qixin.com/
5、企业信用信息查询APP http://www.ixy360.com/
天亮爬虫学习笔记03
分布式爬虫
中级版-问题列表-待完善
1.UI
1.1 数据来源不够丰富,目前来源于文件不够灵活。
增加来源:
1)数据库可以添加
2)web界面可以自由添加任务
2.TaskSchedule
2.1 恢复机制进行升级解耦,用redis作为中间存储解耦
恢复机制很麻烦,是由于解耦不当造成的,需要持久化的数据放到了第三方内存数据库中
比如:doneURL,doneTask等都放到了内存中,导致关机或是重启进程均丢失
故要将该性质的数据进行独立存储,则关机或关进程就不需要恢复了