Upload
others
View
15
Download
0
Embed Size (px)
Citation preview
Python在金融领域的应用与创新
华能贵诚信托有限公司
金融科技实验室
1.Python舆情监控系统
2.华能信托及个人简介
4.华小智金融科技实验室
3.舆情监控详细代码分析
目录
CHAPTER 1
Python舆情监控系统
舆情监控系统 - 视频简介HUMANS ARE CREATIVE BEINGS. IF IT IS NOT REAL TEXT, THEY WILL FOCUS ON THE DESIGN.
视频太大了,我就留个网址吧
舆情监控视频:https://v.youku.com/v_show/id_XMzgzOTY0ODI2OA==.html?spm=a1z3jc.11711052.0.0&isextonly=1
智能办公视频(这个是用VBA写的,之后想用Python写):https://v.qq.com/x/page/h0626qo1fju.html
Video Interview全面席卷投行
人才招聘的未来走向
联合利华率先在招聘中采用AI视频面试高盛、小摩、大摩、黑石、贝莱德、贝恩等纷纷采用video interview做为新的首轮视频面试方式
高效筛选候选人
视频面试软件可以帮助优秀的应聘者脱颖而出,便于招聘者重点关注这些候选人。
总结归纳理想候选人
视频面试软件结合了专利语音识别软件以及获得许可的面部识别软件,并协同排名算法,确定最接近理想人选的候选人。
HUANENG GUICHENG TRUST CORPORATION LTD.
CHAPTER 2
华能信托及个人简介
公司介绍Huaneng Guicheng Trust Corporation Ltd.
受人之托代人理财
在原黔隆国际信托基础上
由华能资本增资扩股重组而成
年收入达32亿元(312人)全国信托行业综合排名第三名
管理资产规模达4215亿跃居全国信托行业第八名
Past Future
华能信托简介HUANENG GUICHENG TRUST CORPORATION LTD.
个人简介HUANENG GUICHENG TRUST CORPORATION LTD.
1 上海交通大学本科、宾夕法尼亚大学硕士
王宇韬 华能信托金融科技实验室发起人
CFA、FRM、AQF
2 华能信托华小智金融科技小组组长
3 《Python金融大数据挖掘与分析全流程详解》作者
公司介绍Huaneng Guicheng Trust Corporation Ltd.
TALK IS CHEAPSHOW ME THE CODE
CHAPTER 3
舆情监控详细代码分析
Python舆情监控
43
2
6
1
5
百度新闻批量爬取
24小时不间断爬取
舆情预警系统
数据清洗及优化
IP代理与反爬
舆情评分系统
HUANENG GUICHENG TRUST CORPORATION LTD.
Python舆情监控HUANENG GUICHENG TRUST CORPORATION LTD.
四行代码爬取Python官网:
# 爬虫初尝试import requests
url = 'https://www.python.org'
res = requests.get(url).text
print(res)
源代码公布平台 – MoAI
43
2
6
1
5
百度新闻批量爬取
24小时不间断爬取
舆情预警系统
数据清洗及优化
IP代理与反爬
舆情评分系统
HUANENG GUICHENG TRUST CORPORATION LTD.
代码公布平台 - Mo
43
2
6
1
5
百度新闻批量爬取
24小时不间断爬取
舆情预警系统
数据清洗及优化
IP代理与反爬
舆情评分系统
HUANENG GUICHENG TRUST CORPORATION LTD.
代码公布平台 - Mo
43
2
6
1
5
百度新闻批量爬取
24小时不间断爬取
舆情预警系统
数据清洗及优化
IP代理与反爬
舆情评分系统
HUANENG GUICHENG TRUST CORPORATION LTD.
Python舆情监控HUANENG GUICHENG TRUST CORPORATION LTD.
核心代码:
import requests
import re
Headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;
Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/69.0.3497.100 Safari/537.36'}
url=‘https://www.baidu.com/s?tn=news&rtt=1&bsst=1
&cl=2&wd=阿里巴巴’
res=requests. get(url, headers=headers).text
print(res)
百度新闻批量爬取HUANENG GUICHENG TRUST CORPORATION LTD.
爬取百度新闻的批量信息:
通过对相关信息的正则提取,并将得到
的信息进行数据清洗,过滤掉无关信息
和干扰信息,之后将整理好的有效信息
进行输出,得到我们想要的新闻结果。
百度新闻批量爬取HUANENG GUICHENG TRUST CORPORATION LTD.
爬取结果如下:
百度新闻批量爬取HUANENG GUICHENG TRUST CORPORATION LTD.
正则表达式提炼相关信息
获取新闻的来源和日期:
获取新闻的网址和标题:
import re
p_info = '<p class="c-author">(.*?)</p>'
info = re.findall(p_info, res, re.S)
print(info)
p_href = '<h3 class="c-title">.*?<a href="(.*?)"'
href = re.findall(p_href, res, re.S)
p_title = '<h3 class="c-title">.*?>(.*?)</a>'
title = re.findall(p_title, res, re.S)
数据清洗及优化HUANENG GUICHENG TRUST CORPORATION LTD.
(1) 清理新闻标题
新闻标题的主要问题:
1. 每个标题开头结尾含有\n换行符和一些
空格;
2. 中间则含有一些<em>和</em>等无效
字符。首先用字符串.strip()函数的方法
把不需要的空格和换行符去掉:
for i in range(len(title)):
title[i] = title[i].strip()
title[i] = re.sub('<.*?>','',title[i])
数据清洗及优化HUANENG GUICHENG TRUST CORPORATION LTD.
(2) 清理新闻来源和发布日期
现在来清理下新闻来源和发布日期,由于
获取到info列表里的主要问题为:1.夹杂
着很多<img ***>等的图片标签信息,需
要将其清除掉;
2.来源和日期都在一起了,需要把它分开;
3.来源和日期的首尾都有一些空格和换行
符等内容,需要把它们清理掉。
source = []
date = []
for i in range(len(info)):
info[i] = re.sub('<.*?>', '', info[i])
source.append(info[i].split(' '
)[0])
date.append(info[i].split(' ')[
1])
source[i] = source[i].strip()
date[i] = date[i].strip()
24小时不间断爬取HUANENG GUICHENG TRUST CORPORATION LTD.
我们已经可以进行批量爬取以及通过异常处理来避免程序中断了,那么倘若想24小时不间
断地对每家公司进行实时爬取,就需要通过while True不间断循环,每隔3600秒(1小时)
爬取一次所有公司内容。
while True:
companys = ['华能信托','阿里巴巴','万科集团']
for i in companys:
try:
baidu(i)
print(i + '百度新闻爬取成功')
except:
print(i + ‘百度新闻爬取失败')
time.sleep(3600)
舆情评分系统HUANENG GUICHENG TRUST CORPORATION LTD.
1. 数据乱码的处理
当我们通过爬虫获得的编码和网址实
际的编码UTF-8不一致时,就会导致怕
去的数据出现乱码的现象。
通过右面的代码,进行多次编码解码
尝试,可以解决乱码的问题。
import requests
url = 'https://www.baidu.com'
res = requests.get(url).text
try:
res = res.encode('ISO-8859-
1').decode('utf-8') # 方法3
except:
try:
res = res.encode('ISO-8859-
1').decode('gbk') # 方法2
except:
res = res # 方法1
print(res) # 乱码问题解决
舆情评分系统HUANENG GUICHENG TRUST CORPORATION LTD.
2. 版本1 - 根据标题评分
通过提炼新闻的标题信息,进行关
键词提取分析,进行合理打分。
核心代码如右图所示
score = []
keywords = ['违约', '诉讼', '兑付', '阿里', '百度', '
京东', '互联网']
for i in range(len(title)):
num = 0
for k in keywords:
if k in title[i]:
num -= 5
score.append(num)
舆情评分系统HUANENG GUICHENG TRUST CORPORATION LTD.
3. 版本2 - 根据标题和内容评分
通过爬取新闻的标题、正文信息,进行
关键词提取分析,进行分数计算。
核心代码如右图所示
score = []
keywords = ['违约', '诉讼', '兑付', '阿里', '百度', '京东', '互联网']
for i in range(len(title)):
num = 0
# 爬取正文try:
article = requests.get(href[i], headers=headers,
timeout=10).text
except:
article = '单个新闻爬取失败'
# 对正文和标题进行评分for k in keywords:
if (k in article) or (k in title[i]):
num -= 5 # 就是num = num -5
score.append(num)
舆情评分系统HUANENG GUICHENG TRUST CORPORATION LTD.
4. 版本3 – 过滤不相干新闻
通过正则匹配,筛选掉不相干新闻,
之后再根据标题和正文内容进行评分。
核心代码如右图所示
# 编写正则提炼信息p_href = '<h3 class="c-title">.*?<a
href="(.*?)"'
p_title = '<h3 class="c-title">.*?>(.*?)</a>'
href = re.findall(p_href, res, re.S)
title = re.findall(p_title, res, re.S)
# 数据清洗及舆情评分打印for i in range(len(title)):
title[i] = title[i].strip()
title[i] = re.sub('<.*?>', '', title[i])
print(str(i + 1) + '.' + title[i])
print(href[i])
print(company + '该条舆情评分为' +
str(score[i]))
舆情预警系统HUANENG GUICHENG TRUST CORPORATION LTD.
Python可以模拟多种邮箱进行邮件发送,舆情预警系统即基于这一功能,将舆情分析报告整理,自动发送给用户,来达到提醒、预警相关人员的效果。
舆情预警系统HUANENG GUICHENG TRUST CORPORATION LTD.
通过Python设置自动发送邮件功能
1. 设置正文内容
2. 设置邮件主题、发件人、收件人
3. 设置端口发送邮件
IP代理与反爬HUANENG GUICHENG TRUST CORPORATION LTD.
IP代理:
IP代理就是IP伪装,把本机的IP伪装成其他的IP地址。IP代理商那边一般拥有海量IP地址,这些
海量IP地址被称为IP代理池。所需做的就是在这个IP代理池里提取IP地址,然后写到Python程
序里,这样就可以把自己的IP伪装成别的IP,从而躲过某些网站对于固定IP访问次数的限制。
IP代理与反爬HUANENG GUICHENG TRUST CORPORATION LTD.
IP代理使用方法:
1. proxy = 'IP代理地址’ 就是从网上购买的IP代
理地址
2. proxies = {“XXX”} 是配置IP代理的固定写法,
其作用在于将代理}配置到http和https协议上。
3. 访问的网址,这边设置为“https://ip.cn/”,
因为它能够查看当前所使用的IP地址,可以查看IP
是否调用成功。
4. 在访问具体网址的时候需要把代理加进去即可。
import requests
proxy = 'IP代理地址' #这个是需要购买的proxies =
{"http":"http://"+proxy,"https":"https://"+proxy}
url = 'https://ip.cn/'
res = requests.get(url, proxies = proxies).text
IP代理与反爬HUANENG GUICHENG TRUST CORPORATION LTD.
反爬:
除了IP代理外,我
们还通常使用
Selnium库来进行
反爬,Selenium
是个非常好用的
库。
知识产权HUANENG GUICHENG TRUST CORPORATION LTD.
2019年1月20日
荣获中国版权局软件著作权
未来发展
SAS版舆情监控
多系统融合-Python生态链
人工智能再升级
✓ 在网站上注册账号即可使用华小智面试宝;
✓ 新增微信端舆情监控,面向更广阔的世界。
✓ 更加智能的交互,如自然语言处理;
✓ 紧随技术发展,增强自身核心竞争力。
✓ 融合微信小程序、企业微信等生态;
✓ 一个完整的智能Python生态链。
舆情监控2.0
HUANENG GUICHENG TRUST CORPORATION LTD.
CHAPTER 4
华小智金融科技实验室
华小智金融科技实验室
43
2
6
1
5
华小智面试宝
资金雷达
大数据风控
RPA流程自动化
华小智语音助手
智能问答机器人
HUANENG GUICHENG TRUST CORPORATION LTD.
华小智面试宝HUANENG GUICHENG TRUST CORPORATION LTD.
华小智面试宝HUANENG GUICHENG TRUST CORPORATION LTD.
知识产权HUANENG GUICHENG TRUST CORPORATION LTD.
2019年9月10日
荣获中国版权局软件著作权
大数据风控 – 机器学习HUANENG GUICHENG TRUST CORPORATION LTD.
大数据风控 – 机器学习HUANENG GUICHENG TRUST CORPORATION LTD.
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier(max_depth=3)
clf = clf.fit(X_train, y_train)
入门机器学习并不复杂!
RPA流程自动化HUANENG GUICHENG TRUST CORPORATION LTD.
智能问答机器人HUANENG GUICHENG TRUST CORPORATION LTD.
招聘、业务咨询 日常交流沟通各种知识查询
量化金融 – 炼数成金HUANENG GUICHENG TRUST CORPORATION LTD.
前10分钟成交量涨跌幅
当日股价涨跌幅
出书HUANENG GUICHENG TRUST CORPORATION LTD.
出书 – 欢迎大家一起来协作HUANENG GUICHENG TRUST CORPORATION LTD.
《Python金融大数据挖掘与分析实战》
《Python大数据分析与机器学习商业案例实战》
《Python智能AI机器人商业实战》
《零基础Python爬虫从入门到精通》
《Python量化金融-智能选股策略实战》
华能信托-华小智慈善信托计划HUMANS ARE CREATIVE BEINGS. IF IT IS NOT REAL TEXT, THEY WILL FOCUS ON THE DESIGN.
欢迎大家交流沟通Huaneng Guicheng Trust Corporation Ltd.
Q&A
讲解完毕,谢谢!