class: center, middle, inverse, title-slide # 大数据与金融 ## 简介 ### 吴燕丰 ### 江西财大, 金融学院 ### 2021/03/30 --- ## 第三章 大数据与人工智能 ### <span style='color:red'>第一节 传统金融数据</span> ### 第二节 外沿大数据及工具介绍 ### 第三节 大数据在金融中的应用 --- ### 传统金融数据 .pull-left[ 标准化的金融产品 - 股票数据 - 债券数据 - 商品数据 - 外汇数据 - 。。。 ] .pull-right[ 非标准化的金融产品 - 存贷款数据 - 保险数据 - 抵押数据 - 金融合约 - 。。。 ] 金融行业具有专门从事数据整理分析的企业。在国内做的很好的企业——万得(Wind)。 --- ### Wind金融终端--股票  --- ### Wind金融终端--债券  --- ### Wind金融终端--商品  ??? ### Wind金融终端--外汇  ### Wind金融终端--基金  ### Wind金融终端--指数  ### Wind金融终端--宏观  ### Wind金融终端--风控  --- ### Wind资讯金融终端--使用说明 - 学生需到图书馆或者学院公共机装有万得金融终端的电脑使用。 - 老师可以申请账号在自己电脑使用,需提供以下信息:姓名、手机、邮箱、校园一卡通照片或者工作证明,需要在官网www.wind.com.cn下载金融终端。 <iframe width=850 height=380 src='http://lerms.jxufe.edu.cn/ermsClient/eresourceInfo.do?rid=838'></iframe> --- ### Wind数据导出  --- ### Wind数据导出  --- ### Wind数据导出  [Temp.xlsx](Temp.xlsx) --- ### Wind金融终端--量化  --- ### Wind API接口 ```python from WindPy import w w.start() # 默认命令超时时间为120秒,如需设置超时时间可以加入waitTime参数,例如waitTime=60,即设置命令超时时间为60秒 w.isconnected() # 判断WindPy是否已经登录成功 w.stop() # 当需要停止WindPy时,可以使用该命令 ``` -- API WindPy 安装 注意: WindPy安装与一般情况不一样。 假设: - Anaconda版本Python安装在`C:\Users\xmlon\Anaconda3`目录 - Wind终端安装在`C:\Wind\WInd.NET.Client\WindNET`目录(目录下有bin等等子目录) ```bash C:\Users\xmlon\Anaconda3\python.exe C:\Wind\Wind.NET.Client\WindNET\bin\installWindPy.py C:\wind\wind.net.client\windnet ``` --- ### 获取日时间序列函数WSD `w.wsd(codes, fields, beginTime, endTime, options)` ```python # 任取一只国债010107.SH六月份以来的净值历史行情数据 history_data=w.wsd("010107.SH", "sec_name,ytm_b,volume,duration,convexity,open,high,low,close,vwap", "2018-06-01", "2018-06-11", "returnType=1;PriceAdj=CP", usedf=True) # returnType表示到期收益率计算方法,PriceAdj表示债券价格类型‘ history_data[1].head() ``` <br><br> 支持股票、债券、基金、期货、指数等多种证券的基本资料、股东信息、市场行情、证券分析、预测评级、财务数据等各种数据。 wsd可以支持取 **多品种单指标** 或者 **单品种多指标** 的时间序列数据。 ??? ytm_b: yield to maturity VWAP: Volume Weighted Average Price --- ### 获取日截面数据函数WSS `w.wss(codes, fields, option)` ```python # 取被动指数型基金最新业绩排名 fund=w.wset("sectorconstituent","date=2018-06-11;sectorid=2001010102000000").Data[1] error_code,returns=w.wss(fund, "sec_name,return_1w,return_1m,return_3m,return_6m,return_1y,return_ytd,fund_fundmanager", "annualized=0;tradeDate=20180611",usedf=True) returns.head(10) ``` <br><br><br> 同样支持股票、债券、基金、期货、指数等多种证券的基本资料、股东信息、市场行情、证券分析、预测评级、财务数据等各种数据。但是WSS支持取多品种多指标某个时间点的截面数据。 --- ### 获取分钟序列数据函数WSI `w.wsi(codes, fields, beginTime, endTime, options)` ```python # 取IF00.CFE的分钟数据 from datetime import * codes="IF00.CFE"; fields="open,high,low,close"; error,data=w.wsi(codes, fields, "2017-06-01 09:30:00", datetime.today(), "",usedf=True) #其中,datetime.today()是python内置的日期函数,表示当前时刻。 ``` --- ### 获取日内tick数据函数WST `w.wst(codes, fields, beginTime, endTime, options)` ```python # 提取平安银行(000001.SZ)当天的买卖盘数据。 from datetime import * # 设置起始时间和截止时间,通过wst接口提取序列数据 begintime=datetime.strftime(datetime.now(),'%Y-%m-%d 09:30:00') endtime=datetime.strftime(datetime.now(),'%Y-%m-%d %H:%M:%S') # last最新价,amt成交额,volume成交量 # bid1 买1价,bsize1 买1量 # ask1 卖1价, asize1 卖1量 codes="000001.SZ" fields="last,bid1,ask1" w.wst(codes,fields,begintime,endtime) ``` <br><br><br> 用获取国内七个交易所(上海交易所、深圳交易所、郑商所、上金所、上期所、大商所、上金所)证券品种的日内盘口买卖五档快照数据和分时成交数据(tick数据). --- ### 其他的方法 |方法名称|使用语法| |--------|--------| |实时行情数据函数 WSQ|w.wsq(codes, fields, options, func)| |获取板块日序列数据函数WSES|w.wses(codes, fields, beginTime, endTime, options)| |获取板块日截面数据函数WSEE|w.wsee(codes, fields, options)| |获取报表数据函数WSET|w.wset(tableName, options)| |获取全球宏观经济数据函数EDB|获取全球宏观经济数据函数EDB| |获取历史新闻数据函数WND|w.wnd(codes, beginTime, endTime, options)| |获取实时新闻数据函数WNQ|w.wnq(codes, options, func)| |获取新闻内容数据函数WNC|w.wnc(newsID, options)| --- ### 其他的方法 |方法名称|使用语法| |--------|--------| |交易登录函数tlogon|w.tlogon(BrokerID, DepartmentID, LogonAccount, Password, AccountType, options, func)| |交易登出函数tlogout|w.tlogout(LogonID, options)| |交易委托下单函数torder|w.torder(SecurityCode, TradeSide, OrderPrice, OrderVolume, options)| |交易撤销委托函数tcancel|w.tcancel(OrderNumber, options)| |交易情况查询函数tquery|w.tquery(qrycode, options)| --- ### 其他的方法 |方法名称|使用语法| |--------|--------| |获取组合报表数据函数WPF|w.wpf(productname, tablename, options)| |获取组合多维数据函数WPS|w.wps(PortfolioName, fields, options)| |获取组合序列数据函数WPD|w.wpd(PortfolioName, fields, beginTime, endTime, options)| |组合上传函数WUPF|wupf(PortfolioName, TradeDate, WindCode, Quantity, CostPrice, options)| | --- ### 其他的方法 |方法名称|使用语法| |--------|--------| |获取区间内日期序列tdays|w.tdays(beginTime , endTime, options)| |获取某一偏移值对应的日期tdaysoffset|w.tdaysOffset(offset, beginTime, options)| |获取某个区间内日期数量tdayscount|w.tdayscount(beginTime, endTime, options)| --- ### 日期宏说明 #### 通用日期宏 支持相对日期表达方式,相对日期周期包括: |中文|简写| |中文|简写| |中文|简写| |中文|简写| |----|----|---|----|----|---|----|----|---|----|----| |交易日|TD| |日历日|D| |日历周|W| |日历月|M| |日历季|Q| |日历半年|S| |日历年|Y| || | --- ### 日期宏说明(续) #### 相关说明 - 以 '-' 代表前推,数字代表N个周期,只支持整数;后推没有负号,比如’-5D’表示从当前最新日期前推5个日历日; - 截止日期若为’’空值,取系统当前日期; - 可对日期宏进行加减运算,比如’ED-10d’。 #### 举例: - 起始日期为1个月前,截至日期为最新 StartDate='-1M', EndDate='' - 起始日期为前推10个交易日,截至日期为前推5个交易日 StartDate='-10TD',EndDate='-5TD' --- ### 日期宏说明(续) #### 特殊日期宏 |宏名称|助记符|宏名称|助记符|宏名称|助记符| |------|------|------|------|------|------| |截止日期|ED|今年一季|RQ1|本月初|RMF| |开始日期|SD|今年二季|RQ2|本周一|RWF| |去年一季|LQ1|今年三季|RQ3|上周末|LWE| |去年二季|LQ2|最新一期|MRQ|上月末|LME| |去年三季|LQ3|本年初|RYF|上半年末|LHYE| |去年年报|LYR|下半年初|RHYF|上年末|LYE| |上市首日|IPO| --- ### 示例 ```python # 用日期宏IPO的示例,获取股票600039.SH上市首日至20180611的收盘价 error_code,data=w.wsd("600039.SH", "close", 'IPO', "2018-06-11", usedf=True) data.head() # 用日期宏本月初的示例,获取000001.SZ本月初至20180611的收盘价 from datetime import datetime td = datetime.today().strftime("%Y%m%d") error_code,data=w.wsd("600039.SH", "close", 'RMF', td, usedf=True) data ``` --- ### 参考资料及Wind Quant(万矿) - [WindPy数据API使用说明](https://www.windquant.com/qntcloud/help/id-395c28d5-d7d5-4f2d-b926-157e2696cf3c) - [WindQuant(万矿)简介](https://www.windquant.com/qntcloud/help/id-368ee499-b10b-4a6a-930b-91fed2f473a4) --- class:middle,center ### 空页 --- ## 第三章 大数据与人工智能 ### 第一节 传统金融数据 ### <span style='color:red'>第二节 外沿大数据及工具介绍</span> ### 第三节 大数据在金融中的应用 --- ### 外沿大数据及工具介绍 大数据-数据特征 .center[  ] .footnote[图片来源:[https://en.wikipedia.org/wiki/Big_data](https://en.wikipedia.org/wiki/Big_data#/media/File:Big_Data.png)] --- ### 大数据-处理技术
???  --- ### Hadoop .center[  ] .footnote[ hadoop: https://hadoop.apache.org/ ; [Setting up a Single Node Cluster](https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html) 图片来源:简书网站 ] --- ### Hadoop Hadoop 是一个开源的分布式计算和存储框架,由 Apache 基金会开发和维护。 - HDFS: Hadoop Distributed File System,负责分布储存数据 - MapReduce:负责对数据进行映射、规约处理,并汇总处理结果 .center[ <img height=300 src='https://www.runoob.com/wp-content/uploads/2021/02/hadoop-intro-1.png'> ] --- ### Hadoop MapReduce <img src='https://www.todaysoftmag.com/images/articles/tsm33/large/a11.png'> Hadoop教程: - [最详细的 Hadoop 入门教程](https://www.jianshu.com/p/0d4a365ef350) - [1.Hadoop 教程](https://www.runoob.com/w3cnote/hadoop-tutorial.html) -> [2.Hadoop 运行环境](http://www.runoob.com/w3cnote/hadoop-setup.html) -> [3.Hadoop 概念](http://www.runoob.com/w3cnote/hadoop-intro.html) -> [4.HDFS 配置与使用](http://www.runoob.com/w3cnote/hdfs-setup.html) -> [5.HDFS 集群](http://www.runoob.com/w3cnote/hdfs-cluster.html) -> [6.MapReduce 使用](http://www.runoob.com/w3cnote/mapreduce-usage.html) -> [7.MapReduce 编程](http://www.runoob.com/w3cnote/mapreduce-coding.html) --- ### Python大数据学习路线图
??? .footnote[ 图片借鉴:[Python大数据学习路线图](https://cloud.tencent.com/developer/article/1106376) ] ] --- ### Python Pandas 数据分析 <iframe width=900 height=420 src='https://www.pypandas.cn/docs/getting_started/10min.html'> </iframe> .footnote[ 参考:https://www.pypandas.cn/docs/getting_started/10min.html ] --- ### Python Pandas 练习 [Pandas:金融数据下载和分析](https://blog.csdn.net/u014281392/article/details/75517224) 请使用Python代码画出**上证50**走势图 <img src='上证50.png'> --- ### Python网页数据爬取--附加练习 自学练习: - 先自学[网络协议HTTP、HTTPS,Requests包](http://www.yyschools.com/courses/FinancialData/Presentation/chapter06_Http_Https_Requests/chapter06_Http_Https_Requests.html) - 再看练习要求[提取学院老师信息](http://www.yyschools.com/courses/FinancialData/2020%E5%B9%B4%E7%A7%8B%E5%AD%A6%E7%94%9F%E4%BD%9C%E4%B8%9A%E9%9B%86/homeworks_report/homeworks_report.html#5) .center[ <iframe width=800 height=350 src='http://www.yyschools.com/courses/FinancialData/2020%E5%B9%B4%E7%A7%8B%E5%AD%A6%E7%94%9F%E4%BD%9C%E4%B8%9A%E9%9B%86/homeworks_report/homeworks_report.html#5'></iframe> ] --- class:middle,center ### 空页 --- ## 第三章 大数据与人工智能 ### 第一节 传统金融数据 ### 第二节 外沿大数据及工具介绍 ### <span style='color:red'>第三节 大数据在金融中的应用</span> --- ### 大数据在银行业的应用 银行大数据: .pull-left[ - 客户画像: + 个人客户画像 + 企业客户画像 - 精准营销: + 交叉营销 + 个性化推荐 + 客户生命周期管理 ] -- .pull-right[ - 风险管控: + 中小企业贷款风险评估 + 实时欺诈交易分析 + 反洗钱业务分析 - 运营优化: + 市场和渠道分析 + 产品优化 + 舆情分析 ] .footnote[ 来源:微信公众号:傅志华, [大数据在金融行业的应用](https://cloud.tencent.com/developer/article/1149467) ] --- ### 银行客户画像
--- ### 银行客户画像 银行拥有的客户信息并不全面:内部数据+**外部数据** - 客户在社交媒体上的行为数据 + 如**光大银行**建立了社交网络信息数据库,结合内外部数据,获得更为完整的客户拼图,进行更为精准的营销和管理; - 客户在电商网站的交易数据 + 如**建设银行**则将自有电商平台和信贷业务相结合;**阿里金融**为阿里巴巴用户提供无抵押贷款,用户只需凭借过去的信用即可; -- - 企业客户的产业链上下游数据 + 如果银行掌握了企业所在的产业链上下游数据,可以更好掌握企业外部环境发展情况,可以预测企业未来的状况; - 其他有利于扩展银行对客户兴趣爱好的数据 + 如网络广告界目前正在兴起的DMP数据平台,互联网用户行为数据。 --- ### 银行精准营销 - 实时营销 + 是根据客户的实时状态来进行营销,比如客户生活状态改变(换工作、改变婚姻状况、置居等)。 - 交叉营销 + 即不同业务或产品的交叉推荐,如**招商银行**可根据客户交易记录,有效识别出小微企业客户,然后用远程银行来实施交叉销售。 -- - 个性化推荐 + 根据客户的年龄、资产规模、理财偏好等,对客户群进行精准定位,分析出其潜在金融服务需求,进而有针对性的营销推广。 - 客户生命周期管理 + 新客户获取、客户防流失和客户赢回等。 ??? 如招商银行通过构建客户流失预警模型,对流失率等级前20%的客户发售高收益理财产品予以挽留,使得金卡和金葵花卡客户流失率分别降低了15个和7个百分点。 --- ### 银行风险管控 - **中小企业贷款风险评估** 银行可通过企业的生产、流通、销售、财务等相关信息,结合大数据挖掘方法进行贷款风险分析,量化企业的信用额度,更有效的开展中小企业贷款。 -- - **实时欺诈交易识别和反洗钱分析** 银行可以利用持卡人基本信息、卡基本信息、交易历史、客户历史行为模式、正在发生行为模式(如转账)等,结合智能规则引擎,进行实时的交易反欺诈分析。 + IBM金融犯罪管理解决方案,帮助银行利用大数据有效地预防与管理金融犯罪 + 摩根大通银行则利用大数据技术,追踪盗取客户账号或侵入自动柜员机(ATM)系统的罪犯。 ??? (如从一个不经常出现的国家为一个特有用户转账或从一个不熟悉的位置进行在线交易) --- ### 银行运营优化 - **市场和渠道分析优化** 通过大数据,银行可以监控不同市场推广渠道,尤其是网络渠道推广的质量,从而进行合作渠道的调整和优化。同时,也可以分析哪些渠道更适合推广哪类银行产品或者服务,从而进行渠道推广策略的优化。 -- - **产品和服务优化** 银行可以将客户行为转化为信息流,并从中分析客户的个性特征和风险偏好,更深层次地理解客户的习惯,智能化分析和预测客户需求,从而进行产品创新和服务优化。 + **兴业银行**通过对还款数据挖掘,比较区分优质客户,根据客户还款数额的差别,提供差异化的金融产品和服务方式。 -- - **舆情分析** 银行可以通过爬虫技术,抓取社区、论坛和微博上,关于银行以及银行产品和服务的相关信息,并通过NLP进行正负面判断,尤其是及时掌握负面信息,及时发现并处理。 ??? ;对于正面信息,可以加以总结并继续强化 同时,银行也可以抓取同行业的银行正负面信息,及时了解同行做的好的方面,以作为自身业务优化的借鉴。 --- class:middle,center # 谢谢! --- ### 大数据在保险行业的应用 - 精细化营销 + 客户细分 + 潜在客户挖掘 + 客户流失预测 + 客户关联销售 + 客户精准营销 - 欺诈分析 + 保险欺诈与滥用分析 + 车险欺诈分析 - 精细化运营 + 产品优化 + 运营分析 + 代理人甄选 --- ### 客户细分和精细化营销 - **客户细分和差异化服务**。 在客户细分的时候,除了风险偏好数据外,要结合客户职业、爱好、习惯、家庭结构、消费方式偏好数据,利用机器学习算法来对客户进行分类,并针对分类后的客户提供不同的产品和服务策略。 -- - **潜在客户挖掘及流失用户预测**。 保险公司可通过大数据整合客户线上和线下的相关行为,通过数据挖掘手段对潜在客户进行分类,细化销售重点。 -- - **客户关联销售**。 保险公司可以关联规则找出最佳险种销售组合、利用时序规则找出顾客生命周期中购买保险的时间顺序,从而把握保户提高保额的时机、建立既有保户再销售清单与规则,从而促进保单的销售。 -- - **客户精准营销**。 在网络营销领域,保险公司可以通过收集互联网用户的各类数据,如地域分布等属性数据,搜索关键词等即时数据,购物行为、浏览行为等行为数据,以及兴趣爱好、人脉关系等社交数据,可以在广告推送中实现地域定向、需求定向、偏好定向、关系定向等定向方式,实现精准营销。 --- ### 欺诈行为分析 - 医疗保险欺诈与滥用分析 + 一是非法骗取保险金,即保险欺诈; + 另一类则是在保额限度内重复就医、浮报理赔金额等,即医疗保险滥用。 保险公司能够利用过去数据,寻找影响保险欺诈最为显著的因素及这些因素的取值区间,建立预测模型,并通过自动化计分功能,快速将理赔案件依照滥用欺诈可能性进行分类处理。 -- - 车险欺诈分析 保险公司够利用过去的欺诈事件建立预测模型,将理赔申请分级处理,可以很大程度上解决车险欺诈问题,包括车险理赔申请欺诈侦测、业务员及修车厂勾结欺诈侦测等。 --- ### 精细化运营 - 产品优化,保单个性化 保险公司可以通过自有数据以及客户在社交网络的数据,解决现有的风险控制问题,为客户制定个性化的保单,获得更准确以及更高利润率的保单模型,给每一位顾客提供个性化的解决方案。 -- - 运营分析 基于企业内外部运营、管理和交互数据分析,借助大数据台,全方位统计和预测企业经营和管理绩效。基于保险保单和客户交互数据进行建模,借助大数据平台快速分析和预测再次发生或者新的市场风险、操作风险等。 -- - 代理人(保险销售人员)甄选 根据代理人员(保险销售人员)业绩数据、性别、年龄、入司前工作年限、其它保险公司经验和代理人人员思维性向测试等,找出销售业绩相对最好的销售人员的特征,优选高潜力销售人员。 --- ### 大数据在证券行业的应用 #### 股价预测: + twitter数据 + facebook数据 + youtube数据 + 微博等社交媒体数据 + 财务报表数据 -- #### 投资景气指数 2012年,国泰君安推出了“个人投资者投资景气指数”(简称3I指数),通过一个独特的视角传递个人投资者对市场的预期、当期的风险偏好等信息。国泰君安研究所对海量个人投资者样本进行持续性跟踪监测,对账本投资收益率、持仓率、资金流动情况等一系列指标进行统计、加权汇总后得到的综合性投资景气指数。 --- ### 大数据在证券行业中的应用 #### 客户关系管理: - 客户细分 - 账户状态(类型、生命周期、投资时间) - 账户价值(资产峰值、资产均值、交易量、佣金贡献和成本等) - 交易习惯(周转率、市场关注度、仓位、平均持股市值、平均持股时间、单笔交易均值和日均成交量等) - 投资偏好(偏好品种、下单渠道和是否申购) - 投资收益(本期相对和绝对收益、今年相对和绝对收益和投资能力等) - 流失客户预测。券商可根据客户历史交易行为和流失情况来建模从而预测客户流失的概率。 .footnote[ 引用自:[大数据在金融行业的应用](https://cloud.tencent.com/developer/article/1149467) ] --- ### 扩展阅读资料 - [大数据在金融领域的典型应用研究](http://www.caict.ac.cn/kxyj/qwfb/ztbg/201804/P020180327605403296958.pdf) + 信贷风险评估 + 供应链金融 + 智能投顾: 近年证券公司应用大数据技术 匹配客户多样化需求的新尝试之一,目前已经成为财富管理新蓝海。 + 风险定价 + 支付中识别欺诈交易 + 黑产防范 + 消费信贷 - [2019年大数据技术在中国金融行业的应用概览](http://pdf.dfcfw.com/pdf/H3_AP202008131398231169_1.pdf) - [大数据在金融领域是如何应用的?](https://www.zhihu.com/question/21094114) --- ### 金融大数据的典型案例分析 2017年中国支付清算协会金融大数据应用研究组,面向协会金融科技专业委员会成员单位征集大数据应用案例40多个,从中评选出24个“金融大数据创新应用优秀案例”: #### (一) 风险控制类应用 - 中国银行“艾达”大数据风控平台 - 中国交通银行信用卡中心电子渠道实时反欺诈监控交易系统 - 光大银行大数据风控智能化数据产品:滤镜 - 腾讯云‘天御’大数据反欺诈平台 - 百度“磐石”金融科技产品 - 京东金融基于大数据的行为分析系统 - 壹账通微表情面审辅助系统 - 平安壹钱包智能风控系统 - 银联商务大数据普惠金融 - 。。。 --- ### 金融大数据的典型案例分析 #### (二) 精准营销类应用 - 陆金所投资者适当性管理体系 - 恒丰银行基于大数据的客户关系管理系统 - 万丈金数保险行业智慧电销解决方案 - 。。。 #### (三) 其他类型应用 - 监管科技—支付宝反洗钱智能分析产品 - 监管科技—金信网银大数据监测预警金融风险平台 - 智能投顾—通联浙商大数据智选消费基金 - 智能投顾—中诚信资产交易智能扫描平台 AXIS - 基础数据—中国移动乾坤大数据 - 。。。 --- class:middle,center ## 课后作业 ### 大数据在金融行业还可以有哪些应用? 要求:以小组形式,制作一份PPT介绍一个应用 提示: - 可阅读介绍期刊,比如《管理世界》、《经济研究》、《金融研究》上的论文; - 也可网络搜索; - 还可以胡编乱想。