4008-889335
数据分析
数据分析案例笔记1
发布时间:2020-01-26    信息来源:未知    浏览次数:

  1)2019年3月初,全国政协委员、证监会前主席肖钢带来了“支持发展互联网小贷公司满足普惠消费信贷需求”的提案。肖钢表示,中国消费信贷发展空间巨大,特别是面向广大群众、与日常消费息息相关的小额、普惠型消费信贷市场。

  2)通过分析拍拍贷的用户数据可以得出,客户的还款情况与其申请信息和认证信息、评级关系等各方面的相关性。

  4)结论:综上SQL分析/excel分析及图表可视化展示,用户的年龄(划分年龄段,以柱状图的形式展现)、初始评级(饼状图)与逾期还款有较大程度的联系,后期可以在这些方面加强监管。

  a.完全线性可分时最原始的SVM,最大的核心思想就是找到最大的分类间隔,称之为硬间隔,能完全将两类分开。

  b.大部分线性可分情况下的线性分类器,引入软间隔,允许一定量的样本分类错误。

  c.针对线性不可分,引入核函数,将样本空间投射到多维空间,从而能线)利用python中的机器学习包sklearn导入svm,然后构造一个SVC或者Linear SVC分类器。LinearSVC 是个线性分类器,用于处理线性可分的数据,只能使用线性核函数。针对非线性的数据,需要用到 SVC。在 SVC 中,我们既可以使用到线性核函数 (进行线性划分),也能使用高维的核函数(进行非线)项目目标:生成一个乳腺癌诊断的SVM分类器,并计算这个分类器的准确率。

  5)数据质量评估的方法:如果 数据质量不高,就要对数据进行清洗,可以按照“完全合一”的准测评估数据的质量。

  b.全面性:观察每条数据是否存在单位,定义不一致,比如身高记录的有厘米和米

  1.分析背景:LendingClub是美国最大的P2P公司,定位是无担保的纯信息中介,利用互联网技术连接投资者和借款人,降低中介成本。2.分析目的:国内P2P行业的合规成本骤然提升,问题平台频频爆雷跑路,小平台逐渐出清。给出评审建议,从而尽快完全去担保化,转变为纯信息中介。3.给出评审建议

  a.客户在东南部沿海经济比较发达的地区,职业类型为其他的建议加大宣传力度,扩大业务范围。可以加大对该地区客户的推广力度。

  b.客户职业为教师、经理客户贷款占比较大,对这两类职业客户可以做客户等级分类进行细化审核。

  c.工作年限为10+,拥有自有住宅的客户可以放宽审核条件,对小于10年的,有按揭或租房的客户加强审核。

  针对贷款目的为偿还其他债务的客户需要严格审核条件或要求其做一定的担保,以降低坏账率。

  a.信用等级及贷款率与坏账率呈现一定的正态分布关系,应该加强对B/C/D三个信用等级的客户审核。

  租房的客户坏账率相对较高,建议后期根据实际情况酌情加强这两类客户的审核。8.利用python对淘宝用户行为分析

  c.数据清洗:重命名、删除重复值、一致化处理(分组一致化处理:贷款金额,贷款利率和每月月供三个数值型数据进行分组的记录统一处理,量化数据一致处理:通过分列将工作年限years去掉,再将10+和1替换成10和0,达到量化处理)、异常值清洗(将6个标准差外的数值作为异常值)

  (1)随着信用等级越差,贷款总额占的比率不断降低。约95%的客户处于信用等级A-D之间。约91%客户贷款利率在0.06-0.28之间,对应于客户信用等级A-D。

  (2)随着信用等级越差,不良贷款率也逐级增加,客户占比逐级递减;分组与信用等级变化趋势达到高度的一致,这与前面相关系分析(0.97)得到的结果一致。

  (3)贷款总额占比与不良贷款率呈递减的关系,换句话说高风险的客户越少,有利于降低整体不良贷款率。如信用评级G不良率接近20%,但是G的贷款占比只有0.16%,对整体坏账率影响不大。

  (4)但是存在个别级或者分组利率贷款占比不合理的问题,如D的贷款占比达到13.73,违约率8%以上,这会严重影响总的不良贷款率。需要加强防范降低该级别的违约率,后期业务尽量降低该级别的贷款总额占比。同理,分组利率[0.17,0.28)也存在类似的问题。

  1)分析步骤:提出问题-理解数据-数据清洗-搭建模型-数据可视化2)提出问题

  a.找出研究期间用户最活跃的日期和每日活跃的时间段,了解用户的行为时间模式

  b.什么产品和产品类别具有最高的购买率,找到最受欢迎的产品,并优化产品销售

  c.哪些用户购买最多,找到最核心的付费用户群,统计这些用户购买的产品和类别,并根据他们的购买偏好推出个性化的产品销售解决方案。

  2)数据清洗:选择数据集,列名称重命名,删除重复值,一致化处理(原始数据时间戳以epoch & unix时间戳格式表示,需要转换为可读的datetime格式),异常值处理(过滤不在指定时间范围内的数据)

  3)通过用户行为漏斗图可以得出以下结论:用户行为包括点击、放入购物车、收藏和购买。点击占总操作数的89%,而购物车中只有6%被放入购物车。最后,实际购买量仅为2%。在链接中,可能的原因是用户花费了大量的时间寻找合适的产品,这可以优化电子商务平台的筛选功能,使用户更容易找到合适的产品。

  a.2017年12月2日至12月3日为周六和周日。点击量急剧增加,被怀疑是平台推广。在一天的不同时段,点击量从19:00开始稳步上升,在22点达到峰值,23点略有下降,24点显著下降。大多数用户会在晚上购物,平台会推出活动来获得顾客的首选-----在晚上,他们可以进行促销,邀请朋友享受折扣,增加用户数量,利用口碑渠道获得新客户。

  1)通过画出保值率与使用年份的散点图并作出简单拟合,可以得出结论。车龄与保值率有很强的负相关,指数拟合曲线拟合程度更高。

  python 简易微信实现(注册登录+数据库存储+聊天+GUI+文件传输)

  《奇巧淫技》系列-python!!每天早上八点自动发送天气预报邮件到QQ邮箱

  程序员把地府后台管理系统做出来了,还有3.0版本!12月7号最新消息:已在开发中有github地址

分享到:
您使用的浏览器版本过低,不仅存在较多的安全漏洞,也无法完美支持最新的web技术和标准,请更新高版本浏览器!!