Print

python去除重复数据

问:Python 清除重复值
  1. 答:from pandas import read_csv
    df = read_csv('D://PDA//4.3//data.csv')
    df
    #找出行重复的位置
    dIndex = df.duplicated()
    #根据某些列,找出重复的位置
    dIndex = df.duplicated('id')
    dIndex = df.duplicated(['id', 'key'])
    #根据返回值,把重复数据提取出来
    df[dIndex]
    id  key          value
    4  1251147    品牌          Apple
    5  1251147  商品名称  苹果iPad mini 3
    #直接删除重复值
    #默认根据所有的列,进行删除
    newDF = df.drop_duplicates()
    #当然也可以指定某一列,进行重复值处理
    newDF = df.drop_duplicates('id')
问:Python第19课:数据清洗之去错、去空、去重
  1. 答:Python 第19课:数据清洗之去错、去空、去重
    时间 2019-02-01 下午3:30
    主讲 刘培富
    地点 四楼电教室
    数据清洗是数据治理的关键环节,是指对获取的原始数据(也称“脏数据”)进行审查、校验、加工的过程,目的在于删除重复信息、纠正错误信息,保持数据一致性。
    一般来说,数据清洗,主要是对数据进行去错、去空、去重处理。
    针对一张包含姓名、身份证号码、车牌号码的数据表,建立纠错规则如下:
    1.车牌号既不包含汉字赣,且不包含汉字饶。
    2.身份证号码的年份既不等于19也不等于20,身份证号码的月份大于12,身份证号码的日期大于31。
    3.身份证号码位数不等于18。
    4.姓名的长度小于等于1。
    二、去空
    对于关键性数据,不允许为空,对于这类数据,要查询是否存在空值。
    三、去重
    在一张表中,有的数据列允许重复,有的数据列则不允许重复。例如,对于一张车主信息表来说,姓名、身份证号可以重复,因为存在一人登记多辆车的情形,这种重复,不能认为是错误。但是,车牌号则不允许重复,否则就存在业务逻辑的错误。所以,针对车牌号数据列,要进行去重。
    通过以下SQL语句,可以列出重复的数据:
    综上,数据清洗,既要懂技术,更要懂业务,否则无法正确制定清洗规则,导致数据清洗流于形式,达不到清洗的效果。
问:python怎么得到没有重复值的集合
  1. 答:答案:python中用set函数去重复值。
    #例如:
    stringa="1235421"
    lista=sorted(list(set(stringa)),reverse=0)
    print(lista)#返回['1', '2', '3', '4', '5']

本文来源: https://www.pukanfabiao.com/article/76a72a8a47a760fb4ac0a30a.html