[原创]高维数据降维可视化功能

网站的使用遇到的问题可以在这里提出建议
回复
头像
hellohappy
网站管理员
网站管理员
帖子: 282
注册时间: 2018年11月18日, 14:27
Been thanked: 2 time

#1 [原创]高维数据降维可视化功能

未读文章 hellohappy » 2019年1月31日, 08:00

高维数据降维可视化功能

浏览器支持
Show
只支持部分浏览器,不支持ie浏览器,已知支持谷歌crown浏览器。
入口地址:app.php/dataprojector

    1.导入数据
        本站默认给了4个数据集合,你可以直接查看和使用,当然更多时候你需要自己导入数据。
        导入数据直接点击 load data 按钮即可,如下:
导入数据.png
导入数据.png (47.88 KiB) 查看 315 次
导入数据.png
导入数据.png (47.88 KiB) 查看 315 次

        (tsv不是什么神奇的格式,默认直接从excel复制粘贴到文本就是tsv格式)相对的还有csv,csv格式是把制表符/t换成了逗号

    2.数据分析(书签功能不可用)

        1.股票指数数据集(加载较快)
股票指数数据集.png

            数据分析有很多功能选项,你需要自己慢慢熟悉,其中数据可视化时候不支持中文绘图,但是检索时候支持任何语言(utf8)。
            股票指数数据集是我自己简单收集的某日的股票指数,包含序号、代码、名称、最新、涨幅%、涨跌、成交量、涨速%、换手%、成交额、最高、最低、今开、昨收、振幅%、60日涨幅%、年初至今涨幅%等维度的数据,你可以通过三种不同的方法对数据进行降维,比如下图是通过主成分分析方法降维,并用前三大因子进行3D绘图。你可以用鼠标进行旋转放大等操作,查看数据分布。上面的图片给出了一些简单的教学,自己体会。

        2.手写体匹配数据集(加载缓慢,尽量别加载)
手写体匹配数据集.png

            手写体里面包含了几个数字,0到9,目的是匹配各个数字,使得机器可以识别手写体。显然这里只是为了可视化(可视化会浪费机器的大量算力在绘图上,实际的机器学习应该远快于此),实际机器学习也不太可能用这么小的数据集(才10000个)。用类似的方法,可以做到一定程度上的验证码识别。

        3.关联英语词汇数据集(加载缓慢,尽量别加载)
关联英语词汇数据集.png

            关联英语词汇将相似的或者经常一起出现的词关联在一起,(这些词的距离更近),你可以用类似的方法检索信息。比如你可能想检索某一些事物,但是你一时想不到与他相近的词汇,你可以尝试使用这个来帮助你回忆。

        4.使用你自己的数据集(utf8编码)(本站不做缓存,完全由本地支持)
            如果你不知道如何用自己的数据集合,这里给你一个例子(这个就是上面的股票指数数据集):
股票指数.zip
(90.17 KiB)
股票指数.zip
(90.17 KiB) 尚未被下载

            其中 指数维度数据.tsv 是从excel数据里面的 info 里面直接复制的,他也就是股票指数的有效变量,删掉了列标题。
                在load data 的第一步 Load a TSV file of vectors. 里面导入这个数据。
            指数meta信息.tsv 是从excel数据里面的 meta 表里面直接复制的,他就是所有信息,包括了列标题。
                在load data 的第二步 Load a TSV file of metadata. 里面导入这个数据。

Link:
Hide post links
Show post links


回复