阅读设置
20
18
第337章 噢 (2/2)
text_list
中;如果是
table
类型,就将表格的文本表示(可能是
html
格式)添加到
text_list
中。
将图
3.8
的提取的数据进行拆分,添加到
text_list
中,输出结果如图
3.11
所示。
非结构化文本数据通常非常稀疏,即包含大量的词汇但每个文档只使用其中的一小部分。而结
构化数据则可以通过合并相似信息来降低数据的稀疏性,这有助于生成更加紧凑和有效的嵌入向
量。
结构化数据可以实现更高效的特征提取。结构化数据通常已经按照特定的模式或结构进行了组
织,这使得我们可以更加高效地从中提取有用的特征(如标题、作者、摘要、关键词等)。这些特
征可以作为后续
embedding
的输入,帮助生成具有更强区分性和泛化能力的嵌入向量。结构化数据
中的元素(如主题、类别、属性等)通常具有明确的含义,这些含义可以在
embedding
过程中被保
留下来。因此,基于结构化数据的嵌入向量往往具有更强的解释性,有助于我们更好地理解模型的
预测结果和内部机制。
其他最近更新
- 《农家有蓁宝》作者:冰棠要吃松子
- 《快穿之大佬来了,渣渣要倒霉了》作者:微生青烟
- 《娇美人揣崽去逼婚,震惊家属院!》作者:竹苑青青
- 《婚不可待:高冷凤少也折腰》作者:跳楼的可爱多
- 《公子风流世无双》作者:天鬼山的艾晴
- 《叠叠叠叠叠叠叠叠叠叠叠真伤!》作者:笔墨添香
- 《【水官解厄】月麟》作者:月下丝竹
- 《综影视:我不是提线木偶》作者:珈蓝锦年1
- 《小马宝莉之荒原影魔勇闯小马利亚》作者:MYLIMIT
- 《逆天神鼎》作者:夜郎不大
- 《斩神,笙笙来也》作者:久啾咪
- 《这个杀手是赘婿》作者:雨夜徒步
- 《重生60饥荒年孤女是异能女王》作者:樱挑
- 《泰百之玄幻》作者:嫪泰迷
- 《四合院:我当兵回来了》作者:搁浅时光
- 《带下堂娘吃大肉,渣爹一家急眼了》作者:廿四歌