- UID
- 15141
- 斋米
-
- 斋豆
-
- 回帖
- 0
- 积分
- 7252
- 在线时间
- 小时
- 注册时间
- 2011-6-28
- 最后登录
- 1970-1-1
|
直接参照分割线内的部分 进行数字诗句创造,玩法示例,对照词频表书写: 4 c) T1 W2 @5 t+ G
" M% }( C5 a8 u0 D
你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“美妙绝伦”的宋词,圆周率也可以哦!
3 @5 G: ]& D# G! R! R' J
5 x7 b- t" w2 p# F1 |简化宋词就是“东风何处在人间” % G7 i- _7 h! D2 E* k5 o8 P
9 x1 |* n# ^/ D5 W! i9 s6 Z署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话可能的字的组合都列举出来,就可以整体统计频率了。”大家一致分析这位网友一定是个理科生。" R* a2 z {0 N$ g x# N
--------------------------------------------------------------------------------------------------------------------------------------------------------
, L D6 h g8 S. N& N . T |; I6 k- ?9 f, W3 x l) N% a
随后, “yixuan”贴出了他算出来的高频词,排在前面的分别是:
7 T- w- I0 _0 v( A0 V) g6 J& l# x4 h/ T; B2 Y* U% l
Word Freq
2 O2 i0 R+ [: N/ T" b" w1 1485 8 L4 a! _/ y4 i+ h# c
2 东风 1382 $ V1 n& D# \8 ~* j
3 何处 1230 2 k1 I( Q- K) K. |) _
4 人间 1202 8 ], ~- ~/ O( l& X; X: k! P: h
5 风流 857 ! A, i J$ S0 a, X5 @" R/ m8 m
6 归去 812
6 L8 H2 h* k- E4 A$ }+ n7 \7 春风 802 * r' |5 c) B) G8 ^! t8 E8 E
8 西风 779
1 W/ L7 p+ c4 n2 h6 R; S9 归来 771
5 P. S5 _, p6 @10 江南 765 9 L8 ~( B, I5 b6 w0 ~. N' T& p
11 相思 753 . Y' t5 Z+ K2 N) Y0 L
12 梅花 732 6 `7 |; h) u2 _0 a& \9 `: `8 F
13 千里 676
% R- W3 c7 p2 n14 回首 656 9 f2 ~+ x$ V! U, e1 r+ \
15 明月 651 ) i( ]% z% ~ X) p, u
16 多少 648 4 |; d! B0 j! _: r
17 如今 642 7 S# d( l8 Y. X
18 阑干 630 5 N8 I* R2 e, U; G2 h* B
19 年年 613
* h- O- O2 s9 s4 l4 l1 c) u20 万里 590
- L$ L( Q8 J5 x8 ]21 一笑 582 : Z: {, d1 s5 O6 X, H' Z w
22 黄昏 550 6 A3 f2 Q& V I) `* A5 f' n7 a
23 当年 542
2 t1 O! m, q8 T8 {$ F9 X8 N. r24 天涯 537 2 g# j" {: ~% T5 x9 Z! t; j; i
25 相逢 528
* I9 [$ u# k. q* `8 U26 芳草 527 2 i+ L2 m+ c! c5 J9 K
27 尊前 516
/ A* X" k8 k3 Z28 一枝 512
7 [; t' q$ T- r: p( W4 Y6 _+ } s29 风雨 505 4 W' E% ]- D7 p( }0 L* t& R ]
30 流水 472
_6 e8 p5 `6 H( ?/ _31 依旧 472
" V- { y8 S8 a0 R5 L0 k32 风吹 471 + S4 ]5 l/ J3 o' p
33 风月 461
. W9 `; @; Z+ p( M2 k34 多情 457
9 \, E6 |+ q+ b; o" j3 u) G' v) B35 故人 451 ! ?8 o9 @6 d* X) a+ f3 d( n" C$ f
36 当时 450
5 o# [$ y% M5 y37 无人 445
% p5 P& d5 t- c1 P; r+ k. J6 g3 [38 斜阳 438 # u* _2 N7 l$ o
39 不知 430
- f$ {6 i7 s! y40 不见 429 # Q3 b6 m3 {& V& ]# ~; B. @
41 深处 422 9 m* M; X9 S% ]" F8 @; t" ^3 T
42 时节 403 , S6 p4 e+ C0 ~
43 平生 398
5 `) t8 {9 u5 C; {. ^7 f; |) T44 凄凉 398
# I9 T4 d' ?- S4 W( |45 春色 394
8 u' q- d# z/ i5 u46 匆匆 383 1 h9 y1 V% d, \2 C' x
47 功名 383 3 X$ c; G" R+ L0 G5 O
48 一点 378 : p4 h9 u4 w# Y& @2 b/ b3 D& E" w
49 无限 377
3 x1 W) M5 E$ ^' j/ f50 今日 369
# i8 S, {, i3 G! O: I51 天上 368
~- g) ^, _/ X$ a! R52 杨柳 362 / q$ y/ J9 r4 b1 _9 c6 T! h+ O
53 西湖 356
3 i5 A& \( ~! C G7 u5 h" S2 I54 桃花 354
* ]4 O: D8 s/ f: V7 ]& _ I55 扁舟 353
' Y1 _% L9 f3 l4 n- y. p( f56 消息 351
( ]4 H8 s. ]% U$ q( N# \8 h57 憔悴 344 # w9 V% z! F9 ^+ O Y
58 何事 339 # h0 T4 J) r9 Q' u0 B7 J" e) @
59 芙蓉 338
. I4 Y" Z( ?8 u$ {% c. n6 k! N60 神仙 334 0 z% s3 X% i* z7 W0 G
61 一片 334
- Y" I# I- z* f6 O5 H0 x62 桃李 333 - E, e3 J( l$ C8 r% @
63 人生 332 3 X) m1 x! h) N5 \) E1 S4 j$ O' H! c
64 十分 331 + ^0 ]( }9 N( }# c, A) D: D- G' L
65 心事 329
Q! k9 Q7 q7 _2 F9 n9 I& Y: ^66 黄花 328 ' z+ [ [9 a' j" H/ G$ i! e& r( m" D" S
67 一声 325
' { P# |, y' H# H; E68 佳人 324 2 r" L: k) O4 ?* T
69 长安 321
* W9 g$ x& D* g9 E$ ?70 东君 319 8 R% c1 t% E: Y8 G; G( M2 r
71 断肠 316 4 P3 x% S/ k/ l
72 而今 315
' C9 V$ n- p, T3 e7 C/ @+ Y( o6 w73 鸳鸯 314 " N% }( J, e; R2 }& i
74 为谁 313
; W5 g; k$ L2 H5 M( d75 十年 310 ( a1 {" j* m( p
76 去年 309
/ |& `4 Z7 z- O% o, @5 }77 少年 308
+ c! m t/ ?5 L* K78 海棠 307
, z2 G# z" c1 M, [5 K79 寂寞 306 4 G6 c# k1 u5 r( j8 k [ |
80 无情 306
9 J: J& K1 g. ?6 u4 b- D81 不是 305
" B5 W' S k& S* W+ j q82 时候 304 / }3 t, o- z/ |# ]
83 肠断 303 1 ]# c6 T" C8 Z! _% Y& o; P% P
84 富贵 303 & y; i% q# {9 ]: c2 t' V
85 蓬莱 303
+ f# u+ `1 c3 |0 N! p# M( n86 昨夜 303 2 F5 E) l9 c* n0 x
87 行人 302
5 a' A; F# _- D g88 今夜 301 " R) z; O2 G, i
89 谁知 300
" [1 j( S% Y- Q- M/ d8 ?90 不似 299
$ E' l* `; h5 {' M91 江上 298 9 a: g2 r. @+ t6 R' W6 F* C& J
92 悠悠 296 ! @6 w% W2 S4 \* ?, Q% t# e
93 几度 295
" h w: R( Y V1 Y% ]94 青山 295
+ g/ v. h/ r1 s: h5 B95 何时 294 * C* b m% Y# u" C4 u
96 天气 293 5 h7 R/ ~; j `: {2 r S8 S
97 惟有 293
' {# W( M- x% s P) |* K9 v98 一曲 291 ' e6 J/ `( ?/ Y3 s S
99 月明 291
. K& U$ [$ F7 y% o/ C+ p100 往事 290
8 |8 O, k0 X* u
2 M3 K' U$ I* Y% v4 U) z至于为什么第一名是数字,他解释:“排在第一的是无效字符,这跟数据源有关。”
; m. Q4 f4 P$ C& g
) D7 n: ?) H: P* W2 ?9 b* }& e这个结果一出来,一位网友就一语道破了“玄机”,“原来,最流行的宋词就是‘东风何处在人间’啊!”
4 z- _% }0 m+ w/ x' b1 \( @* H
生日、手机号 随意组合都很美
# ~! {; X5 R! K! ~5 i6 `% X) u+ {. V" U) Z& @8 j8 d- O& \/ E
还有更绝的呢!署名为“达芬奇的鸡蛋”的果壳网友不知怎么地,就想到了拿大家都会背一点的圆周率进行创作,两个数字一断,对照高频词表,一首“华丽丽”的词就出来了!还附上了说明,特别像模像样。5 N4 Y, P1 m/ l: u
. ?9 s* l1 ^% i& V+ l! a9 r$ J, \9 B) \8 B. h4 b
玩法示例: / m( v9 b' t5 U6 m
--------------------------------------------------------------------------------------------------------------------------------------------
: B: f% m. c% M. J) u5 m
( ?8 I0 Y% a& H- D达芬奇的鸡蛋 @ 果壳
) q" q% F, x8 F8 B' e- Z( I3 s0 t
清平乐·圆周率 3 m ?9 Z4 `+ @- k5 e2 x& q+ Z
2 o+ {' ^* N3 w) F: r- y
回首明月(一看就是抒情诗)
8 g! D8 j2 r. p14 15 9 M' A$ f3 i. X; o% @, }
悠悠心事空(果然,貌似失恋了)
1 f& f( z/ E9 W) @9 b. f2 i& O92 65 ! g6 x9 z7 V/ }0 v
西湖何事寂寞中(触景生情) " g- g6 b! X7 }2 J9 s
35 89 79 " ?( R6 r6 t9 N$ C0 @
风吹斜阳匆匆(回忆那天下午的艳遇)
, t( I9 u* \: d3 a ^32 38 46
2 i- w8 Q+ O: J: i$ ?/ Z) i) ?# G; {: E( U, n3 l1 T
芳草平生斜阳(平生见过最美的太阳和芳草,都是因为那里有你的身影)
- m1 y" k& v3 w6 P% N26 43 38
) T E" C3 F5 I2 l, G" H+ A风吹寂寞今日(到现在就剩我自己) 3 B+ n- x8 h }$ _
32 79 50
]% e9 U2 A; H2 O1 j0 H" T$ ]& Q一枝富贵年年(好花美丽年年开,好景宜人不常在) 2 C; Y) ?2 }4 f4 V, m$ [* g8 V# j9 t
28 84 19
9 Q+ O' j# u- x$ D- b/ \- v3 V断肠长安不知(我的思念远方的你可知道?) ; g7 h8 b; \# m0 A5 g$ M% W
71 69 39 9 \# T l1 q0 T
" F, y) g8 ~6 O. X& H5 _% @! n3 C如梦令·根号二
A _; m5 Y- Z* N8 Z1 o3 n( d$ C6 t/ y% T
深处时节千里(过了许多年,男猪脚来到了很遥远的地方)
' S$ v; W4 g" Z! `+ c P+ W% T3 C41 42 13 - Q: V7 p9 C8 _, @9 p
消息当年鸳鸯(这。。找老相好去了?) # ~# m+ i0 m8 E' E1 G/ {- k
56 23 73 3 l5 C( z3 r3 ]; {" r- Z* C' p
归来今日(妹子,我胡汉三回来啦)
0 C( C% R q% ^ Z$ Y+ ]. c( f09 50
; t- P/ r: ~# w9 _" h2 C6 W0 g' o一点无情多少(你还知道来看我啊!)
( E7 {! {8 Z: e3 d' C7 o48 80 16
8 Z8 q0 V4 P- L% P7 C今夜,今夜(要出问题了。。。) . z8 [0 s9 M. n" k$ |" P1 {$ C
88 88
4 d' E( Q. M0 v& N( \" l而今时节归来(仿佛重回当年,男猪脚依然那么坚挺)
- q" x# l7 a* ]- q3 ]7 ?72 42 09
8 N- Y& W; X$ U
, u: E5 S, a/ e* Q1 V
0 x" B% B9 X8 R" |- D4 \9 q0 m网友评论部分
) k z1 a/ G& ~----------------------------------------------------------------------------------------------------------------------------------------------
; a9 O% y0 E9 r) ~- G) e7 Z 2 M; ]$ J9 w9 f+ v* [+ w O/ h
看完这首诗,网友们一边膜拜,一边自己的创作灵感也被打开了。
7 J% i0 Y \; V u* ^
, i) h" o; ^) N4 B2 h- ^“丘寒”留言道:“试着用某个号码创作了一首:天上相思,芳草年年,昨夜江南,回首一笑多情。” w2 x. U( v1 {+ V
“零Ronnie”很有创作激情:“我的生日:年年江上,江南春风;我的手机号:明月芳草去年,江南阑干归去……还真挺上口的!我也能做诗人了哈哈!”
+ X; T% u: C: D( K" ~6 s3 F9 J- s3 R8 w" i1 e) O/ l3 U' M
理科生欢呼:消灭文科生的日子来了
1 l0 | w5 v) K8 i& @* z% ?# O
" E) d' \- S3 L可是这么一来,文科生又不淡定了,一群文科生跳起来反击。 % W, H( H0 \8 ]' i' {. V
* O- V; z6 ?) c7 V7 k0 C+ ?0 b
“雯名霞迩”大叫:“统统拖出去,斩了!这让学中文的人情何以堪啊!” " I3 Y( G1 t! `0 ?8 X
“Rockfish”代表理科生还击:“理科宅男们消灭文科生的日子到来了!拿起你的计算器,消灭文艺青年吧!”
6 _1 L# b) `! K7 Z7 h5 H“可可”童鞋呼唤:“就让科技小清新来得更猛烈些吧!” " K: \( \0 ?9 n A) [
) F1 S: l" S1 r' Y# W& F还有一群网友七嘴八舌讨论着。
9 V$ i# Q9 S. @$ s1 i- O9 B" ^/ w( Z7 C) [9 m: s" g3 k
“沌世界”淡定地说:“不知宋词的粉丝看了是不是有一种偶像破灭的感觉。” : ~. R6 e* D) ~" r" y5 m: f
“家杰仕”童鞋也总结道:“文艺男女已经阻止不了技术宅作诗了!” % N0 z7 @7 p8 t% {$ u9 h
网友“Rakin”点评:“理科生文艺得真凶猛!” ! c5 ]; M; A3 N! c! S
“焰心Spring”呼吁:“想文艺一回的同学请转!” : i% o5 r1 w4 y( w# O
“ChanIm”表示:“当时学写诗的时候超鄙视这些,现在淡定了,因为没那么多愁善感了。” , c0 r# a, r6 {2 |" y
“思念的秋天”感慨:“穿越必备!” , ~# Y& C0 O& F5 L# d8 V
“NetCharm”说:“背熟了,随便组合一下,写出来的也不会太烂。”
- @4 R: X6 g' X+ ?7 D' h9 r“huahualipo”童鞋还提出了意见:“高人,能不能把平仄也加上……如果平仄太困难,至少考虑一下词尾押韵如何?韵脚也就十来个,每个都分配一个数值,然后每隔一行,末尾的词就只从一个值下选。这样会大大增加仿真度啊!”
& s! G" w. v9 M! h4 H2 o- Z7 G' `# H' l
3 Q. V) h5 i' H* t, K+ g/ J5 I$ J再次神经短路,突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。比如“犹解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话可能的字的组合都列举出来,就可以整体统计频率了。
7 z0 Q9 Q% K7 x$ H. Q2 w
5 c- c$ E b- z |' V
2 `$ s; ^! u/ B l; F1 C d4 J% u: J1 r: ]
当然里面会有很多无意义的字的组合,不过这类“词语”本身的出现就是一个偶然,所以可以预期的是它们整体的频数会很低,是入不了“大雅之堂”的。话不多说,直接上代码和结果。4 I* q9 o" G! Z1 _% z
3 E/ Q( s0 M- s9 m3 Z* X) n( s$ m; |- U) [6 H
内容很多参照自:http://blog.renren.c​om/blog/326678730/78​5811432 - ?2 M t4 c6 Y- s* R4 l1 `
' G/ w. ]2 |" ~& J( @; q$ X6 h. c
咩哈哈哈哈哈~~理科万岁
) N% l! i$ s2 C1 B% I" i' [3 x8 V1 [5 }9 v( T
6 F4 r0 y2 r/ _( e9 w" P; k
|
|