我有一个要维护的模块,看来它存在内核中保存引用计数器的问题,导致我无法rmmod我的模块,在我杀死守护程序后打开3个原始套接字到模块。有趣的是,在加载守护进程'lsmod'后,显示存在6个对模块的引用,我只期望有三个。
这是在基于ARM的Linux-2.6.31嵌入式系统上发生的,并且rmmod没有“强制”模式来尝试强制卸载模块(无论如何不是好主意)。
我已经分析了代码,这就是我所拥有的: 1)模块创建新的套接字地址族AF_HSL并向内核注册:
static struct proto_ops SOCKOPS_WRAPPED (hsl_ops) = {
family: AF_HSL,
owner: THIS_MODULE,
release: hsl_sock_release,
bind: _hsl_sock_bind,
connect: sock_no_connect,
socketpair: sock_no_socketpair,
accept: sock_no_accept,
getname: _hsl_sock_getname,
poll: datagram_poll,
ioctl: sock_no_ioctl,
listen: sock_no_listen,
shutdown: sock_no_shutdown,
setsockopt: sock_no_setsockopt,
getsockopt: sock_no_getsockopt,
sendmsg: _hsl_sock_sendmsg,
recvmsg: _hsl_sock_recvmsg,
mmap: sock_no_mmap,
sendpage: sock_no_sendpage,
};
static struct net_proto_family hsl_family_ops = {
family: AF_HSL,
create: _hsl_sock_create,
owner: THIS_MODULE
};
...
static int
_hsl_sock_create (struct net *net, struct socket *sock, int protocol)
{
struct sock *sk = NULL;
sock->state = SS_UNCONNECTED;
sk = sk_alloc (current->nsproxy->net_ns, AF_HSL, GFP_KERNEL, &_prot);
if (sk == NULL)
goto ERR;
sock->ops = &SOCKOPS_WRAPPED(hsl_ops);
sock_init_data (sock,sk);
sock_hold (sk); /* XXX */
...
}
static void
_hsl_sock_destruct (struct sock *sk)
{
struct hsl_sock *hsk, *phsk;
if (!sk)
return;
...
sock_orphan (sk);
skb_queue_purge (&sk->sk_receive_queue);
sock_put (sk);
}
int
hsl_sock_release (struct socket *sock)
{
struct sock *sk = sock->sk;
/* Here goes logic to destroy net_devices */
...
_hsl_sock_destruct (sk);
sock->sk = NULL;
return 0;
}
2)守护进程以这种方式创建套接字
fd = socket(AF_HSL, SOCK_RAW, 0);;
bind();
getsockname();
但是我不认为_hsl_sock_create()应该调用sock_hold(),这会阻塞套接字的引用计数,但是它已经被sock_init_data()设置为1,并且在套接字删除阶段,sock_put()会减1,但是这不会有插座空闲; d并且完全从系统中移除。
所以我试验并删除了sock_hold();现在杀死所有引用中的守护进程并且'rmmod'成功,但是启动守护进程后引用的数量仍然是3。</ p>
我还检查了socket_create()中的代码,它调用内部函数__socket_create(),后者又调用try_module_get()并保存模块的引用计数。这似乎是我发现的唯一明确增加模块引用的地方。
我仍然感到困惑。有人会试图帮助了解正在发生的事情吗?
期待您的回音。
标记